요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
마이크로소프트의 지원을 받고 있으며 추정 가치가 60억 달러에 달하는 프랑스 AI 스타트업 미스트랄이 공개했습니다 코드스트랄이라는 코드 생성 AI 모델을.
다른 많은 코드 생성 모델과 마찬가지로 개발자가 코드를 작성하고 상호 작용할 수 있도록 설계된 코드스트랄은 Python, Java, C++, JavaScript를 포함한 80개 이상의 프로그래밍 언어 데이터 세트로 학습되었다고 미스트랄은 블로그 게시물에서 설명합니다. 코드스트랄은 코딩 기능을 완성하고, 테스트를 작성하고, 부분적인 코드를 “채우는“ 것 외에도 코드베이스에 대한 질문에 영어로 답변할 수 있습니다.
미스트랄은 이 모델을 “개방형“이라고 설명하지만, 이는 논란의 여지가 있습니다. 이 스타트업의 라이선스는 모든 상업적 활동에 대해 코드스트랄과 그 결과물의 사용을 금지하고 있습니다. “개발“에 대한 예외 조항이 있지만, 이마저도 상당히 제한적입니다. 라이선스에서는 “회사의 비즈니스 활동과 관련하여 직원이 내부적으로 사용하는 행위“를 명시적으로 금지하고 있습니다.
그 이유는 코드스트랄이 저작권이 있는 콘텐츠로 부분적으로 학습되었기 때문일 수 있습니다. 미스트랄은 블로그 게시물에서 이를 확인하거나 부인하지 않았지만, 정확히 말하면 놀라운 일이 아닙니다. 이 스타트업의 이전 학습 데이터 세트에 저작권이 있는 데이터가 포함되어 있다는 증거가 있습니다.
어쨌든 코드스트랄은 그럴 만한 가치가 없을 수도 있습니다. 22GB 크기의 이 모델을 실행하려면 성능이 뛰어난 PC가 필요합니다. 그리고 널리 사용되는 코딩 벤치마크에서 Meta의 Llama 3 모델보다 성능이 약간 뛰어난 수준입니다.
이미지 출처: 미스트랄
대부분의 개발자에게 비실용적이고 성능 개선 측면에서 점진적인 수준이지만, 코드스트랄은 코드 생성 모델을 프로그래밍 보조 도구로 사용하는 것이 과연 현명한 것인지에 대한 논쟁에 불을 지필 것입니다.
개발자들은 최소한 일부 코딩 작업에 생성형 AI 도구를 수용하고 있습니다. 2023년 6월 스택 오버플로 설문 조사에 따르면 개발자의 44%가 현재 개발 프로세스에서 AI 도구를 사용하고 있으며 26%는 곧 사용할 계획이라고 답했습니다. 하지만 이러한 도구에는 분명한 결함이 있습니다.
GitClear에서 지난 몇 년 동안 프로젝트 저장소에 커밋된 1억 5천만 줄 이상의 코드를 분석한 결과, 생성형 AI 개발 도구로 인해 더 많은 실수가 있는 코드가 코드베이스에 푸시되고 있는 것으로 나타났습니다. 또한 보안 연구원들은 이러한 도구가 소프트웨어 프로젝트의 기존 버그와 보안 문제를 증폭시킬 수 있다고 경고했습니다. 퍼듀 대학교의 연구에 따르면 OpenAI의 ChatGPT가 프로그래밍 질문에 대해 제공하는 답변의 절반 이상이 틀렸다고 합니다.
하지만 미스트랄과 같은 회사들이 자사 모델을 수익화하고 사용자들의 마음을 사로잡으려는 시도를 멈추지는 않을 것입니다. 오늘 아침 미스트랄은 대화형 AI 플랫폼인 르 챗과 유료 API에서 호스팅되는 코드스트랄 버전을 출시했습니다. 미스트랄은 LlamaIndex, LangChain, Continue.dev, Tabnine과 같은 앱 프레임워크 및 개발 환경에 코드스트랄을 구축하기 위해 노력했다고 밝혔습니다.