요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
2024년 5월 23일 오전 10:30
출처: Midjourney로 제작된 VentureBeat
오늘 캐나다 기업 AI 스타트업 Cohere의 비영리 연구 부문인 Cohere for AI (C4AI)는 최첨단 다국어 언어 모델 제품군인 Aya 23의 오픈 가중치 출시를 발표했습니다.
8B 및 35B 매개변수 변형(매개변수은 AI 모델에서 인공 뉴런 간 연결 강도를 나타내며, 일반적으로 더 강력하고 유능한 모델을 나타냄)으로 사용 가능한 Aya 23은 강력한 다국어 기능을 제공하는 것을 목표로 하는 C4AI의 Aya 이니셔티브에 따른 최신 작업입니다.
특히 C4AI는 Aya 23의 가중치를 오픈 소스화했습니다. 이러한 가중치는 LLM 내의 매개변수 유형이며 궁극적으로 AI 모델의 기본 신경망 내에서 데이터 입력을 처리하는 방법과 출력할 내용을 결정할 수 있도록 하는 숫자입니다. 이와 같이 오픈 릴리스에서 이러한 가중치에 액세스할 수 있으므로 타사 연구자는 개별 요구에 맞게 모델을 미세 조정할 수 있습니다. 동시에 학습 데이터와 기본 아키텍처도 공개되는 전체 오픈 소스 릴리스에는 미치지 못합니다. 하지만 여전히 Meta의 Llama 모델과 같은 수준으로 매우 허용적이고 유연합니다.
Aya 23은 원래 모델인 Aya 101을 기반으로 구축되었으며 23개 언어를 지원합니다. 여기에는 아랍어, 중국어(간체 및 번체), 체코어, 네덜란드어, 영어, 프랑스어, 독일어, 그리스어, 히브리어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 스페인어, 터키어, 우크라이나어, 베트남어가 포함됩니다.
Cohere for AI에 따르면 이 모델은 세계 인구의 거의 절반에 대해 최첨단 언어 모델링 기능을 확장하며 Aya 101뿐만 아니라 Google의 Gemma 및 Mistral의 다양한 오픈 소스 모델과 같은 다른 오픈 모델보다도 성능이 뛰어나 해당 언어 전반에 걸쳐 더 높은 품질의 응답을 제공합니다.
Aya로 언어 장벽 허물기
지난 몇 년 동안 대규모 언어 모델(LLM)이 크게 발전했지만, 이 분야의 작업 대부분은 영어 중심적이었습니다.
결과적으로 대부분의 모델은 매우 뛰어난 기능을 갖추고 있음에도 불구하고 소수의 언어를 제외하고는 성능이 저하되는 경향이 있습니다. 특히 저자원 언어를 처리할 때 그렇습니다.
C4AI 연구자들에 따르면 문제는 두 가지였습니다. 첫째, 강력한 다국어 사전 학습 모델이 부족했습니다. 둘째, 다양한 언어 세트를 포괄하는 지침 스타일 학습 데이터가 충분하지 않았습니다.
이 문제를 해결하기 위해 이 비영리 단체는 119개국의 3,000명이 넘는 독립 연구자들과 함께 Aya 이니셔티브를 시작했습니다. 이 그룹은 처음에 5억 1,300만 개의 프롬프트 및 완성 인스턴스로 구성된 방대한 다국어 지침 스타일 데이터 세트인 Aya Collection을 만든 다음 이를 사용하여 101개 언어를 포괄하는 지침 미세 조정 LLM을 개발했습니다.
101개 언어를 지원하는 대규모 다국어 언어 모델링에서 중요한 진전을 이룬 모델인 Aya 101은 2024년 2월에 오픈 소스 LLM으로 출시되었습니다.
하지만 이 모델은 지식과 성능 면에서 이제 구식이 된 mT5를 기반으로 구축되었습니다.
둘째, 가능한 한 많은 언어를 포괄하는 데 중점을 두고 설계되었습니다. 이로 인해 모델의 용량이 너무 광범위하게 공유되어 특정 언어에 대한 성능이 저하되었습니다.
이제 Cohere for AI는 Aya 23을 출시함으로써 폭과 깊이의 균형을 맞추고 있습니다. 기본적으로 Cohere의 Command 시리즈 모델 및 Aya Collection을 기반으로 하는 이 모델은 더 적은 수의 언어(23개)에 더 많은 용량을 할당하는 데 중점을 두어 해당 언어 전반에 걸쳐 생성을 개선합니다.
평가 결과 이 모델은 Aya 101은 물론 Gemma, Mistral, Mixtral과 같은 널리 사용되는 모델보다도 광범위한 판별 및 생성 작업에서 더 나은 성능을 보였습니다.
'Aya 101과 비교하여 Aya 23은 판별 작업에서 최대 14%, 생성 작업에서 최대 20%, 다국어 MMLU에서 최대 41.6%까지 개선되었습니다. 또한 Aya 23은 Aya 101\과 비교하여 다국어 수학적 추론에서 6.6배 향상된 성능을 달성했습니다. Aya 101, Mistral, Gemma 전반에 걸쳐 사람 주석자와 LLM을 심사자로 사용한 비교를 혼합하여 보고합니다. 모든 비교에서 Aya-23-8B 및 Aya-23-35B가 지속적으로 선호되었습니다.'라고 연구자들은 새로운 모델을 자세히 설명하는 기술 문서에 적었습니다.
판별 및 생성 다국어 벤치마크에서 Aya-23-35B는 해당 언어에 대해 가장 높은 결과를 달성합니다. Aya-23-8B는 비슷한 모델 크기의 다국어 성능에서 동급 최고를 보여줍니다. pic.twitter.com/84uVNmbu7f
— Cohere For AI (@CohereForAI) 2024년 5월 23일
즉시 사용 가능
Cohere for AI는 이러한 작업을 통해 고성능 다국어 모델을 향해 한 걸음 더 나아갔습니다.
이 연구에 대한 액세스를 제공하기 위해 이 회사는 Creative Commons Attribution-NonCommercial 4.0 International Public License에 따라 8B 및 35B 모델 모두에 대한 오픈 가중치를 Hugging Face에 공개했습니다.
'Aya 23 모델 제품군의 가중치를 공개함으로써 연구자와 실무자가 다국어 모델 및 애플리케이션을 발전시킬 수 있도록 지원하고자 합니다.'라고 연구자들은 덧붙였습니다. 특히 사용자는 Cohere Playground에서 새로운 모델을 무료로 사용해 볼 수 있습니다.