요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
2024년 5월 21일 오후 6시 35분
출처: OpenAI DALL-E 3으로 제작된 VentureBeat
생성형 AI 분야의 경쟁이 멀티모달 모델로 이동함에 따라, Meta는 최첨단 연구소에서 출시한 모델에 대한 답이 될 수 있는 모델의 미리보기를 공개했습니다. 새로운 모델 제품군인 카멜레온은 서로 다른 모달을 가진 구성 요소를 결합하는 대신 기본적으로 멀티모달이 되도록 설계되었습니다.
Meta는 아직 모델을 출시하지 않았지만, 보고된 실험 결과에 따르면 카멜레온은 텍스트 전용 작업에서 경쟁력을 유지하면서 이미지 캡셔닝 및 시각적 질문 답변(VQA)을 포함한 다양한 작업에서 최첨단 성능을 달성했습니다.
카멜레온의 아키텍처는 시각적 정보와 텍스트 정보 모두에 대한 깊은 이해가 필요한 새로운 AI 애플리케이션의 잠재력을 열어줍니다.
얼리 퓨전 멀티모달 모델
멀티모달 기반 모델을 만드는 일반적인 방법은 서로 다른 모달을 위해 학습된 모델을 패치하는 것입니다. 이러한 접근 방식을 “레이트 퓨전“이라고 하며, AI 시스템이 서로 다른 모달을 수신하고, 별도의 모델로 인코딩한 다음, 추론을 위해 인코딩을 융합합니다. 레이트 퓨전은 잘 작동하지만, 모델이 모달 간에 정보를 통합하고 인터리빙된 이미지와 텍스트 시퀀스를 생성하는 능력을 제한합니다.
카멜레온은 “얼리 퓨전 토큰 기반 혼합 모달“ 아키텍처를 사용합니다. 즉, 이미지, 텍스트, 코드 및 기타 모달이 인터리빙된 혼합에서 학습하도록 처음부터 설계되었습니다. 카멜레온은 언어 모델이 단어를 처리하는 것처럼 이미지를 개별 토큰으로 변환합니다. 또한 텍스트, 코드 및 이미지 토큰으로 구성된 통합 어휘를 사용합니다. 이를 통해 이미지 토큰과 텍스트 토큰이 모두 포함된 시퀀스에 동일한 트랜스포머 아키텍처를 적용할 수 있습니다.
연구원들에 따르면, 카멜레온과 가장 유사한 모델은 얼리 퓨전 토큰 기반 접근 방식을 사용하는 Google Gemini입니다. 그러나 Gemini는 생성 단계에서 별도의 이미지 디코더를 사용하는 반면, 카멜레온은 토큰을 처리하고 생성하는 엔드 투 엔드 모델입니다.
연구원들은 “카멜레온의 통합 토큰 공간을 통해 모달별 구성 요소 없이도 인터리빙된 이미지 및 텍스트 시퀀스를 원활하게 추론하고 생성할 수 있습니다.“라고 말합니다.
메타 카멜레온 인코딩 및 디코딩 로직 (출처: arxiv)
얼리 퓨전은 매우 매력적이지만, 모델을 학습하고 확장할 때 상당한 어려움이 있습니다. 이러한 문제를 극복하기 위해 연구원들은 일련의 아키텍처 수정 및 학습 기술을 사용했습니다. 논문에서 그들은 다양한 실험과 모델에 미치는 영향에 대한 세부 정보를 공유합니다.
카멜레온 학습은 텍스트 4조 4천억 개, 이미지-텍스트 쌍, 인터리빙된 텍스트 및 이미지 시퀀스가 포함된 데이터 세트를 사용하여 두 단계로 진행됩니다. 연구원들은 Nvidia A100 80GB GPU에서 500만 시간 이상 동안 70억 개 및 340억 개 매개변수 버전의 카멜레온을 학습했습니다.
카멜레온 실제 적용
논문에 보고된 실험에 따르면 카멜레온은 다양한 텍스트 전용 및 멀티모달 작업을 수행할 수 있습니다. 시각적 질문 답변(VQA) 및 이미지 캡셔닝 벤치마크에서 Chameleon-34B는 Flamingo, IDEFICS 및 Llava-1.5와 같은 모델을 능가하는 최첨단 성능을 달성했습니다.
연구원들에 따르면, 카멜레온은 “사전 학습 및 미세 조정 모델 평가 모두에서 훨씬 적은 수의 컨텍스트 내 학습 예제와 더 작은 모델 크기“로 다른 모델의 성능과 일치합니다.
멀티모달의 장점 중 하나는 단일 모달 요청에서 성능 저하가 있다는 것입니다. 예를 들어, 비전-언어 모델은 텍스트 전용 프롬프트에서 성능이 떨어지는 경향이 있습니다. 그러나 카멜레온은 텍스트 전용 벤치마크에서 경쟁력을 유지하며, 상식 추론 및 독해력 작업에서 Mixtral 8x7B 및 Gemini-Pro와 같은 모델과 일치합니다.
흥미롭게도 카멜레온은 특히 프롬프트에서 텍스트와 이미지가 인터리빙된 혼합 모달 응답을 기대할 때 혼합 모달 추론 및 생성을 위한 새로운 기능을 제공할 수 있습니다. 사람이 평가한 응답을 사용한 실험에 따르면 전반적으로 사용자는 카멜레온이 생성한 멀티모달 문서를 선호했습니다.
지난주에 OpenAI와 Google은 모두 풍부한 멀티모달 경험을 제공하는 새로운 모델을 공개했습니다. 그러나 그들은 모델에 대한 자세한 내용을 많이 공개하지 않았습니다. Meta가 기존의 방식을 계속 고수하고 카멜레온의 가중치를 공개한다면, 비공개 모델에 대한 공개적인 대안이 될 수 있습니다.
또한 얼리 퓨전은 특히 더 많은 모달이 혼합에 추가됨에 따라 더욱 발전된 모델에 대한 연구를 위한 새로운 방향을 제시할 수 있습니다. 예를 들어, 로봇 공학 스타트업은 이미 로봇 제어 시스템에 언어 모델을 통합하는 실험을 하고 있습니다. 얼리 퓨전이 로봇 공학 기반 모델을 어떻게 개선할 수 있는지 살펴보는 것도 흥미로울 것입니다.
연구원들은 “카멜레온은 멀티모달 콘텐츠를 유연하게 추론하고 생성할 수 있는 통합 기반 모델이라는 비전을 실현하는 데 중요한 진전을 이루었습니다.“라고 말합니다.