GPT-4 비전의 오픈소스 대안에 대해 알아야 할 사항

GPT-4 Vision은 새로운 사용자 경험을 만들어낼 수 있는 인상적인 모델입니다. 다행히도 오픈소스 대안이 있습니다. 하지만 이러한 대안에는 단점이 있습니다.

2024년 1월 4일 오후 2:00- 8달 전BDTECHTALKS.COM- Ben Dickson

GPT-4 비전의 오픈소스 대안에 대해 알아야 할 사항

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

OpenAI의 첨단 멀티모달 AI인 GPT-4 Vision은 텍스트와 이미지 처리를 통합하여 사용자 상호 작용에 혁명을 일으킬 잠재력이 있습니다. 이러한 시너지는 새로운 애플리케이션을 열고 사용자 경험을 크게 향상시킬 수 있습니다. 하지만 GPT-4를 사용하는 데 드는 비용이 높고 개인 정보 보호 문제로 인해 조직에서 민감한 데이터에 대해 타사 API를 사용하는 것을 꺼릴 수 있습니다.

다행히도 오픈소스 멀티모달 대규모 언어 모델(LLM)과 시각 언어 모델(VLM)이 있습니다. 이러한 모델은 개인 서버에 배포할 수 있으며 비용을 절감하고 데이터 개인 정보를 보호할 수 있습니다.

하지만 요구 사항에 맞는 적절한 솔루션을 선택할 때 이러한 오픈소스 모델의 한계를 인식하는 것이 중요합니다.

대규모 언어 및 비전 어시스턴트(LLaVA)

llava 아키텍처

LLaVA 아키텍처(출처: arxiv)

LLaVA 1.5는 다양한 멀티모달 벤치마크와 시각적 질문 답변 작업에서 뛰어난 성능으로 인정받는 선도적인 오픈소스 멀티모달 LLM입니다. LLaMA와 CLIP 모델을 결합하여 비전과 텍스트 데이터를 처리합니다. LLaVA 1.5는 고성능일 뿐만 아니라 매우 효율적이며 단일 GPU에서 실행됩니다.

이 모델의 학습은 인상적으로 빠릅니다. 개발자들은 단일 8-A100 노드에서 약 하루 만에 완전히 학습할 수 있으며 비용은 수백 달러에 불과하다고 보고합니다. 사전 학습된 LLaVA 모델은 Hugging Face 플랫폼에서 제공됩니다.

온라인에서 모델을 테스트할 수도 있습니다. LlaVA 1.5의 학습에는 GPT-4로 생성된 데이터가 포함되어 있으므로 비상업적 목적으로만 사용할 수 있습니다.

Fuyu

fuyu 아키텍처

Fuyu 아키텍처

Fuyu는 Adept에서 개발한 80억 개 매개변수의 멀티모달 LLM입니다. Fuyu의 독창성은 아키텍처에 있습니다. 이미지와 텍스트 처리를 위한 별도의 구성 요소가 없습니다. 대신 단일 디코더 전용 트랜스포머가 있습니다. 이러한 설계를 통해 Fuyu는 입력 이미지를 조각으로 분할하고 이를 원활하게 처리할 수 있습니다.

이 아키텍처는 두 가지 중요한 이점을 제공합니다. 첫째, Fuyu가 매우 민첩하여 품질 저하 없이 100밀리초 이내에 응답을 제공할 수 있습니다. 둘째, Fuyu는 이미지 해상도에 유연합니다. 다운샘플링을 요구하는 다른 모델과 달리 Fuyu는 조각이 컨텍스트 창에 맞는 한 원본 해상도의 이미지를 처리할 수 있습니다.

Fuyu는 Hugging Face에서 다운로드할 수 있습니다. Adept의 웹사이트에서는 Fuyu에 대한 추가적인 통찰력을 제공하며, Fuyu의 기능과 잠재적인 응용 프로그램을 자세히 설명합니다.

CogVLM

cogvlm 아키텍처

CogVLM 아키텍처

칭화대학교 연구원들은 170억 개 매개변수의 시각 언어 모델인 CogVLM을 개발했습니다. CogVLM의 아키텍처는 LLaVA와 유사하며, 이미지를 인코딩하는 비전 트랜스포머를 사용한 다음 텍스트 토큰 임베딩과 연결합니다.

CogVLM은 연구 논문에서 자세히 설명된 바와 같이 다양한 시각 언어 작업에서 우수한 성능을 발휘합니다. 질문 답변, 다단계 추론, 심지어 시각적 입력이 필요한 프로그래밍 작업에도 효과적입니다. 연구원들은 또한 자율 에이전트를 만드는 CogVLM의 반복인 CogAgent를 개발했습니다. 이러한 에이전트는 GUI와 상호 작용할 수 있으며 자동화 및 사용자 상호 작용을 위한 새로운 길을 열어줍니다. CogVLM을 사용해 보고 싶다면 프로젝트의 GitHub 페이지에서 웹 데모를 사용할 수 있습니다.

GPT-4V와 LLaVA 1.5로 재미있게 즐기기

벤치마크 결과가 인상적이고 주목할 만하지만, 모델을 애플리케이션에 통합하기 전에 모델을 직접 실험해 보는 것이 중요합니다. 분명히 GPT-4 Vision이 가장 뛰어난 모델이지만, 다른 모델의 한계와 경계를 확인하기 위해 할 수 있는 몇 가지 작업이 있습니다. 이상적으로는 모델이 직면하게 될 예제 범위를 나타내는 특정 애플리케이션에 대한 테스트 데이터 세트를 만들어야 합니다.

다음은 제가 직접 실험한 몇 가지 예입니다. GPT-4V를 사용할 때는 모델을 테스트하는 데 사용하는 데이터가 학습 세트에 포함되었는지 여부를 알기가 매우 어렵습니다.

다양한 예제(단순한 것부터 복잡한 것까지)를 사용하여 GPT-4V와 LLaVA 1.5를 간단히 비교했습니다. 먼저 이 이미지에 대한 캡션을 작성하는 간단한 예제부터 시작했습니다. 온도를 0.1과 1로 설정하여 두 모델을 모두 시도했습니다. 이는 대규모 이미지 데이터 세트에 대한 캡션을 생성하려는 경우 중요한 기능입니다.

마카롱

이미지 출처: 123RF