요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
(이 기사는 AI 연구의 최신 내용을 다룬 시리즈의 일부입니다.)
불과 몇 년 만에 대규모 언어 모델(LLM)은 수천 개의 토큰을 처리하는 것에서 수백만 개의 토큰을 처리하는 것으로 진화했습니다. LLM의 거의 무한대에 가까운 컨텍스트 창은 새로운 애플리케이션과 사용자 지정 작업에 맞게 조정하는 더 쉬운 방법을 열어줍니다.
카네기 멜론 대학교와 텔아비브 대학교 연구진의 최근 연구에 따르면, 롱컨텍스트 모델을 사용한 인컨텍스트 러닝(ICL)은 특히 대규모 데이터 세트를 다룰 때 파인튜닝된 모델에 필적하거나 심지어 능가하는 성능 수준을 달성할 수 있습니다.
이러한 연구 결과는 롱컨텍스트 LLM을 사용한 ICL이 제품 팀이 리소스 집약적이고 시간이 많이 소요되는 기술을 사용하지 않고도 프로토타입과 전체 애플리케이션을 만들 수 있도록 도울 수 있음을 시사합니다.
퓨샷 및 매니샷 인컨텍스트 러닝
LLM을 재교육하거나 파인튜닝하지 않고도 새로운 작업을 수행하도록 조정할 수 있습니다. 이를 위해 인컨텍스트 러닝 기능을 사용할 수 있습니다. 프롬프트에 문제-해결 쌍의 예를 삽입하면 모델은 해결 패턴을 찾아 유사한 문제를 해결할 수 있습니다.
모델이 지원하는 ICL 예제의 수는 컨텍스트 창의 길이에 따라 달라집니다. 예를 들어, GPT-3의 초기 버전은 약 2,000개의 토큰을 지원했기 때문에 몇 개의 ICL 예제만 사용할 수 있었습니다. 그러나 초기 연구에 따르면 퓨샷 ICL을 사용하여 모델이 많은 새로운 작업을 수행하도록 할 수 있었습니다.
그러나 GPT-4는 최대 128,000개의 토큰을 지원하고 Google의 Gemini 1.5 Pro는 2백만 개의 토큰을 지원합니다. 이러한 모델은 프롬프트에 수백 또는 수천 개의 예제가 있는 롱샷 ICL을 지원합니다.
Google의 최근 연구에서는 LLM에 새로운 작업을 교육하거나 학습된 편견을 변경하는 데 있어 롱샷 ICL의 인상적인 기능을 살펴봅니다. 그러나 이 연구는 Gemini Pro에만 초점을 맞췄기 때문에 다른 기준과 비교하기가 어렵습니다.
롱샷 ICL vs. 검색 및 파인튜닝
카네기 멜론 대학교와 텔아비브 대학교의 연구진은 새로운 연구에서 오픈 모델을 실험했습니다. 이들은 최대 80,000개의 토큰으로 구성된 컨텍스트 창을 가진 Llama-2 7B의 다양한 버전과 Mistral-7B의 32k 버전을 사용했습니다.
실험에는 여러 분류 데이터 세트가 포함되었습니다. 목표는 보이지 않는 예제를 분류하는 모델의 기능을 향상시키기 위해 ICL을 어느 정도까지 사용할 수 있는지 확인하는 것이었습니다. 롱샷 ICL을 검색 증강 생성(RAG) 및 메모리 및 계산 요구 사항을 줄이는 LLM 파인튜닝 방법인 저랭크 적응(LoRA)과 비교했습니다.
연구 결과에 따르면 ICL을 많은 예제로 확장하면 강력한 결과를 얻을 수 있습니다. ICL 예제를 10개에서 1,000개로 늘리면 최대 50.8포인트까지 향상되었습니다.
다양한 분류 벤치마크에서 매니샷 ICL vs. RAG
ICL 예제가 적으면 RAG가 무작위 샘플링보다 성능이 뛰어납니다. 그러나 예제를 더 많이 추가할수록 선택 전략의 중요성이 줄어듭니다. 이를 통해 RAG 파이프라인을 설정하지 않고도 개념 증명을 테스트할 수 있습니다.
예제 세트가 작으면 ICL이 일반적으로 LoRA 파인튜닝보다 성능이 뛰어납니다. 연구진은 레이블 공간이 클수록 ICL에 비해 파인튜닝 성능이 저하된다는 사실을 발견했는데, “이는 이러한 문제가 보다 개방적인 분류 문제이며 분류기를 훈련하는 데 더 많은 데이터가 필요하기 때문일 가능성이 높습니다.” 그러나 파인튜닝된 모델의 추론 비용은 ICL보다 훨씬 저렴합니다.
또 다른 흥미로운 관찰은 예제 수가 증가함에 따라 레이블 정렬이 성능에 큰 영향을 미치기 시작한다는 것입니다. ICL 예제가 많으면 레이블별로 정렬하면 무작위 순서에 비해 모델의 성능이 저하됩니다.
연구진은 “이는 서로 다른 레이블을 가진 예제의 컨텍스트화가 성능에 중요하며 이러한 컨텍스트화는 컨텍스트 창에서 비교적 짧은 거리에서만 효과적으로 발생한다는 것을 시사합니다.”라고 말합니다.
LLM 애플리케이션에 미치는 영향
롱샷 ICL은 LLM 애플리케이션 개발에 중요한 의미를 갖습니다. LLM 발전의 일반적인 추세는 머신 러닝 애플리케이션을 만드는 데 대한 장벽을 낮추는 것이었습니다. 예를 들어, 이전에는 감정 분석 모델을 만들기 위해 ML 전문가 팀과 수 주간의 교육 및 테스트가 필요했습니다. 이제 사전 훈련된 LLM에 대한 간단한 프롬프트 엔지니어링으로 이 작업을 수행할 수 있습니다.
롱샷 ICL은 ML 애플리케이션을 만드는 데 대한 장벽을 더욱 낮춥니다. 예를 들어, 모델이 제로샷 프롬프팅으로 즉시 수행할 수 없는 애플리케이션이 있는 경우 일반적으로 모델을 파인튜닝하거나 RAG 파이프라인을 설정하여 필요한 컨텍스트 정보를 제공해야 합니다.
이제 매니샷 ICL 덕분에 모든 문서나 데모를 컨텍스트 창에 덤프하고 프롬프트에서 작업할 수 있습니다. 이를 통해 프로토타입 및 개념 증명을 만드는 데 드는 시간을 절약할 수 있습니다. 또한 풍부한 머신 러닝 경험과 코딩 기술이 없는 제품 관리자가 자체 프로토타입을 만들고 반복할 수 있습니다.
그러나 제품-시장 적합성에 도달하고 규모에 맞게 LLM 애플리케이션을 최적화해야 하는 경우 여전히 비용을 절감하고 속도를 높이기 위해 할 수 있는 모든 것을 해야 합니다. 롱샷 ICL은 토큰당 비용을 지불하는 경우 비용이 많이 듭니다. 또한 모델을 호스팅하는 경우 추론 속도가 느려지고 메모리 요구 사항이 증가할 수 있습니다. 이때 나머지 기술이 도움이 될 수 있습니다. 예를 들어, 간단한 RAG 파이프라인은 토큰 소비를 크게 줄일 수 있습니다. 파인튜닝을 통해 모델은 추가 컨텍스트 토큰을 제공하지 않고도 제로샷 질문 답변을 수행할 수 있습니다. Adapt-LLM과 같은 파인튜닝 기술을 사용하면 모델이 주제에 대한 확신에 따라 RAG와 메모리 내 지식 중에서 선택할 수 있습니다. 결국 사용자 지정 양방향 인코더를 사용하여 분류와 같은 작업을 보다 효율적으로 수행하고 메모리 집약적인 LLM이 필요하지 않도록 하는 등의 고급 기술을 사용할 수 있습니다.
이러한 모든 도구와 기술은 어떤 식으로든 도움이 될 것입니다. 그러나 매니샷 ICL과 같은 발전으로 LLM 애플리케이션을 시작하는 것이 그 어느 때보다 쉬워졌습니다.