요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
최근 몇 달 동안 최첨단 인공지능 기업과 연구소는 대규모 언어 모델(LLM)의 컨텍스트 윈도우를 확장하는 데 놀라운 진전을 이루었습니다. LLM의 컨텍스트 윈도우는 모델이 처리할 수 있는 입력의 길이입니다. 컨텍스트 윈도우가 길수록 모델에 제공되는 프롬프트에 더 많은 정보와 지침을 담을 수 있습니다.
몇 년 전만 해도 GPT-3에서 2,048 토큰이었던 컨텍스트 윈도우는 지금은 Gemini 1.5 Pro에서 100만 토큰으로 확장되었습니다. 새로운 기술들은 LLM의 메모리를 무한 토큰으로 더욱 확장할 것을 약속합니다. 개선된 주의 기법을 통해 LLM은 매우 긴 텍스트에서 매우 구체적인 정보에 대해 응답할 수 있으며, 이는 “건초더미에서 바늘 찾기“ 테스트라고도 합니다.
LLM이 더 긴 컨텍스트를 지원하게 되면서 자주 제기되는 질문 중 하나는 LLM을 미세 조정해야 할 필요가 있는지 또는 검색 기반 생성(RAG)을 사용해야 할 필요가 있는지입니다. 이러한 노력들은 매우 효과적이고 유용하지만 때로는 광범위한 엔지니어링 노력을 필요로 합니다.
LLM에 관한 많은 다른 것들과 마찬가지로 답은 “예”와 “아니오” 모두입니다. LLM은 프로젝트 초기 단계에서 많은 엔지니어링 노력을 불필요하게 만들 수 있습니다. 하지만 모델 사용을 확장할 때는 검증된 최적화 기법을 다시 살펴볼 필요가 있습니다.
무한 컨텍스트 vs 미세 조정
LLM을 미세 조정하려면 몇 가지 단계가 필요합니다. 먼저 학습 데이터를 수집하고 라벨링해야 합니다. 그런 다음 요구 사항에 맞는 모델을 선택하고 컴퓨팅 클러스터를 설정한 다음 미세 조정을 위한 코드를 작성하고 실행해야 합니다. 미세 조정 서비스가 등장하면서 이제는 자체 GPU를 설정할 필요 없이 API 서비스를 통해 모델을 미세 조정할 수 있습니다. 하지만 여전히 에포크 수와 모델 평가와 같은 학습 프로세스를 제어해야 합니다.
반면에 무한 컨텍스트 LLM을 사용하면 프롬프트 엔지니어링을 통해 모델의 동작을 조정할 수 있습니다. Google DeepMind의 최근 논문에서는 다중 샷 컨텍스트 내 학습(ICL)의 가능성을 탐구합니다. 이는 LLM의 컨텍스트 윈도우가 커지면서 가능해졌습니다. 기본적으로 입력-출력 예제를 수백 또는 수천 개 프롬프트에 삽입함으로써 이전에 미세 조정이 필요했던 작업을 수행하도록 모델을 유도할 수 있습니다.
프롬프트 엔지니어링의 기술적 진입 장벽은 매우 낮으며 모델에 액세스할 수 있는 모든 사람이 이용할 수 있습니다. 소프트웨어 개발 경험이 없는 사람도 다중 샷 ICL과 같은 기법을 사용하여 자신의 요구 사항에 맞게 LLM을 구성할 수 있습니다.
무한 컨텍스트 vs RAG
검색 기반 생성(RAG)은 미세 조정보다 더 기술적입니다. 먼저 문서를 관리 가능한 청크로 분할하고 임베딩을 계산하여 벡터 데이터베이스에 저장해야 합니다. 그런 다음 사용자 요청의 임베딩을 계산하고 벡터 저장소에서 관련 문서 청크를 검색한 후 해당 콘텐츠를 프롬프트에 추가하여 모델에 전달하는 프롬프트 파이프라인을 만들어야 합니다.
RAG 파이프라인을 개선하려면 재순위 지정, 멀티 홉 검색, 맞춤형 임베딩 모델 생성과 같은 더 고급 기술을 사용해야 합니다.
반면에 무한 주의를 사용하면 모든 문서를 프롬프트에 간단히 덤프하고 모델이 관련 부분을 선택하여 응답에 사용하도록 하는 다양한 지침을 시도해 볼 수 있습니다. 최첨단 모델은 이제 여러 권의 책에 해당하는 데이터를 프롬프트에 로드할 수 있습니다. 그리고 답변을 위해 특정 정보를 정확하게 찾아내는 데 매우 능숙합니다.
즉, 예를 들어 프로그래밍 라이브러리에 대한 전체 설명서를 프롬프트에 삽입하고 모델이 해당 라이브러리를 사용하여 코드를 작성하도록 도울 수 있습니다.
LLM과 엔지니어링
LLM의 일반적인 추세는 머신 러닝 시스템을 만드는 진입 장벽을 낮추는 것입니다. LLM의 제로 샷, 퓨 샷, 그리고 이제는 다중 샷 학습 기능 덕분에 이전에는 며칠 또는 몇 주의 엔지니어링이 필요했던 작업을 수행하도록 LLM을 유도할 수 있습니다. 예를 들어 GPT-4 또는 Claude 3과 같은 LLM을 사용하여 모델을 훈련하지 않고 최소한의 코딩으로 전체 감정 분석 시스템을 만들 수 있습니다.
더 긴 컨텍스트는 이러한 추세를 이어갈 것이며 복잡한 작업을 위한 엔지니어링 노력을 불필요하게 만들 것입니다. 하지만 긴 컨텍스트 및 무한 컨텍스트 LLM은 만능 해결책이 아닙니다.
성공적인 제품과 애플리케이션을 만드는 것은 문제를 해결하는 개념 증명을 만드는 것만으로는 충분하지 않습니다. 규모에 맞게 작동하는 시스템을 만드는 것도 필요합니다.
예를 들어 프로토타입을 만드는 동안 수십 또는 수백 개의 추론 요청을 처리하는 경우 비용과 추론 속도는 큰 문제가 되지 않습니다. 하지만 하루에 수천만 개의 요청을 처리하는 경우 프롬프트에서 몇 토큰을 추가하거나 제거하는 것만으로도 컴퓨팅, 메모리 및 재정 비용에 상당한 영향을 미칠 수 있습니다.
미세 조정, RAG, 그리고 이를 지원하기 위해 만들어진 모든 기술과 도구는 이러한 목적을 위해 존재합니다. 예를 들어 저랭크 적응(LoRA)을 사용하면 모델당 수십억 개의 매개변수를 저장할 필요 없이 수백 또는 수천 개의 미세 조정된 LLM을 만들 수 있습니다. 이러한 기술은 사용량이 많은 애플리케이션을 위한 게임 체인저가 될 수 있습니다.
최첨단 연구소가 LLM의 기능을 계속 발전시키면서 AI 애플리케이션 개념을 만드는 것이 더 쉬워질 것입니다. 제품 팀은 ML 팀 없이도 프로토타입을 만들고 반복할 수 있습니다. 이는 제품-시장 적합성에 도달하는 프로세스를 가속화할 것입니다. 하지만 개념 증명을 넘어서면 뛰어난 엔지니어링 기술과 신뢰할 수 있고 확장 가능한 ML 파이프라인을 만들 수 있는 유능한 팀의 가치를 과소평가해서는 안 됩니다.
HyperWrite AI의 CEO인 Matt Shumer가 명쾌하게 말했듯이, “프롬프트로 PMF에 도달한 다음 미세 조정으로 확장하십시오.