요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
이 글은 AI 연구 분야의 최신 소식을 다루는 시리즈의 일부입니다.
검색 기반 생성(RAG) 파이프라인은 대규모 언어 모델(LLM)이 응답에 외부 정보 소스를 사용할 수 있도록 합니다. 하지만 RAG 애플리케이션은 LLM으로 보내지는 모든 요청에 대해 외부 정보를 검색합니다. LLM은 이미 검색 없이 사용할 수 있는 많은 지식을 가지고 있기 때문에 이 프로세스는 비효율적입니다.
LLM이 내부 지식만으로는 충분하지 않을 때만 RAG를 사용하도록 구성할 수 있다면 어떨까요? 보젠-볼차노 대학교와 브루노 케슬러 재단의 연구원들이 개발한 Adapt-LLM은 질의응답 작업에서 추가 컨텍스트 정보를 검색해야 하는지 여부를 동적으로 결정하도록 LLM을 훈련하는 기술입니다. Adapt-LLM은 불필요한 검색을 방지하고 LLM 애플리케이션의 효율성을 높이는 데 도움이 될 수 있습니다.
메모리 vs 검색
LLM이 질문에 답하는 두 가지 주요 방법이 있습니다. 첫 번째는 훈련 중에 얻은 매개변수 메모리에 의존하는 것입니다. 매개변수 메모리의 제한 사항은 훈련 코퍼스에 완전히 의존한다는 것입니다. 모델의 주의를 관련 매개변수에 집중시키는 미세 조정 또는 몇 샷 프롬프팅 기술을 통해 매개변수의 성능을 향상시킬 수 있습니다. 하지만 이러한 기술은 훈련 코퍼스에 포함되지 않은 최신 뉴스나 개인 정보와 같이 모델이 동적으로 새로운 정보를 사용해야 하는 시나리오에서는 유용하지 않습니다.
두 번째 범주는 정보 검색기를 사용하여 모델에 컨텍스트 정보를 제공하는 것입니다. 검색 기반 생성은 이 범주에 속합니다.
정보 검색의 문제점은 모델이 추가 컨텍스트 정보를 필요로 하지 않고 질문에 답할 만큼 충분한 내부 지식을 가지고 있는 경우가 있다는 것입니다. 두 가지 방법은 닫힌 책과 열린 책 질의응답에 비유할 수 있습니다.
인간은 하이브리드 접근 방식을 사용합니다. 예를 들어, 질문에 대한 답을 외우고 있다면 즉시 답변할 수 있습니다. 하지만 지식에 대해 확신이 서지 않으면 외부 소스를 사용합니다. 일부 LLM 기술은 인기도 점수를 통해 이러한 하이브리드 접근 방식을 사용합니다. 질문이 매우 인기가 많으면 모델이 내부 지식으로 응답할 수 있다는 가정입니다. 인기가 적은 질문의 경우 모델은 RAG 시스템의 도움을 받아 필요한 정보를 얻어야 합니다.
하지만 이러한 접근 방식은 질문에 항상 제공되지 않는 인기도 점수가 있어야 합니다.
Adapt-LLM
Adapt-LLM 프레임워크
Adapt-LLM은 언어 모델을 “적응형 검색“을 위해 훈련하여 추가 컨텍스트를 위해 정보 검색 시스템을 언제 사용해야 하는지 자율적으로 결정할 수 있도록 합니다.
“이 접근 방식에서 작업에 대한 해결책이 모델의 매개변수에 인코딩되어 있으면 모델은 직접 사용하여 해결책을 생성합니다. 반대로 답변이 모델의 지식에 인코딩되지 않으면 답변 생성은 외부 지식으로 보강됩니다.”라고 연구원들은 썼습니다.
Adapt-LLM은 네 단계로 작동합니다.
-
질문이 포함된 첫 번째 프롬프트가 Adapt-LLM 모델로 전송됩니다.
-
모델은 프롬프트를 평가하여 질문에 효과적으로 답변하기 위해 추가 컨텍스트가 필요한지 여부를 결정합니다.
-
모델이 추가 컨텍스트가 필요하지 않다고 판단하면 매개변수 메모리에서 직접 응답합니다.
-
Adapt-LLM 모델이 추가 컨텍스트가 필요하면 <RET>와 같은 특수 토큰을 반환합니다. 그런 다음 애플리케이션은 정보 검색기를 사용하여 질문을 기반으로 컨텍스트를 얻고 원래 프롬프트와 결합할 수 있습니다.
이러한 유연한 동작을 통해 모델은 외부 컨텍스트를 사용하는 것과 직접 답변을 제공하는 것 사이에서 균형을 이룰 수 있습니다.
Adapt-LLM 훈련
Adapt-LLM을 위해 모델을 훈련하려면 질문, 컨텍스트 및 답변이 포함된 튜플 데이터 세트로 시작합니다. 그런 다음 각 튜플에 대해 모델에 컨텍스트 없이 질문이 제공되고 지식에 대해 확신이 있으면 직접 답변하거나 추가 컨텍스트가 필요하면 <RET>를 반환하라는 지침이 제공됩니다.
모델이 올바른 답변을 반환하면 매개변수 지식이 있고 질문과 답변(컨텍스트는 제외)이 포함된 새로운 훈련 인스턴스가 생성됩니다. 모델이 잘못된 답변을 반환하면 두 개의 훈련 인스턴스가 생성됩니다. 질문과 <RET> 답변이 포함된 “매개변수 프롬프트“와 질문, 컨텍스트, 지침 및 답변이 포함된 “컨텍스트 프롬프트“입니다.
그런 다음 기본 모델은 두 가지 유형의 예제를 모두 포함하는 데이터 세트로 훈련되며 이는 Adapt-LLM 동작을 초래합니다.
Adapt-LLM의 실제 적용
연구원들은 다양한 온라인 플랫폼에서 수집된 질문 데이터 세트인 PopQA에서 Adapt-LLM에 대한 여러 실험을 수행했습니다. 그들은 Llama-2 7B를 기본 LLM으로 사용하고 NQ 및 SQuAD 질의응답 데이터 세트에서 만든 Adapt-LLM 데이터 세트로 훈련했습니다. 그들은 Adapt-LLM 모델을 순수한 검색 불가 모델과 항상 검색 모델과 비교했습니다.
예상대로 그들의 발견은 Adapt-LLM이 매개변수 메모리에만 의존하는 검색 불가 모델보다 훨씬 더 나은 성능을 보여줍니다.
또한 항상 검색 모델에 비해 검색 사용량을 줄이는 동시에 매개변수 메모리가 RAG 시스템에서 반환된 정보보다 더 나은 경우 성능을 향상시킵니다.
“ADAPT-LLM이 추가 정보를 검색하기로 결정할 때 컨텍스트를 사용하여 얻은 결과는 그렇지 않은 결과보다 훨씬 더 좋습니다. 마찬가지로 ADAPT-LLM이 매개변수 메모리에 의존하여 질문에 직접 답변할 때 높은 정확도를 달성합니다.”라고 연구원들은 썼습니다. “이러한 관찰은 모델이 정보를 검색해야 하는 경우와 추가 컨텍스트 없이 질문에 답변할 수 있는 경우를 효과적으로 구분한다는 것을 나타냅니다.”
장점과 단점
불행히도 연구원들은 Adapt-LLM에 대한 코드와 모델을 공개하지 않았기 때문에 실험 결과를 확인하기 어렵습니다. 이것은 매우 실용적인 기술이기 때문에 토큰 사용량과 추론 시간에 대한 발견을 공개했으면 좋았을 것입니다.
다행히도 알고리즘은 구현하기 쉽고 누구나 자신의 Adapt-LLM 버전을 만들 수 있습니다. 다른 도메인의 데이터 세트에서 어떻게 작동하는지, 그리고 이를 기반으로 어떤 실용적인 애플리케이션을 구축할 수 있는지 알아보는 것이 흥미로울 것입니다.