생성형 AI 1.5에서 2.0으로: RAG에서 에이전트 시스템으로

조직이 생성형 AI 사용에 있어 성숙해짐에 따라, 핵심은 최고 품질의 토큰을 최대한 빨리 얻는 것이 될 것입니다.

2024년 6월 2일 오후 7:15- 3달 전VENTUREBEAT.COM- Ryan Gross, Caylent

생성형 AI 1.5에서 2.0으로: RAG에서 에이전트 시스템으로

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

우리는 이제 생성형 AI 기반 모델을 기반으로 솔루션을 개발한 지 1년이 넘었습니다. 대부분의 애플리케이션이 대규모 언어 모델(LLM)을 사용하는 반면, 최근에는 이미지와 비디오를 이해하고 생성할 수 있는 멀티모달 모델이 등장하면서 기반 모델 (FM)이라는 용어가 더 정확해졌습니다.

전 세계는 정보를 선별하고 사람들의 다양한 요구에 맞게 조정하여 이러한 솔루션을 실제 환경에 적용하고 실질적인 영향을 미칠 수 있는 패턴을 개발하기 시작했습니다. 또한, 훨씬 더 복잡한 LLM 사용 (그리고 훨씬 더 많은 가치)을 가능하게 할 혁신적인 기회가 다가오고 있습니다. 그러나 이러한 기회에는 모두 관리해야 할 비용 증가가 따릅니다.

생성형 AI 1.0: LLM 및 차세대 토큰의 긴급 행동

FM이 어떻게 작동하는지 더 잘 이해하는 것이 중요합니다. 이러한 모델은 내부적으로 단어, 이미지, 숫자, 소리를 토큰으로 변환한 다음, 모델과 상호 작용하는 사람이 좋아할 만한 '가장 적합한 다음 토큰'을 예측합니다. 1년 넘게 피드백을 통해 학습하면서 Anthropic, OpenAI, Mixtral, Meta 등의 핵심 모델은 사람들이 원하는 바를 훨씬 더 잘 이해하게 되었습니다.

언어가 토큰으로 변환되는 방식을 이해함으로써 형식이 중요하다는 것을 알게 되었습니다(즉, YAML이 JSON보다 성능이 더 우수한 경향이 있음). 생성형 AI 커뮤니티는 모델 자체를 더 잘 이해함으로써 모델이 효과적으로 응답하도록 '프롬프트 엔지니어링' 기술을 개발했습니다.

예를 들어 몇 가지 예시(퓨샷 프롬프트)를 제공함으로써 원하는 답변 스타일로 모델을 유도할 수 있습니다. 또는 모델에 문제를 세분화하도록 요청함으로써(사고 사슬 프롬프트) 더 많은 토큰을 생성하여 복잡한 질문에 대한 정답에 도달할 가능성을 높일 수 있습니다. 지난 1년 동안 소비자용 생성형 AI 챗 서비스를 적극적으로 사용해 왔다면 이러한 개선 사항을 눈치챘을 것입니다.

생성형 AI 1.5: 검색 증강 생성, 임베딩 모델 및 벡터 데이터베이스

진보의 또 다른 토대는 LLM이 처리할 수 있는 정보의 양을 확장하는 것입니다. 최첨단 모델은 이제 최대 100만 개의 토큰(대학 교재 한 권 분량)을 처리할 수 있으므로 이러한 시스템과 상호 작용하는 사용자는 이전에는 불가능했던 방식으로 질문에 답변하는 데 사용할 컨텍스트를 제어할 수 있습니다.

이제 복잡한 법률, 의료 또는 과학 텍스트 전체를 가져와서 LLM에 질문하는 것이 매우 간단해졌으며, 해당 분야의 관련 입학 시험에서 85%의 정확도로 수행할 수 있습니다. 최근에 한 의사와 함께 복잡한 700페이지 분량의 지침 문서에 대한 질문에 답하는 작업을 했는데, Anthropic의 Claude를 사용하여 인프라 없이도 이를 설정할 수 있었습니다.

이와 더불어 키워드 대신 개념을 기반으로 검색할 유사한 텍스트를 저장하고 검색하기 위해 LLM을 활용하는 기술이 지속적으로 개발되면서 사용 가능한 정보가 더욱 확장되고 있습니다.

titan-v2, gte, cohere-embed와 같이 알 수 없는 이름의 새로운 임베딩 모델을 사용하면 다양한 소스에서 매우 큰 데이터 세트의 상관 관계에서 학습된 '벡터'로 변환하여 유사한 텍스트를 검색하고, 데이터베이스 시스템에 벡터 쿼리를 추가하고(AWS 데이터베이스 솔루션 제품군 전체에 걸친 벡터 기능), turbopuffer, LanceDB, QDrant와 같은 특수 목적 벡터 데이터베이스를 사용하여 이러한 텍스트를 확장할 수 있습니다. 이러한 시스템은 성능 저하를 최소화하면서 1억 개의 다중 페이지 문서로 성공적으로 확장되고 있습니다.

이러한 솔루션을 실제 환경에 맞게 확장하는 것은 여전히 복잡한 작업이며, 복잡한 시스템을 최적화하기 위해 여러 배경의 팀이 협력해야 합니다. 보안, 확장성, 대기 시간, 비용 최적화, 데이터/응답 품질은 모두 LLM 기반 애플리케이션 분야에서 표준 솔루션이 없는 새로운 주제입니다.

생성형 AI 2.0 및 에이전트 시스템

모델 및 시스템 성능의 향상으로 거의 모든 조직에서 사용할 수 있을 정도로 솔루션의 정확도가 점진적으로 향상되고 있지만, 이 두 가지 모두 여전히 진화(어쩌면 생성형 AI 1.5)입니다. 다음 진화는 여러 형태의 생성형 AI 기능을 창의적으로 연결하는 데 있습니다.

이러한 방향으로 나아가는 첫 번째 단계는 작업 체인을 수동으로 개발하는 것입니다(BrainBox.ai ARIA와 같은 시스템, 오작동하는 장비 사진을 이해하고 지식 기반에서 관련 컨텍스트를 조회하며 API 쿼리를 생성하여 IoT 데이터 피드에서 관련 구조화된 정보를 가져온 다음 궁극적으로 조치 과정을 제안하는 생성형 AI 기반 가상 건물 관리자). 이러한 시스템의 한계는 주어진 문제를 해결하기 위한 로직을 정의하는 데 있으며, 이는 개발 팀이 하드 코딩하거나 1~2단계만 가능합니다.

생성형 AI의 다음 단계(2.0)에서는 문제를 단계별로 세분화하는 데 도움이 되는 '추론 엔진'(현재는 일반적으로 LLM)을 기반으로 여러 가지 방식으로 멀티모달 모델을 사용하는 에이전트 기반 시스템이 만들어집니다. 그런 다음 AI 지원 도구 세트에서 각 단계를 실행할 도구를 선택하고, 각 단계의 결과를 컨텍스트로 사용하여 다음 단계에 피드하고, 전체 솔루션 계획을 다시 생각합니다.

데이터 수집, 추론, 조치 수행 구성 요소를 분리함으로써 이러한 에이전트 기반 시스템은 훨씬 더 유연한 솔루션 세트를 가능하게 하고 훨씬 더 복잡한 작업을 수행할 수 있습니다. 프로그래밍을 위한 Cognition Labs의 devin.ai와 같은 도구는 단순한 코드 생성을 넘어 프로그래밍 언어 변경이나 디자인 패턴 리팩토링과 같은 엔드투엔드 작업을 사람의 개입 없이 90분 만에 수행할 수 있습니다. 마찬가지로 Amazon의 Q for Developers 서비스를 사용하면 사람의 개입을 최소화하여 엔드투엔드 Java 버전 업그레이드를 수행할 수 있습니다.

또 다른 예로, 말기 만성 폐쇄성 폐 질환 환자의 치료 과정을 해결하는 의료 에이전트 시스템을 생각해 보겠습니다. 이 시스템은 환자의 EHR 기록(AWS HealthLake), 영상 데이터(AWS HealthImaging), 유전 데이터(AWS HealthOmics) 및 기타 관련 정보에 액세스하여 자세한 응답을 생성할 수 있습니다. 또한 에이전트는 Amazon Kendra를 기반으로 구축된 색인을 사용하여 임상 시험, 약물 및 생물 의학 문헌을 검색하여 임상의가 정보에 입각한 결정을 내리는 데 가장 정확하고 관련성이 높은 정보를 제공할 수 있습니다.

또한 여러 목적별 에이전트가 동시에 작동하여 자세한 환자 프로필 생성과 같이 훨씬 더 복잡한 워크플로우를 실행할 수 있습니다. 이러한 에이전트는 사람의 개입이 필요했던 다단계 지식 생성 프로세스를 자율적으로 구현할 수 있습니다.

그러나 광범위한 튜닝 없이는 이러한 시스템을 실행하는 데 엄청난 비용이 소요될 것이며, 수천 건의 LLM 호출이 API에 많은 수의 토큰을 전달하게 됩니다. 따라서 하드웨어(NVidia Blackwell, AWS Inferentia), 프레임워크(Mojo), 클라우드(AWS 스팟 인스턴스), 모델(매개변수 크기, 양자화), 호스팅(NVidia Triton)을 포함한 LLM 최적화 기술의 병렬 개발은 비용을 최적화하기 위해 이러한 솔루션과 계속 통합되어야 합니다.

결론

향후 1년 동안 조직이 LLM 사용에 있어 성숙해짐에 따라, 핵심은 최고 품질의 출력(토큰)을 최대한 빨리, 최저 비용으로 얻는 것이 될 것입니다. 이는 빠르게 움직이는 목표이므로 실제 환경에서 생성형 AI 기반 솔루션을 실행하고 최적화한 경험을 통해 지속적으로 학습하는 파트너를 찾는 것이 가장 좋습니다.

Ryan Gross는 Caylent의 데이터 및 애플리케이션 담당 수석 이사입니다.