요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
엔터프라이즈 생성형 AI 분야의 선구자인 Galileo가 기업에서 GenAI 시스템을 평가하는 방식을 혁신할 획기적인 평가 기반 모델(EFM) 제품군인 Galileo Luna를 공개했습니다. Galileo는 Luna를 통해 프로덕션 환경에서 생성형 AI의 광범위한 채택을 방해해 온 속도, 비용 및 정확성이라는 중요한 과제를 해결하고자 합니다.
Galileo의 공동 창업자이자 CEO인 Vikram Chatterji는 VentureBeat와의 인터뷰에서 “Galileo는 느리고 비싸며 종종 부정확했던 현재 GenAI 평가 방법의 한계를 해결하기 위해 Luna를 만들었습니다.”라고 말했습니다. “이러한 동기는 프로덕션 환경에서 초저지연, 비용 효율성 및 고정확성 평가에 대한 필요성에서 비롯되었습니다.”
Luna 개발은 2021년 초 설립 이후 엔터프라이즈 GenAI의 최전선에 있었던 Galileo에게 중요한 이정표가 됩니다. AI 평가의 한계를 뛰어넘으려는 회사의 헌신은 Luna를 탄생시킨 거의 1년에 가까운 집중적인 R&D 프로세스에서 분명히 드러납니다.
Galileo의 획기적인 평가 기반 모델 제품군인 Luna는 수신자 조작 특성 곡선(AUROC) 점수 아래 영역의 벤치마크 비교에서 주요 AI 평가 방법론보다 뛰어난 성능을 보여줍니다. 0.78에 달하는 더 높은 AUROC 값은 GPT-3.5, Trulens Groundedness 및 RAGAS Faithfulness와 같은 경쟁업체를 능가하는 엔터프라이즈 생성형 AI 시스템을 평가하는 데 있어 Luna의 탁월한 정확성을 보여줍니다. (이미지 출처: Galileo)
특수 목적 모델로 속도, 비용 및 정확성 재정의
Luna 혁신의 핵심은 환각 감지, 컨텍스트 품질 평가, 데이터 유출 방지, 악의적인 프롬프트 식별과 같은 특정 평가 작업에 맞게 세심하게 조정된 특수 목적의 소형 언어 모델에 있습니다. 이러한 전문화된 설계를 통해 Luna는 속도, 비용 및 정확성이라는 세 가지 주요 지표에서 탁월한 성능을 제공할 수 있습니다.
Chatterji는 “Luna는 여러 가지 혁신을 통해 속도, 비용 및 정확성 면에서 GPT-3.5를 능가합니다.”라고 설명했습니다. “Luna는 특정 평가 작업에 맞게 조정된 특수 목적의 소형 언어 모델을 활용하여 계산 오버헤드와 비용을 크게 줄입니다. 이러한 설계 선택을 통해 GPT-3.5로 수행되는 평가보다 97% 저렴하고 11배 빠른 평가가 가능합니다.”
하지만 속도와 비용만이 전부가 아닙니다. Luna는 업계 최고의 정확성을 자랑하며 환각, 프롬프트 주입, 개인 식별 정보(PII) 등을 감지하는 데 있어 이전 방법보다 최대 20% 더 뛰어난 성능을 보여줍니다. Chatterji는 “멀티 헤드 소형 언어 모델과 지능형 청킹과 같은 고급 기술을 통해 Luna 모델이 컨텍스트를 더 잘 유지하고 더 정확한 평가를 제공할 수 있습니다.”라고 덧붙였습니다.
월 100만 개의 쿼리를 평가하는 데 드는 월별 비용을 비교했을 때 Galileo의 Luna는 월 175달러의 비용으로 다른 방법론보다 훨씬 저렴합니다. Luna의 특수 목적 소형 언어 모델을 통해 매우 저렴한 비용으로 평가를 수행할 수 있으므로 월 6,248달러의 GPT-3.5, 월 7,994달러의 RAGAS Faithfulness, 월 16,641달러의 Trulens Groundedness와 같은 대안보다 최대 97% 더 비용 효율적입니다. (이미지 출처: Galileo)
Ground Truth 데이터 세트 없이 평가 혁신
Luna의 가장 놀라운 점 중 하나는 기존의 Ground Truth 데이터 세트 없이도 작동할 수 있다는 것입니다. Luna는 다양한 도메인별 데이터 세트에서 미세 조정된 사전 학습된 평가 모델을 활용하여 시간이 많이 걸리고 비용이 많이 드는 사용자 지정 테스트 세트 생성 프로세스를 제거합니다. 이러한 혁신은 평가 프로세스를 간소화하고 광범위한 인간 생성 데이터에 대한 의존도를 줄입니다.
Luna의 잠재적인 적용 분야는 매우 광범위하며 Chatterji는 AI 평가에서 높은 안정성과 속도를 요구하는 산업에서의 관련성을 강조합니다. 그는 “Luna는 특히 월간 수백만 건의 쿼리와 같이 양과 처리량이 중요한 대규모 엔터프라이즈 애플리케이션에서 강력합니다. 의료, 금융, 통신 분야의 Fortune 100대 기업에서 Luna를 특히 유용하게 사용하고 있습니다.”라고 말했습니다.
Galileo의 Luna는 단일 쿼리를 처리하는 데 단 0.232초의 지연 시간으로 타의 추종을 불허하는 AI 평가 속도를 제공합니다. 이는 2.5초의 GPT-3.5, 3.0초의 Galileo Chainpoll, 3.4초의 Trulens Groundedness, 5.4초의 RAGAS Faithfulness와 같은 다른 방법론에 비해 크게 개선된 것입니다. Luna의 특수 목적 소형 언어 모델을 통해 매우 낮은 지연 시간으로 평가를 수행할 수 있으므로 경쟁 방식보다 최대 11배 빠릅니다. (이미지 출처: Galileo)
급변하는 GenAI 발전에 맞춰 사용자 지정 및 지속적인 진화
사용 사례는 AI 출력의 실시간 모니터링, AI 생성 콘텐츠의 환각 감지, 챗봇 상호 작용의 안전 및 품질 보장에 이르기까지 다양합니다. 또한 Galileo의 Fine Tune 제품을 사용하면 Luna를 특정 고객 요구 사항에 맞게 사용자 지정하여 제약 및 금융 서비스와 같은 산업의 중요한 작업에 대해 95% 이상의 정확도 수준을 달성할 수 있습니다.
생성형 AI 환경이 계속 빠르게 진화함에 따라 Galileo는 혁신의 최전선에 서기 위해 최선을 다하고 있습니다. Chatterji는 Luna가 더 많은 평가 작업 유형에 대한 지원 확대, 정확성 지속적 개선, 비용 및 지연 시간 추가 단축이라는 세 가지 주요 방식으로 확장될 것이라고 강조했습니다.
Chatterji는 “Galileo는 AI 평가에서 가능한 것의 한계를 뛰어넘고 조직이 신뢰할 수 있는 AI를 프로덕션 환경에 구현할 수 있도록 지원하기 위해 최선을 다하고 있습니다.”라고 말했습니다. “생성형 AI 환경이 계속 진화함에 따라 Galileo는 기업이 AI를 실용적으로 배포하고 소비자의 신뢰와 확신을 고취할 수 있는 최첨단 평가 기능을 고객에게 제공하기 위해 최선을 다하고 있습니다.”
Galileo는 Luna 출시와 함께 엔터프라이즈 GenAI 평가 분야의 리더로서의 입지를 확고히 했습니다. 점점 더 많은 조직이 생성형 AI의 힘을 활용하려고 함에 따라 빠르고 비용 효율적이며 정확한 평가를 제공하는 Luna의 기능은 광범위한 채택을 주도하고 이 혁신적인 기술의 잠재력을 최대한 발휘하는 데 중요한 요소가 될 것입니다.