스탠포드 연구: AI 법률 조사 도구, 환각 현상에 취약

스탠포드 대학교 연구진의 연구에 따르면 AI 기반 법률 조사 도구가 제공업체의 주장과 달리 환각 현상을 보이는 것으로 나타났습니다.

2024년 6월 7일 오후 8:24- 3달 전VENTUREBEAT.COM- Ben Dickson

스탠포드 연구: AI 법률 조사 도구, 환각 현상에 취약

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

대규모 언어 모델(LLM)은 광범위한 정보 처리가 필요한 작업에 점점 더 많이 사용되고 있습니다. 여러 회사에서 LLM과 정보 검색 시스템을 사용하여 법률 조사를 지원하는 특수 도구를 출시했습니다.

그러나 스탠포드 대학교 연구진의 새로운 연구에 따르면 제공업체의 주장에도 불구하고 이러한 도구는 여전히 상당한 비율의 환각 현상이나 명백히 거짓인 출력물을 생성하는 것으로 나타났습니다.

저자들에 따르면 AI 기반 법률 조사 도구에 대한 최초의 “사전 등록된 경험적 평가“인 이 연구에서는 주요 법률 조사 제공업체의 제품을 테스트하고 수동으로 구성된 200개 이상의 법률 쿼리에 대해 OpenAI의 GPT-4와 비교했습니다. 연구진은 범용 챗봇에 비해 환각 현상이 줄어들었지만 법률 AI 도구는 여전히 놀라울 정도로 높은 비율로 환각 현상을 보인다는 사실을 발견했습니다.

법률 분야에서 검색 증강 생성의 과제

많은 법률 AI 도구는 환각 위험을 완화하기 위해 검색 증강 생성(RAG) 기술을 사용합니다. 학습 중에 습득한 지식에만 의존하는 일반 LLM 시스템과 달리 RAG 시스템은 먼저 지식 기반에서 관련 문서를 검색하여 모델에 응답의 맥락으로 제공합니다. RAG는 다양한 도메인에서 환각을 줄이려는 기업을 위한 황금 표준입니다.

그러나 연구진은 법률 쿼리는 일련의 문서에서 검색할 수 있는 명확한 답변이 하나만 없는 경우가 많다고 지적합니다. 시스템이 시간 경과에 따라 여러 출처에서 정보를 찾아야 할 수 있으므로 검색할 항목을 결정하는 것이 어려울 수 있습니다. 경우에 따라 쿼리가 새롭거나 법적으로 불확실한 경우 쿼리에 명확하게 답변하는 문서가 없을 수 있습니다.

또한 연구진은 법률 조사의 맥락에서 환각이 잘 정의되어 있지 않다고 경고합니다. 이 연구에서 연구진은 모델의 응답이 사실과 다르거나 잘못 근거된 경우, 즉 사실은 정확하지만 논의 중인 법률 사례의 맥락에서 적용되지 않는 경우 환각으로 간주합니다. “즉, 모델이 거짓 진술을 하거나 출처가 진술을 뒷받침한다고 거짓으로 주장하는 경우 환각에 해당합니다.“라고 연구진은 말합니다.

이 연구는 또한 대부분의 RAG 시스템이 작동하는 방식인 텍스트 유사성만으로는 법률에서 문서 관련성을 기반으로 하지 않는다고 지적합니다. 텍스트상으로만 관련성이 있는 것처럼 보이지만 실제로는 관련성이 없는 문서를 검색하면 시스템 성능에 부정적인 영향을 미칠 수 있습니다.

“우리 팀은 이전에 일반 AI 도구가 법률적 환각, 즉 가짜 사실, 사례, 판결, 법령, 규정을 만들어내는 경향이 있다는 것을 보여주는 연구를 수행했습니다.“라고 스탠포드 대학교 법학 교수이자 이 논문의 공동 저자인 다니엘 E. 호는 VentureBeat에 말했습니다. “AI의 다른 분야와 마찬가지로 법률 기술 업계는 [RAG]에 의존해 왔으며, ‘환각 없는' 제품을 보유하고 있다고 대담하게 주장해 왔습니다. 이를 통해 우리는 법률 RAG 도구에서 이러한 주장을 평가하기 위한 연구를 설계하게 되었고, 이러한 마케팅 주장과 달리 법률 RAG가 환각 문제를 해결하지 못했다는 것을 보여줍니다.”

법률 AI 도구 평가

연구진은 실제 연구 시나리오를 나타내는 다양한 법률 쿼리 세트를 설계하고 세 가지 주요 AI 기반 법률 조사 도구인 LexisNexis의 Lexis+ AI와 Thomson Reuters의 Westlaw AI 지원 조사 및 Ask Practical Law AI에서 테스트했습니다. 이러한 도구는 오픈소스가 아니지만 모두 내부적으로 어떤 형태의 RAG를 사용한다고 명시하고 있습니다.

연구진은 도구의 출력을 수동으로 검토하고 RAG가 없는 GPT-4를 기준으로 비교했습니다. 연구 결과 세 가지 도구 모두 GPT-4보다 성능이 훨씬 뛰어나지만 완벽과는 거리가 멀며 쿼리의 17~33%에서 환각을 보이는 것으로 나타났습니다.

또한 연구진은 시스템이 도구에서 인용한 출처에 대한 면밀한 분석이 필요한 기본적인 법률 이해 작업에서 어려움을 겪는다는 사실을 발견했습니다. 연구진은 법률 AI 도구의 폐쇄적인 특성으로 인해 변호사가 언제 이러한 도구에 의존하는 것이 안전한지 평가하기 어렵다고 주장합니다.

그러나 저자들은 현재의 한계에도 불구하고 AI 지원 법률 조사는 특히 최종 결론이 아닌 시작점으로 사용할 때 기존의 키워드 검색 방법이나 범용 AI에 비해 여전히 가치를 제공할 수 있다고 지적합니다.

“우리 연구의 긍정적인 결과 중 하나는 범용 AI에 비해 RAG를 통해 법률적 환각이 감소한다는 것입니다.“라고 호는 말했습니다. “그러나 우리 논문은 RAG가 만병통치약이 아니라는 것도 보여줍니다. 예를 들어 검색된 문서가 부적절한 경우 RAG 파이프라인을 따라 오류가 발생할 수 있으며, 법률 검색은 특히 어렵습니다.”

투명성의 필요성

“이 논문에서 우리가 주장하는 가장 중요한 주장 중 하나는 법률 AI에서 투명성과 벤치마킹이 시급히 필요하다는 것입니다.“라고 호는 말했습니다. “일반 AI 연구와는 달리 법률 기술은 제공업체가 제품의 성능에 대한 기술 정보나 증거를 사실상 제공하지 않는 폐쇄적인 특징이 있습니다. 이는 변호사에게 큰 위험 요소입니다.”

호에 따르면 한 대형 로펌은 한 제품을 평가하는 데 거의 1년 반을 소비했지만 “변호사들이 그 도구를 사용하는 것을 좋아하는지 여부“보다 나은 결론을 얻지 못했다고 합니다.

“이 논문에서는 공개 벤치마킹을 요구하고 있으며, 우리가 이야기를 나눈 제공업체들이 AI의 다른 분야에서 수행해 온 것처럼 이를 수행하는 것의 엄청난 가치에 동의한다는 사실에 기쁩니다.“라고 그는 말했습니다.

이 논문에 대한 응답으로 Thomson Reuters의 Westlaw 제품 관리 책임자인 마이크 단은 블로그 게시물에서 변호사 및 고객과의 엄격한 테스트를 포함한 도구 테스트 프로세스에 대해 설명했습니다.

“우리는 이와 같은 솔루션을 테스트하고 벤치마킹하려는 노력을 매우 지지하며, 스탠포드 연구팀이 최근 RAG 기반 법률 조사 솔루션에 대한 연구를 수행한 의도를 지지합니다.“라고 단은 썼습니다. “그러나 AI 지원 조사에서 심각한 환각 문제가 있다는 주장을 보았을 때 매우 놀랐습니다.”

단은 스탠포드 연구진이 Thomson Reuters의 내부 테스트보다 더 높은 비율의 부정확성을 발견했을 수 있는 이유는 “연구에 AI 지원 조사에서 거의 또는 전혀 볼 수 없는 질문 유형이 포함되었기 때문“이라고 제안했습니다.

또한 단은 회사에서 “고객에게 제품이 부정확성을 생성할 수 있음을 매우 분명하게 밝히고 있다“고 강조했습니다.

그러나 호는 이러한 도구가 “범용 법률 조사 도구로 판매되고 있으며 우리의 질문에는 변호사 시험 문제, 항소 소송 문제, 대법원 문제, 즉 법률 조사가 필요한 정확한 종류의 질문이 포함되어 있다“고 말했습니다.

Thomson Reuters의 CoCounsel 부사장인 파블로 아레돈도는 VentureBeat에 “스탠포드가 이 연구를 통해 시작한 대화에 박수를 보내며, 이러한 결과와 기타 잠재적 벤치마크를 자세히 살펴볼 수 있기를 기대합니다. 우리는 다양한 법률 사용 사례에서 최첨단 벤치마크를 개발하고 유지하기 위해 대학, 로펌, 법률 기술 회사 컨소시엄을 구성하기 위해 대학과 초기 논의를 진행 중입니다.“라고 말했습니다.

VentureBeat는 또한 LexisNexis에 의견을 요청했습니다. 답변을 받으면 이 게시물을 업데이트하겠습니다. LexisNexis는 이 연구 발표 이후 블로그 게시물에서 “우리가 여러분에게 약속하는 것은 완벽함이 아니라 연결된 모든 법률 인용이 환각에서 자유롭다는 것임을 이해하는 것이 중요합니다. 제공업체가 누구든 상관없이 오늘날 어떤 Gen AI 도구도 100% 정확도를 제공할 수 없습니다.“라고 썼습니다.

또한 LexisNexis는 ​​Lexis+ AI가 “변호사의 업무를 대체하는 것이 아니라 강화하기 위한 것“이라고 강조했습니다. “어떤 기술 애플리케이션이나 소프트웨어 제품도 변호사의 판단과 추론을 대체할 수 없습니다.”