구글, AI 개요 기능 개선 필요 인정...수백만 사용자의 베타 테스트 결과는?

구글이 자사 AI 개요 기능의 문제점을 인정했습니다. 지난주, 부실하고 잘못된 정보를 생성하는 AI 기반 검색 기능에 대한 비판과 조롱이 쏟아지자, 구글은 공식적으로 사과했습니다.

2024년 5월 31일 오후 7:54- 4달 전TECHCRUNCH.COM- Sarah Perez

구글, AI 개요 기능 개선 필요 인정...수백만 사용자의 베타 테스트 결과는?

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

구글도 자사 AI 개요 기능의 문제점을 인정했습니다. 지난주, 신규 AI 기반 검색 기능의 부실한 품질과 잘못된 정보 생성에 대한 비판과 조롱이 쏟아지자, 구글은 공식적으로 사과했습니다. 웹 검색의 대명사이자 “전 세계 정보를 체계화”하여 사용자에게 제공하는 데 주력하는 구글은 블로그 게시물을 통해 “일부 이상하고 부정확하며 도움이 되지 않는 AI 개요가 나타났다”고 인정했습니다.

이는 상황을 너무 순화한 표현입니다.

구글 검색 부문 부사장인 리즈 리드가 작성한 이 실패 인정은 모든 것에 AI 기술을 접목하려는 욕심이 오히려 구글 검색을 저하시켰다는 것을 보여주는 증거입니다.

“지난주에 대해”라는 제목의 게시물에서 (홍보팀 검토를 통과했을까요?) 리드는 AI 개요가 실수하는 여러 가지 이유를 설명합니다. 다른 대규모 언어 모델(LLM)처럼 “환각”을 일으키거나 사실을 지어내지는 않지만, “쿼리 오해, 웹 언어의 뉘앙스 오해, 유용한 정보 부족”과 같은 “다른 이유”로 인해 잘못된 정보를 제공할 수 있다고 합니다.

또한 리드는 지난주 소셜 미디어에 공유된 스크린샷 중 일부는 조작된 것이며, “돌을 몇 개나 먹어야 하나요?”와 같은 터무니없는 질문에 대한 답변도 있었다고 지적했습니다. 이런 주제에 대한 사실 정보가 거의 없기 때문에 구글 AI는 사용자를 풍자적인 콘텐츠로 안내했습니다. (돌의 경우, 풍자적인 콘텐츠는 지질 소프트웨어 제공업체의 웹사이트에 게시된 것이었습니다.)

“돌을 몇 개나 먹어야 하나요?”라고 구글에 검색했는데 도움이 되지 않는 링크나 농담 같은 기사가 나오더라도 놀라지 않을 것입니다. 사람들이 반응하는 것은 마치 사실인 것처럼 “지질학자들은 하루에 최소한 작은 돌 하나는 먹는 것을 권장합니다”라고 AI가 자신 있게 답변하는 태도입니다. 기술적으로 “환각”은 아닐 수 있지만, 최종 사용자에게는 중요하지 않습니다. 말도 안 되는 일입니다.

또한 불안한 점은 리드가 구글이 “출시 전에 광범위한 테스트를 거쳤으며”, 여기에는 “강력한 레드팀 노력”도 포함되었다고 주장한다는 것입니다.

구글에는 유머 감각이 있는 사람이 아무도 없었을까요? 형편없는 결과를 생성할 수 있는 프롬프트를 생각해 낸 사람이 아무도 없었을까요?

또한 구글은 AI 기능이 지식과 진실의 원천으로 레딧 사용자 데이터에 의존한다는 점을 대수롭지 않게 여겼습니다. 사람들이 오랫동안 검색어에 “레딧”을 추가하여 구글이 마침내 기본 제공 검색 필터로 만들었지만, 레딧은 사실 정보를 제공하는 곳이 아닙니다. 그럼에도 불구하고 AI는 레딧 게시물을 참조하여 질문에 답변했으며, 언제 레딧의 직접적인 지식이 도움이 되고 언제 도움이 되지 않는지, 더 나아가 언제 트롤링인지 구분하지 못했습니다.

오늘날 레딧은 구글, OpenAI기타 회사에 데이터를 제공하여 모델을 학습시키면서 큰돈을 벌고 있습니다. 하지만 이것이 사용자가 구글 AI가 언제 레딧을 검색하여 답변을 찾을지 결정하거나 누군가의 의견을 사실로 제시하는 것을 원한다는 의미는 아닙니다. 언제 레딧을 검색해야 할지 배우는 것은 미묘한 차이가 있는데, 구글 AI는 아직 이를 이해하지 못하고 있습니다.

리드는 “포럼은 종종 진정성 있고 직접적인 정보를 얻을 수 있는 좋은 출처이지만, 경우에 따라서는 피자에 치즈를 붙이기 위해 접착제를 사용하는 것과 같이 도움이 되지 않는 조언으로 이어질 수 있습니다.”라고 인정하며 지난주 AI 기능의 가장 큰 실패 사례 중 하나를 언급했습니다.

구글 AI 개요에서 피자에 치즈를 붙이기 위해 접착제를 추가하는 것이 좋다고 제안했는데, 출처를 알고 보니 F*cksmith라는 사용자가 11년 전에 작성한 레딧 댓글이었습니다. 😂 pic.twitter.com/uDPAbsAKeO

— Peter Yang (@petergyang) 2024년 5월 23일

지난주가 재앙이었다면, 구글은 그 결과로 빠르게 개선하고 있다고 합니다.

구글은 AI 개요의 사례를 살펴보고 개선 가능한 패턴을 파악했다고 밝혔습니다. 여기에는 터무니없는 질문을 더 잘 감지하는 메커니즘 구축, 오해의 소지가 있는 조언을 제공할 수 있는 사용자 생성 콘텐츠 사용 제한, AI 개요가 도움이 되지 않는 질문에 대한 트리거 제한 추가, “최신성과 사실성이 중요한” 중요 뉴스 주제에 대한 AI 개요 표시 중단, 건강 검색 보호를 위한 추가 트리거 개선 사항 추가가 포함됩니다.

AI 회사들이 매일 더 나은 챗봇을 개발하고 있는 가운데, 문제는 이러한 챗봇이 언젠가는 전 세계 정보를 이해하는 데 구글 검색보다 더 나은 성능을 발휘할 것인가가 아니라, 구글 검색이 과연 AI 경쟁에서 이들을 따라잡을 수 있을 만큼 빠르게 발전할 수 있을 것인가입니다.

구글의 실수가 아무리 우스꽝스럽더라도, 아직 구글을 경쟁에서 탈락시키기에는 이릅니다. 특히 검색을 사용하는 모든 사람이라는 구글의 방대한 베타 테스트 팀 규모를 고려하면 더욱 그렇습니다.

리드는 “수백만 명의 사람들이 이 기능을 사용하면서 수많은 새로운 검색을 하는 것만큼 좋은 것은 없습니다.”라고 말합니다.