요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
오늘날의 고급 AI 시스템의 핵심은 데이터이지만, 데이터 비용이 점점 더 높아지면서 가장 부유한 기술 기업을 제외한 다른 기업들은 감당할 수 없게 되었습니다.
작년에 OpenAI의 연구원인 James Betker는 생성형 AI 모델의 특성과 학습된 데이터 세트에 대한 글을 개인 블로그에 게시했습니다. Betker는 모델의 디자인, 아키텍처 또는 기타 특징이 아닌 학습 데이터가 점점 더 정교하고 유능한 AI 시스템의 핵심이라고 주장했습니다.
Betker는 “동일한 데이터 세트로 충분히 오랫동안 학습하면 거의 모든 모델이 동일한 지점으로 수렴됩니다.“라고 썼습니다.
Betker의 말이 맞을까요? 학습 데이터가 모델이 질문에 답하든, 사람 손을 그리든, 현실적인 도시 풍경을 생성하든 모델이 무엇을 할 수 있는지 결정하는 가장 큰 요인일까요?
그럴듯합니다.
통계 기계
생성형 AI 시스템은 기본적으로 확률적 모델, 즉 엄청난 양의 통계입니다. 방대한 양의 예제를 기반으로 어떤 데이터가 어디에 위치하는 것이 가장 “타당한지“(예: “나는 시장에 간다“라는 문장에서 “시장에“ 앞에 오는 “간다“라는 단어) 추측합니다. 따라서 모델이 참조할 수 있는 예제가 많을수록 해당 예제로 학습된 모델의 성능이 향상되는 것은 당연해 보입니다.
AI 연구 비영리 단체인 AI2(Allen Institute for AI)의 선임 응용 연구 과학자인 Kyle Lo는 TechCrunch에 “안정적인 학습 설정이 갖춰지면 성능 향상은 데이터에서 비롯되는 것 같습니다.“라고 말했습니다.
Lo는 올해 초에 출시된 텍스트 생성 모델인 Meta의 Llama 3의 예를 들었습니다. 이 모델은 아키텍처가 매우 유사함에도 불구하고 AI2 자체 OLMo 모델보다 성능이 뛰어납니다. Llama 3는 OLMo보다 훨씬 더 많은 데이터로 학습되었으며, Lo는 이것이 많은 인기 있는 AI 벤치마크에서 Llama 3가 우수한 이유라고 생각합니다.
(여기서 오늘날 AI 업계에서 널리 사용되는 벤치마크가 모델의 성능을 측정하는 가장 좋은 척도는 아니지만, 자체적인 정성적 테스트을 제외하고는 참고할 수 있는 몇 안 되는 척도 중 하나입니다.)
기하급수적으로 더 큰 데이터 세트로 학습하는 것이 기하급수적으로 더 나은 모델로 가는 확실한 길이라는 의미는 아닙니다. Lo는 모델이 “쓰레기가 들어가면 쓰레기가 나온다“는 패러다임으로 작동하기 때문에 데이터 큐레이션과 품질이 양보다 훨씬 더 중요하다고 지적합니다.
그는 “신중하게 설계된 데이터를 사용하는 소규모 모델이 대규모 모델보다 성능이 뛰어날 수 있습니다.“라고 덧붙였습니다. “예를 들어, 대규모 모델인 Falcon 180B는 LMSYS 벤치마크에서 63위를 차지한 반면, 훨씬 더 작은 모델인 Llama 2 13B는 56위를 차지했습니다.“
작년 10월 TechCrunch와의 인터뷰에서 OpenAI 연구원 Gabriel Goh는 고품질 주석이 OpenAI의 텍스트-이미지 모델인 DALL-E 3의 이미지 품질을 이전 모델인 DALL-E 2보다 크게 향상시키는 데 기여했다고 말했습니다. 그는 “저는 이것이 개선의 주요 원인이라고 생각합니다.“라고 말했습니다. “텍스트 주석이 [DALL-E 2보다] 훨씬 더 좋습니다. 비교조차 할 수 없습니다.“
DALL-E 3 및 DALL-E 2를 포함한 많은 AI 모델은 인간 주석자가 데이터에 레이블을 지정하여 모델이 해당 레이블을 해당 데이터의 다른 관찰된 특징과 연결하도록 학습하는 방식으로 학습됩니다. 예를 들어, 각 품종에 대한 주석이 달린 많은 고양이 사진을 제공받은 모델은 결국 밥테일 및 _단모_와 같은 용어를 고유한 시각적 특징과 연결하는 방법을 “학습“하게 됩니다.
나쁜 행동
Lo와 같은 전문가들은 대규모의 고품질 학습 데이터 세트에 대한 강조가 커지면서 AI 개발이 이러한 세트를 확보할 여력이 있는 수십억 달러 예산의 소수 플레이어에게 집중될 것을 우려합니다. 합성 데이터 또는 기본 아키텍처의 주요 혁신이 현재 상황을 뒤 upset 수 있지만, 둘 다 가까운 미래에 실현될 것 같지 않습니다.
Lo는 “전반적으로 AI 개발에 유용할 가능성이 있는 콘텐츠를 관리하는 주체는 자료를 잠금 상태로 유지하도록 장려됩니다.“라고 말했습니다. “그리고 데이터에 대한 접근이 차단됨에 따라, 우리는 기본적으로 데이터 수집에 대한 몇몇 선도자들을 축복하고 사다리를 끌어올려 다른 누구도 따라잡을 수 있는 데이터에 접근할 수 없도록 하고 있습니다.“
실제로 더 많은 학습 데이터를 확보하기 위한 경쟁이 저작권이 있는 콘텐츠를 비밀리에 집계하는 것과 같은 비윤리적(그리고 불법일 수도 있는) 행동으로 이어지지 않은 경우, 데이터 라이선스에 돈을 쓸 여력이 있는 자금력이 풍부한 기술 대기업에 보상을 안겨주었습니다.
OpenAI와 같은 생성형 AI 모델은 주로 공개 웹 페이지(문제가 되는 AI 생성 웹 페이지 포함)에서 가져온 이미지, 텍스트, 오디오, 비디오 및 기타 데이터(일부 저작권이 있는 데이터 포함)로 학습됩니다. OpenAI와 같은 회사들은 공정 사용이 자신들을 법적 보복으로부터 보호한다고 주장합니다. 많은 권리 보유자들은 동의하지 않지만, 적어도 지금은 이러한 관행을 막기 위해 할 수 있는 일이 많지 않습니다.
생성형 AI 공급업체가 모델 학습을 위해 의심스러운 방법으로 방대한 데이터 세트를 확보한 사례는 매우 많습니다. OpenAI는 YouTube의 허가나 제작자의 허가 없이 100만 시간 이상의 YouTube 비디오를 전사하여 주력 모델인 GPT-4에 제공한 것으로 알려져 있습니다. Google은 최근 AI 제품에 공개 Google 문서, Google 지도의 레스토랑 리뷰 및 기타 온라인 자료를 활용할 수 있도록 서비스 약관을 일부 확대했습니다. 또한 Meta는 IP로 보호되는 콘텐츠로 모델을 학습하기 위해 소송을 감수하는 것을 고려한 것으로 알려졌습니다.
한편, 크고 작은 기업들은 제3세계 국가의 근로자들에게 시간당 몇 달러만 지불하고 학습 세트에 대한 주석을 작성하도록 하고 있습니다. Scale AI와 같은 대형 스타트업에 고용된 이러한 주석 작성자 중 일부는 미래의 일자리에 대한 혜택이나 보장 없이 폭력과 유혈이 생생하게 묘사된 장면에 노출되는 작업을 말 그대로 며칠 동안 계속해야 합니다.
증가하는 비용
즉, 더 이상의 데이터 거래조차도 개방적이고 공평한 생성형 AI 생태계를 조성하는 데 정확히 도움이 되지는 않습니다.
OpenAI는 뉴스 매체, 스톡 미디어 라이브러리 등의 콘텐츠 라이선스를 얻는 데 수억 달러를 지출하여 AI 모델을 학습시켰습니다. 이는 대부분의 학술 연구 그룹, 비영리 단체 및 스타트업의 예산을 훨씬 뛰어넘는 금액입니다. Meta는 전자책 발췌에 대한 권리를 얻기 위해 출판사 Simon & Schuster를 인수하는 것까지 고려했습니다(결국 Simon & Schuster는 2023년에 사모펀드 회사인 KKR에 16억 2천만 달러에 매각되었습니다).
AI 학습 데이터 시장은 현재 약 25억 달러에서 10년 이내에 약 300억 달러로 성장할 것으로 예상되면서, 데이터 브로커와 플랫폼은 사용자 기반의 반대에도 불구하고 최고가를 요구하기 위해 서두르고 있습니다.
스톡 미디어 라이브러리인 Shutterstock은 AI 공급업체와 2,500만 달러에서 5,000만 달러에 이르는 계약을 체결한 반면, Reddit은 Google 및 OpenAI와 같은 조직에 데이터 라이선스를 부여하여 수억 달러를 벌어들였다고 주장합니다. Photobucket에서 Tumblr, Q&A 사이트 Stack Overflow에 이르기까지 수년에 걸쳐 유기적으로 축적된 풍부한 데이터를 보유한 플랫폼 중 생성형 AI 개발자와 계약을 체결하지 않은 곳은 거의 없는 것 같습니다.
어떤 법적 주장을 믿느냐에 따라 다르지만, 판매할 데이터는 플랫폼의 것입니다. 하지만 대부분의 경우 사용자는 수익의 일부도 받지 못하고 있습니다. 그리고 이는 더 넓은 AI 연구 커뮤니티에 해를 끼치고 있습니다.
Lo는 “소규모 업체는 이러한 데이터 라이선스를 감당할 수 없기 때문에 AI 모델을 개발하거나 연구할 수 없습니다.“라고 말했습니다. “저는 이로 인해 AI 개발 관행에 대한 독립적인 조사가 부족해질 수 있다고 우려합니다.“
독립적인 노력
어둠 속에서 한 줄기 빛이 있다면, 누구나 생성형 AI 모델을 학습하는 데 사용할 수 있는 방대한 데이터 세트를 만들기 위한 소수의 독립적인 비영리적 노력입니다.
2020년에 느슨하게 연결된 Discord 집단으로 시작된 풀뿌리 비영리 연구 그룹인 EleutherAI는 토론토 대학교, AI2 및 독립 연구자들과 협력하여 주로 공개 도메인에서 가져온 수십억 개의 텍스트 구절 세트인 The Pile v2를 만들고 있습니다.
4월에 AI 스타트업 Hugging Face는 Common Crawl(비영리 단체인 Common Crawl에서 유지 관리하는 동명의 데이터 세트로, 수십억 개의 웹 페이지로 구성됨)을 필터링한 버전인 FineWeb을 출시했습니다. Hugging Face는 FineWeb이 많은 벤치마크에서 모델 성능을 향상시킨다고 주장합니다.
그룹 LAION의 이미지 세트와 같이 공개 학습 데이터 세트를 공개하려는 몇몇 시도는 저작권, 데이터 개인 정보 보호 및 기타 마찬가지로 심각한 윤리적 및 법적 문제에 직면했습니다. 하지만 더 헌신적인 데이터 큐레이터 중 일부는 더 나은 일을 하겠다고 약속했습니다. 예를 들어, The Pile v2는 이전 데이터 세트인 The Pile에서 발견된 문제가 있는 저작권 자료를 제거합니다.
문제는 이러한 공개적인 노력이 빅테크의 속도를 따라잡을 수 있느냐는 것입니다. 데이터 수집 및 큐레이션이 여전히 자원의 문제로 남아 있는 한, 답은 아마도 ‘아니오'일 것입니다. 적어도 일부 연구의 획기적인 발전으로 경쟁의 장이 평준화될 때까지는 말입니다.