요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
AI 연구자와 기업들이 더 크고 더 나은 머신러닝 모델을 학습시키기 위해 경쟁하면서, 적합한 데이터 세트를 선별하는 것이 점점 더 큰 과제가 되고 있습니다.
이 문제를 해결하기 위해 Meta AI, Google, INRIA, Université Paris Saclay의 연구진은 자기 지도 학습(SSL)을 위한 고품질 데이터 세트를 자동으로 선별하는 새로운 기술을 발표했습니다.
이들이 개발한 방법은 임베딩 모델과 클러스터링 알고리즘을 사용하여 수동 주석 없이도 크고 다양하며 균형 잡힌 데이터 세트를 선별합니다.
자기 지도 학습에서 균형 잡힌 데이터 세트
자기 지도 학습은 대규모 언어 모델, 시각적 인코더, 심지어 의료 영상과 같은 분야별 애플리케이션에 이르기까지 현대 AI의 초석이 되었습니다.
모든 학습 예제에 주석을 달아야 하는 지도 학습과 달리, SSL은 레이블이 지정되지 않은 데이터로 모델을 학습시켜 원시 데이터에서 모델과 데이터 세트를 모두 확장할 수 있습니다.
그러나 SSL 모델의 성능을 위해서는 데이터 품질이 매우 중요합니다. 인터넷에서 무작위로 수집한 데이터 세트는 균등하게 분포되어 있지 않습니다.
즉, 몇 가지 지배적인 개념이 데이터 세트의 많은 부분을 차지하는 반면 다른 개념은 덜 자주 나타납니다. 이러한 편향된 분포는 모델이 빈번한 개념에 편향되도록 하고 보이지 않는 예제로 일반화되는 것을 방해할 수 있습니다.
연구진은 “자기 지도 학습을 위한 데이터 세트는 크고 다양하며 균형 잡혀야 합니다.”라고 말합니다. “따라서 SSL을 위한 데이터 큐레이션에는 이러한 모든 속성을 갖춘 데이터 세트를 구축하는 작업이 포함됩니다. 우리는 대규모 온라인 데이터 저장소에서 균형 잡힌 하위 집합을 선택하여 이러한 데이터 세트를 구축할 것을 제안합니다.”
현재 SSL을 위한 균형 잡힌 데이터 세트를 선별하는 데는 많은 수작업이 필요합니다. 모든 학습 예제에 레이블을 지정하는 것만큼 시간이 많이 걸리지는 않지만, 수동 큐레이션은 여전히 대규모 모델 학습을 방해하는 병목 현상입니다.
자동 데이터 세트 큐레이션
이러한 문제를 해결하기 위해 연구진은 원시 데이터에서 균형 잡힌 학습 데이터 세트를 생성하는 자동 큐레이션 기술을 제안합니다.
이들의 접근 방식은 임베딩 모델과 클러스터링 기반 알고리즘을 활용하여 데이터의 균형을 다시 조정하여 덜 빈번하거나 드문 개념을 보다 일반적인 개념에 비해 더 두드러지게 만듭니다.
먼저, 특징 추출 모델이 모든 데이터 포인트의 임베딩을 계산합니다. 임베딩은 이미지, 오디오, 텍스트와 같은 다양한 데이터의 의미적, 개념적 특징을 숫자로 표현한 것입니다.
다음으로 연구진은 데이터 포인트를 무작위로 분산시킨 다음 유사성에 따라 그룹화하고, 각 그룹 또는 클러스터에 대한 새로운 평균값을 다시 계산하여 관련 예제 그룹을 구성하는 널리 사용되는 클러스터링 알고리즘인 k-평균을 사용합니다.
그러나 기존의 k-평균 클러스터링은 데이터 세트에서 과도하게 표현되는 개념에 대해 더 많은 그룹을 생성하는 경향이 있습니다.
이러한 문제를 극복하고 균형 잡힌 클러스터를 생성하기 위해 연구진은 데이터 클러스터 트리를 상향식으로 구축하는 다단계 계층적 k-평균 접근 방식을 적용합니다.
이 접근 방식에서는 각각의 새로운 클러스터링 단계에서 이전 클러스터링 단계에서 얻은 클러스터에 대해 k-평균을 동시에 적용합니다. 이 알고리즘은 샘플링 전략을 사용하여 각 수준의 클러스터에서 개념이 잘 표현되도록 합니다.
계층적 k-평균 데이터 큐레이션 (출처: arxiv)
이는 최신 포인트 클러스터 간에 수평적으로 클러스터링과 k-평균을 모두 허용하는 동시에 시간을 거슬러 올라가(위 차트에서 위쪽으로 표시됨) 덜 표현된 예제가 삭제되지 않도록 하여 더 적지만 더 설명적인 상위 수준 클러스터(위 그래픽 상단의 선 그림)로 이동할 수 있기 때문에 현명한 방법입니다.
연구진은 이 기술을 “완전히 큐레이션되지 않은 데이터 소스에서 현재 애플리케이션의 특수성과 독립적으로 흥미로운 속성을 유추할 수 있는 가능성을 제공하는” “다운스트림 작업에 구애받지 않는 일반적인 큐레이션 알고리즘”이라고 설명합니다.
즉, 원시 데이터 세트가 주어지면 계층적 클러스터링을 통해 다양하고 균형이 잘 잡힌 학습 데이터 세트를 만들 수 있습니다.
자동 큐레이션된 데이터 세트 평가
연구진은 계층적 클러스터링으로 큐레이션된 데이터 세트로 학습된 컴퓨터 비전 모델에 대해 광범위한 실험을 수행했습니다. 이들은 수동 레이블이나 이미지에 대한 설명이 없는 이미지를 사용했습니다.
그 결과 큐레이션된 데이터 세트에서 특징을 학습하면 이미지 분류 벤치마크, 특히 학습 데이터와 상당히 다른 이미지인 분포 외 예제에서 더 나은 성능을 보이는 것으로 나타났습니다. 또한 이 모델은 검색 벤치마크에서도 훨씬 더 나은 성능을 보였습니다.
특히 자동으로 큐레이션된 데이터 세트로 학습된 모델은 수동으로 큐레이션된 데이터 세트로 학습된 모델과 거의 동등한 성능을 보였는데, 이는 생성하는 데 상당한 인력이 필요합니다.
또한 연구진은 대규모 언어 모델 학습을 위한 텍스트 데이터와 캐노피 높이 예측 모델 학습을 위한 위성 영상에 이 알고리즘을 적용했습니다. 두 경우 모두 큐레이션된 데이터 세트로 학습하면 모든 벤치마크에서 상당한 개선을 보였습니다.
흥미롭게도, 이들의 실험 결과 균형이 잘 잡힌 데이터 세트로 학습된 모델은 더 적은 예제로 학습되었음에도 불구하고 최첨단 모델과 경쟁할 수 있음을 보여줍니다.
이 연구에서 소개된 자동 데이터 세트 큐레이션 기술은 특히 레이블이 지정되고 큐레이션된 데이터를 구하기 어려운 산업 분야의 응용 머신러닝 프로젝트에 중요한 의미를 가질 수 있습니다.
이 기술은 자기 지도 학습을 위한 데이터 세트 주석 및 수동 큐레이션과 관련된 비용을 크게 줄일 수 있는 잠재력이 있습니다. 잘 학습된 SSL 모델은 매우 적은 수의 레이블이 지정된 예제만으로도 다운스트림 지도 학습 작업을 위해 미세 조정할 수 있습니다. 이 방법은 보다 확장 가능하고 효율적인 모델 학습의 길을 열어줄 수 있습니다.
또 다른 중요한 용도는 모델 학습을 위해 준비되지 않은 방대한 양의 원시 데이터를 보유하고 있는 Meta, Google과 같은 대기업에 있습니다. 연구진은 “[자동 데이터 세트 큐레이션]이 향후 학습 파이프라인에서 점점 더 중요해질 것으로 생각합니다.”라고 말합니다.