자이프라, 파일, C4, arxiv를 능가하는 1.3T 규모의 언어 모델링 데이터셋 Zyda 공개

자이프라의 Zyda는 대규모 언어 모델 학습을 위해 RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so 및 arxiv를 결합한 1.3T 규모의 오픈 데이터셋입니다.

2024년 6월 7일 오후 1:00- 3달 전VENTUREBEAT.COM- Ken Yeung

자이프라, 파일, C4, arxiv를 능가하는 1.3T 규모의 언어 모델링 데이터셋 Zyda 공개

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

자이프라 테크놀로지스는 언어 모델 학습을 위해 설계된 방대한 데이터셋인 Zyda를 공개했습니다. 1.3조 개의 토큰으로 구성되어 있으며, RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so, arxiv 등 기존의 프리미엄 오픈 데이터셋을 필터링하고 중복을 제거하여 만든 것입니다. 자이프라는 자체적인 분석 결과 Zyda가 기반으로 한 데이터셋보다 성능이 우수하다고 주장합니다. 초기 버전의 데이터셋은 자이프라의 Zamba 모델에 사용되었으며, 향후 허깅 페이스에서 다운로드할 수 있게 될 예정입니다.

이미지 출처: 자이프라

“저희는 Zamba 모델 시리즈를 위한 사전 학습 데이터셋을 만들려고 하는 과정에서 Zyda를 고안하게 되었습니다.”라고 자이프라의 머신 러닝 연구 엔지니어이자 제품 책임자인 유리 톡파노프는 VentureBeat와의 이메일 인터뷰에서 밝혔습니다. “Zyda는 언어 모델 학습을 위해 1조 개의 토큰으로 이루어진 매우 높은 품질의 데이터셋을 제공함으로써, 언어 모델을 학습하고자 하는 모든 사람이 Zyda와 같은 것을 직접 만들어야 하는 문제를 해결합니다.”

자이프라는 더 나은 쥐덫을 만들고 싶었던 것 같습니다. 여러 기존 오픈 데이터셋을 결합한 후, 자이프라는 고유한 그룹을 유지하기 위해 토큰을 정리하는 데 시간을 할애했습니다. 구체적으로는 구문 필터링을 수행하여 품질이 낮은 문서를 제거한 다음, 데이터셋 “내부 및 데이터셋 간”에 “적극적인” 중복 제거 작업을 수행했습니다. “많은 데이터셋에서 다른 데이터셋에도 존재하는 문서가 많다는 것을 발견했기 때문에 교차 중복 제거는 매우 중요합니다.”라고 자이프라는 블로그 게시물에서 설명합니다. 많은 데이터셋이 Common Crawl과 같은 공통 소스에서 가져왔을 가능성이 높다는 점을 고려할 때 이는 놀라운 일이 아닙니다.

이미지 출처: 자이프라

사용된 7개의 오픈 언어 모델링 데이터셋 중 RefinedWeb(43.6%)은 Zyda에서 가장 큰 비중을 차지합니다. Slimpajama(18.7%)와 StarCoder(17.8%)가 각각 두 번째와 세 번째로 큰 비중을 차지합니다. 나머지는 한 자릿수 비율을 차지합니다.

“총 초기 데이터셋의 약 40%를 삭제하여 토큰 수를 약 2조 개에서 1.3조 개로 줄였습니다.”

오픈소스이기 때문에 개발자는 이 최고의 언어 모델링 데이터셋을 활용하여 더욱 스마트한 AI를 구축할 수 있습니다. 즉, 문장 작성, 텍스트 생성, 언어 번역 등에서 단어 예측 기능이 향상됩니다. 자이프라의 주장대로라면 개발자는 하나의 데이터셋만 사용하면 되므로 제작 시간과 비용을 절감할 수 있습니다.

그리고 이 새로운 데이터셋의 이름이 왜 Zyda인지 궁금하다면 톡파노프는 “Zyphra Dataset”을 합쳐서 만든 이름이라고 밝혔습니다.

Zyda는 자이프라의 허깅 페이스 페이지에서 다운로드할 수 있습니다.

2024년 6월 7일 업데이트: Krithik Puthalath_에서 유리 톡파노프로 인용구 수정