요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
거대 기술 기업들이 대규모 언어 모델(LLM) 시장을 장악할 것처럼 보였지만, 오픈소스 LLM의 새로운 물결이 그들의 예상을 빗나가게 했습니다. 오픈소스 커뮤니티는 광범위한 컴퓨팅, 개인 정보 보호 및 데이터 요구 사항을 충족할 수 있는 모델을 만드는 데 많은 노력을 기울였습니다. 이러한 모델은 API 인터페이스를 통해서만 액세스할 수 있는 ChatGPT 및 기타 LLM에 대한 대안입니다.
최근 _TechTalks_와의 인터뷰에서 Cerebras Systems의 CEO인 Andrew Feldman은 폐쇄형 모델과 오픈소스 LLM을 만드는 노력의 의미를 논의했습니다. Cerebras는 신경망을 훈련하고 실행하기 위한 특수 프로세서를 만듭니다. 최근에는 오픈 소스이며 컴퓨팅 효율적인 LLM인 Cerebras-GPT를 출시했습니다. Feldman은 오픈소스 LLM을 만드는 과정에서 얻은 경험과 교훈, 그리고 이러한 모델이 열어줄 새로운 애플리케이션에 대해 이야기했습니다.
폐쇄형 소스 vs 오픈소스 언어 모델
최근까지 인공 지능 커뮤니티에서는 엄청난 양의 출판과 정보 공유가 이루어졌습니다. AI 연구소가 자체 기술을 수익화하거나 연구 자금을 조달할 방법을 찾는 데 대한 압력이 커지면서 커뮤니티의 일부는 개방성을 줄이기 시작했습니다. 대표적인 예로 OpenAI의 최신 LLM인 GPT-4에 대한 기술 보고서에는 모델의 아키텍처, 훈련 데이터 및 비용에 대한 자세한 내용이 거의 포함되어 있지 않습니다.
“우리는 근본적인 변화를 목격하기 시작했습니다. 이러한 대기업들이 이러한 모델을 훈련하는 데 수십억, 수백억, 심지어 수천억 달러를 투자하면서 점점 더 정보 공유를 꺼리게 되었습니다.”라고 Feldman은 말했습니다.
생성형 AI 시장 장악 경쟁은 거대 기술 기업과 관련 연구소들이 경쟁 우위를 확보하기 위해 연구 결과를 비밀로 유지하도록 부추기고 있으며, 특히 매우 큰 모델을 훈련하고 테스트하는 데 엄청난 비용이 소요되기 때문에 더욱 그렇습니다. 블랙박스 API와 앱은 점차 새로운 모델을 출시하는 데 사실상 표준 모델이 되었습니다.
하지만 최근 몇 달 동안 DALL-E 2와 ChatGPT와 같은 폐쇄형 상업 제품에 대한 대안을 제공하는 오픈소스 모델이 쏟아져 나오고 있습니다. LLM 커뮤니티는 Alpaca, Vicuna, Dolly 2, MPT-7B, Cerebras-GPT와 같은 모델을 출시하면서 특히 활발했습니다. 이러한 모델은 조직이 애플리케이션에 LLM을 배포할 때 탐색할 수 있는 더 많은 옵션을 제공합니다.
“저는 대기업이든 소규모 기업이든 언어 모델을 위해 한두 개의 공급업체에 의존하고 싶어하지 않다고 생각합니다. 기업은 스스로 운명을 통제하고 싶어합니다.”라고 Feldman은 말했습니다. “초거대 언어 모델은 많은 면에서 매우 뛰어납니다. 하지만 업계는 훨씬 더 작은 모델이 특정 도메인 작업에서 이러한 대규모 일반 모델보다 성능이 뛰어날 수 있음을 보여주었습니다. 그리고 10억~400억 개의 매개변수 범위의 모델을 1조 개의 토큰으로 훈련하고 미세 조정하는 기능은 대부분의 기업이 충분히 활용할 수 있습니다. 따라서 AI 작업의 폐쇄 또는 폐쇄 위협에 대한 일부 반응으로 오픈소스가 폭발적으로 증가했습니다.”
모델, 훈련 데이터 및 애플리케이션에 대한 제어권을 갖는 것은 오픈소스 언어 모델의 매력적인 점 중 하나입니다. 그리고 오픈소스 모델은 초거대 LLM보다 훨씬 작기 때문에 실행하고 사용자 지정하기가 훨씬 쉽습니다.
“우리는 대기업이 자체 독점 데이터로 이러한 모델을 훈련하고, 좁게 초점을 맞추고 도메인 특정이며 정확히 원하는 대로 조정된 모델을 구축하고 싶어한다는 것을 알았습니다.”라고 Feldman은 말했습니다.
오픈소스 LLM이 성공할 수 있었던 이유
Cerebras의 CEO인 Andrew Feldman
“오랫동안 업계는 더 많은 매개변수가 더 좋다고 생각했습니다. 그리고 OpenAI가 그러한 사고방식을 선도했다고 생각합니다. 일반적인 의미에서 그것은 맞습니다.”라고 Feldman은 말했습니다. “하지만 특정 의미에서 그것은 완전히 틀렸습니다.”
2022년 DeepMind 연구원의 논문에서는 모델을 더 크게 만드는 대신 더 많은 데이터로 훈련하면 언어 모델의 성능을 향상시킬 수 있다는 것을 보여주었습니다. 논문에서 소개된 모델인 Chinchilla는 160억~700억 개의 매개변수 범위였습니다. Chinchilla는 175개의 매개변수를 가진 GPT-3가 3,000억 개의 토큰으로 훈련된 것과 비교하여 매개변수당 약 20개의 토큰인 1.4조 개의 토큰으로 훈련되었습니다. 결과적으로 Chinchilla는 GPT-3와 같은 더 큰 모델보다 많은 작업에서 성능이 뛰어났습니다. 동시에 다운스트림 작업을 위해 실행하고 미세 조정하는 데 드는 비용이 훨씬 적었습니다.
“[Chinchilla]는 더 많은 데이터로 더 작은 모델을 훈련하여 매우 인상적인 결과를 얻을 수 있게 했으며, 대규모 데이터 세트를 만들고 오픈 소스로 공개할 수 있게 했습니다.”라고 Feldman은 말했습니다. “고정된 예산으로 데이터가 매개변수보다 더 강력하다는 통찰력은 오픈소스 커뮤니티에서 10억~400억 개의 매개변수 범위의 작업은 엄청나게 증가한 반면, 1,000억~5,000억 개의 매개변수 범위의 작업은 훨씬 줄어들게 되었습니다.”
Meta에서 출시한 모델 제품군인 LLaMA의 성공은 모델 크기보다 훈련 데이터의 힘을 보여주는 또 다른 예입니다. Chinchilla에서 얻은 교훈을 바탕으로 Meta는 모델 매개변수당 훈련 토큰 수를 계속 늘렸습니다.
“LLaMA 논문에서 그들은 매개변수당 50개 또는 100개의 토큰을 사용하면 이점을 계속 얻을 수 있다는 것을 보여주었습니다.”라고 Feldman은 말했습니다. “매개변수당 약 20개 또는 30개의 토큰을 넘어서면 효과가 줄어듭니다. 하지만 컴퓨팅 사이클을 사용할 의향이 있다면, 훈련 컴퓨팅에 돈을 투자하면 모델의 정확도가 계속 향상됩니다.”
이를 통해 개발자는 예산, 애플리케이션, 데이터 및 사용 빈도에 따라 사용할 수 있는 모델과 훈련 체계 유형을 더 유연하게 선택할 수 있습니다. 예를 들어 빠르고 빈번한 추론을 원한다면 더 작은 모델을 더 많은 데이터로 훈련하는 데 예산을 투자할 수 있습니다. 이렇게 하면 훈련 비용은 증가하지만 추론 비용은 감소합니다. 반대로 추론 비용을 덜 걱정한다면 더 적은 토큰으로 더 큰 모델을 훈련하여 훈련 비용을 줄일 수 있습니다. 대신 추론 시 더 많은 비용을 지불해야 합니다.
“생산 작업을 하는 사람들에게는 이렇게 매우 흥미로운 일련의 트레이드오프가 있습니다.”라고 Feldman은 말했습니다.
오픈소스 LLM 미세 조정
과학 연구는 일반적으로 매우 일반적인 벤치마크에서 모델을 평가하는 반면, 실제 애플리케이션에서는 특성화가 매우 중요합니다.
“대부분의 경우 생산 애플리케이션에서 일반성은 아무에게도 도움이 되지 않습니다. 대부분의 기업은 금융 질문, 세금 질문, 법률 또는 생물 의학 질문과 같이 매우 구체적인 문제를 해결하고 싶어합니다.”라고 Feldman은 말했습니다. “이러한 작업은 매우 구체적이며 모델이 일반적인 능력을 갖추는 것은 훨씬 덜 중요합니다.”
동시에 많은 기업은 모델을 훈련하고 싶어하는 독점 데이터를 보유하고 있습니다. 오픈소스 모델의 흥미로운 기회 중 하나는 미세 조정의 효율성입니다. 매우 큰 데이터 세트로 기본 모델을 훈련하면 다운스트림 작업을 위해 모델을 미세 조정하는 데 드는 비용이 매우 효율적입니다. 초거대 LLM은 미세 조정을 위해 비용이 많이 드는 컴퓨팅 스택이 필요하지만, 많은 오픈소스 LLM은 매우 저렴한 비용으로, 심지어 소비자급 GPU에서도 미세 조정할 수 있습니다.
연구원들은 저랭크 적응 (LoRA)과 같은 매개변수 효율적인 기술을 개발했으며, 이를 통해 일반적인 비용의 일부로 미세 조정을 수행할 수 있습니다.
“많은 돈을 들이지 않고도 매우 구체적인 도메인을 목표로 하는 매우 특정하고 깨끗한 데이터로 훈련하여 이러한 오픈소스 기본 모델을 기반으로 구축할 수 있습니다.”라고 Feldman은 말했습니다. “그리고 놀랍게도 모델은 해당 특정 도메인에서 매우 정확합니다. 이는 강력한 요소이며, 도메인 특정 작업이 더 많이 나타날 것입니다. 저는 미래의 방향 중 하나가 될 것이라고 생각합니다.”
Cerebras-GPT
Cerebras는 1억 1,100만 개에서 130억 개의 매개변수 범위의 7개 오픈소스 언어 모델 제품군인 Cerebras-GPT를 출시했습니다. 이러한 모델은 오픈소스 Pile 데이터 세트로 사전 훈련되었습니다. Cerebras 팀은 Chinchilla 논문의 지침과 기술을 사용하여 모델을 효율적으로 확장했습니다. 팀은 모델, 가중치, 코드 및 훈련 레시피를 공개했습니다.
이러한 모델은 이미 40만 번 이상 다운로드되었으며 매우 인기가 있습니다.
Cerebras-GPT를 특히 흥미롭게 만드는 몇 가지 요소가 있습니다. 첫째, Cerebras는 모델을 Apache 2.0 라이선스 하에 공개했으며, 즉 연구 또는 상업적 목적으로 모델을 사용하는 데 제한이 없습니다. 이는 LLaMA와 같이 더 제한적인 라이선스를 가진 다른 오픈소스 모델과 대조적입니다.
또한 Cerebras-GPT는 LLM의 확장 법칙과 훈련 및 추론 비용 간의 트레이드오프를 평가할 수 있는 계산에 대한 매우 흥미로운 세부 정보를 제공합니다. 그들은 모델의 성능을 정확하게 예측할 수 있도록 훈련 및 확장 공식을 만들었으며, 비용이 많이 드는 리소스를 낭비하지 않고도 모델의 성능을 예측할 수 있습니다.
Cerebras-GPT 확장 법칙
마지막으로 Cerebras는 자체 AI 하드웨어를 사용하여 모델을 훈련했습니다. Cerebras 컴퓨팅 스택은 LLM을 훈련하고 실행하기 위한 컴퓨팅 스택 설정의 가장 큰 과제 중 일부를 해결하도록 특별히 설계된 고효율 CS-2 프로세서를 사용합니다.
“GPU는 비교적 작은 머신이며 400개 또는 600개 또는 1,000개를 사용하려면 이러한 머신에 작업을 분산하는 데 많은 시간, 노력, 비용을 들여야 합니다.”라고 Feldman은 말했습니다. “저는 그런 방식이 전혀 좋지 않다고 생각합니다. 하드웨어를 만들어 그런 작업이 필요하지 않도록 해야 합니다.”
Cerebras 하드웨어 및 소프트웨어 스택이 바로 그렇게 합니다. 분산 컴퓨팅에 대해 걱정하지 않고도 단일 명령으로 모델과 컴퓨팅 노드를 쉽게 확장할 수 있습니다. 많은 경우 컴퓨팅 스택을 조정하려면 구성 파일을 한 번만 변경하면 됩니다.
“그렇게 해서 우리는 몇 주 만에 7개의 모델을 커뮤니티에 공개할 수 있었습니다.”라고 Feldman은 말했습니다. “인프라를 구축하여 오픈소스 커뮤니티에 공개할 때는 사람들이 발명품으로 멋진 일을 하기를 바랍니다. 그리고 그 발명품을 사용하여 흥미로운 문제를 해결할 수 있으며, 우리는 그 결과에 매우 자랑스럽습니다.