마이크로소프트와 북항대학교, 효율적인 LLM 미세 조정 기술 MoRA 발표

MoRA는 LoRA와 같은 다른 매개변수 효율적인 기술의 몇 가지 문제를 해결하는 새로운 LLM 미세 조정 기술입니다.

2024년 5월 28일 오후 5:11- 4달 전VENTUREBEAT.COM- Ben Dickson

마이크로소프트와 북항대학교, 효율적인 LLM 미세 조정 기술 MoRA 발표

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

2024년 5월 28일 오전 10시 11분

전원 큐브

이미지 출처: DALL-E를 사용하는 VentureBeat

마이크로소프트북항대학교의 연구원들은 대규모 언어 모델(LLM)을 기존보다 훨씬 저렴한 비용으로 미세 조정할 수 있는 새로운 기술을 선보였습니다.

MoRA라고 하는 이 새로운 기술은 저순위 적응(LoRA)과 같은 다른 인기 있는 기술의 몇 가지 제한 사항을 해결하는 매개변수 효율적인 미세 조정(PEFT) 기술입니다. MoRA는 모델이 새로운 지식을 습득해야 하는 작업에 모델을 미세 조정할 때 특히 유용합니다. PEFT 방법이 기업에서 점점 인기를 얻으면서 MoRA는 증가하는 LLM 애플리케이션 개발자의 도구 세트에 중요한 추가 기능이 될 수 있습니다.

LoRA의 한계

기존의 미세 조정을 수행하려면 LLM의 모든 매개변수를 업데이트해야 합니다. 모델에 수십억 개의 매개변수가 포함된 경우 전체 미세 조정은 비용이 많이 들고 시간이 오래 걸릴 수 있습니다. 매개변수 효율적인 미세 조정 기술은 다운스트림 애플리케이션을 위해 LLM을 미세 조정할 때 모든 매개변수를 업데이트할 필요가 없다는 전제를 기반으로 합니다. PEFT 방법은 대상 작업에 맞게 모델을 구성하기 위해 수정해야 하는 매개변수의 최적 하위 집합을 찾습니다.

LoRA는 전체 순위 가중치 행렬을 매우 작은 부분 공간에 매핑하는 저순위 행렬을 통해 매개변수를 업데이트하는 기능으로 인해 PEFT 기술로 인기를 얻었습니다. LoRA는 메모리 요구 사항을 크게 줄이고 미세 조정된 모델의 저장 및 배포를 용이하게 합니다.

그러나 LoRA는 텍스트 분류 및 지침 조정과 같은 작업에서 잘 수행되지만 수학적 추론 및 지속적인 사전 학습과 같이 LLM의 지식과 기능을 향상해야 하는 더 복잡한 작업에서는 어려움을 겪습니다. 여러 연구에 따르면 LoRA의 저순위 업데이트 메커니즘은 대규모 언어 모델이 새로운 지식을 효과적으로 학습하고 기억하는 능력을 제한할 수 있습니다.

LoRA 어댑터의 순위가 모델의 전체 순위보다 훨씬 작기 때문에 “이러한 제한으로 인해 미세 조정을 통해 새로운 정보를 저장하는 용량이 제한됩니다.”라고 연구원들은 말합니다.

MoRA

LoRA 대 MoRA

LoRA(왼쪽)는 저순위 행렬을 사용하고 MoRA(오른쪽)는 매개변수 효율적인 미세 조정을 위해 단일 정사각형 행렬을 사용합니다(출처: arxiv)

연구원들은 LoRA의 한계를 해결하기 위해 저순위 행렬 대신 정사각형 행렬을 사용하는 PEFT 기술인 MoRA를 소개합니다. MoRA의 주요 아이디어는 모델의 원래 차원 공간에서 가능한 가장 높은 순위를 달성하는 방식으로 학습 가능한 매개변수를 사용하는 것입니다.

LoRA와 달리 MoRA 어댑터의 입력 및 출력 차원은 원래 모델의 차원과 일치하지 않으므로 동일한 행렬 곱셈 연산에서 결합할 수 없습니다. 이러한 차이를 해소하기 위해 연구원들은 두 공간 간에 입력을 변환하는 압축/압축 해제 기능을 개발했습니다. 이 알고리즘을 사용하면 MoRA를 다양한 크기의 LLM에 쉽게 연결할 수 있습니다.

연구원들에 따르면 정사각형 가중치 행렬을 통해 MoRA는 동일한 크기의 LoRA 모델보다 새로운 지식을 학습할 수 있는 능력이 더 뛰어납니다.

MoRA 작동 방식

연구원들은 다양한 작업과 설정에서 동일한 크기의 LoRA 및 MoRA 모델을 비교했습니다. 암기 작업에서 MoRA는 LoRA보다 성능이 훨씬 뛰어났으며 더 적은 매개변수와 학습 단계로 전체 미세 조정 모델의 성능에 훨씬 더 가까워졌습니다.

MoRA 학습 곡선

지식 암기 작업의 경우 MoRA의 손실 곡선이 전체 미세 조정과 매우 유사합니다(출처: arxiv)

“우리의 방법은 고순위 업데이트를 통해 동일한 수의 학습 가능한 매개변수를 사용하여 LoRA보다 크게 개선되었습니다.”라고 연구원들은 말합니다.

지침 조정 및 수학적 추론 작업에서 MoRA는 LoRA와 거의 동등한 성능을 보였습니다. 그러나 생의학 및 금융 분야의 지속적인 사전 학습의 경우 MoRA는 새로운 지식을 기억하기 위해 고순위 업데이트를 활용하여 LoRA보다 성능이 뛰어났습니다.

연구원들은 또한 MoRA 어댑터의 순위를 높이면 학습 및 저장 비용이 더 많이 들지만 수학적 추론 작업에서 PEFT와 전체 미세 조정 간의 성능 격차를 없앨 수 있음을 발견했습니다.

기업을 위한 PEFT

미세 조정은 기업 LLM 애플리케이션의 중요한 사용 사례입니다. 미세 조정은 독점적인 지식에 대한 LLM의 기능과 정확성을 높이는 것 외에도 기업이 이전에 값비싼 프론티어 모델이 필요했던 작업에 더 작은 모델을 사용할 수 있도록 합니다.

현재 LoRA 및 그 변형은 매개변수 효율적인 미세 조정의 황금 표준입니다. LoRA 어댑터를 만드는 데 사용할 수 있는 풍부한 도구 및 플랫폼 생태계가 있습니다. 예를 들어 S-LoRA는 개발자가 단일 GPU에서 수천 개의 LoRA 어댑터를 실행할 수 있도록 하는 프레임워크로, 각 사용자의 콘텐츠에 따라 사용자 지정된 모델과 같이 미세 조정된 LLM이 많이 필요한 애플리케이션을 지원합니다.

마이크로소프트와 북항대학교의 연구원들은 LoRA와 호환되는 MoRA의 오픈 소스 구현을 출시했습니다. 이는 기본 모델에 새로운 지식을 추가하려는 기업 애플리케이션에 중요한 도구가 될 수 있습니다.