SambaNova, 초당 1,000토큰으로 Llama 3 속도 기록 경신

SambaNova가 Llama 3 생성 AI 모델을 새로운 이정표인 초당 1,000토큰으로 가속화하여 기업 사용자에게 상당한 이점을 제공함으로써 Llama 3를 더 빠르게 만들기 위한 경쟁이 계속되고 있습니다.

2024년 5월 29일 오후 12:00- 4달 전VENTUREBEAT.COM- Sean Michael Kerner

SambaNova, 초당 1,000토큰으로 Llama 3 속도 기록 경신

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

2024년 5월 29일 오전 5시

DALL-E 3를 사용하여 VentureBeat에서 생성한 이미지

DALL-E 3를 사용하여 VentureBeat에서 생성한 이미지

생성형 AI 모델의 속도를 측정하는 간단한 속도계는 없지만, 주요 접근 방식 중 하나는 모델이 초당 처리하는 토큰 수를 측정하는 것입니다.

오늘 SambaNova SystemsLlama 3 8B 매개변수 명령 모델을 사용하여 초당 1,000토큰이라는 엄청난 생성 AI 성능의 새로운 이정표를 달성했다고 발표했습니다. 지금까지 Llama 3의 가장 빠른 벤치마크는 초당 800토큰으로 Groq에서 주장했습니다. 초당 1,000토큰 이정표는 테스트 회사인 Artificial Analysis에서 독립적으로 검증했습니다. 더 빠른 속도는 더 빠른 응답 시간, 더 나은 하드웨어 활용도 및 더 낮은 비용과 같이 잠재적으로 상당한 비즈니스 이점으로 이어질 수 있는 수많은 엔터프라이즈 의미를 갖습니다.

Artificial Analysis의 공동 설립자인 George Cameron은 VentureBeat에 “우리는 AI 칩 경쟁이 예상보다 빠르게 가속화되고 있으며 독립적으로 수행되었으며 실제 성능 벤치마킹에 중점을 둔 벤치마크에서 SambaNova의 주장을 검증하게 되어 기뻤습니다.”라고 말했습니다. “AI 개발자는 이제 선택할 수 있는 더 많은 하드웨어 옵션을 갖게 되었으며, 짧은 응답 시간과 대량 문서 해석이 필요한 AI 에이전트, 소비자 AI 애플리케이션을 포함하여 속도에 민감한 사용 사례에 특히 흥미진진합니다.”

SambaNova가 Llama 3 및 생성 AI를 가속화하기 위해 소프트웨어와 하드웨어를 사용하는 방법

SambaNova는 하드웨어 및 소프트웨어 자산을 모두 보유한 엔터프라이즈 중심의 생성 AI 공급업체입니다.

하드웨어 측면에서 회사는 재구성 가능 데이터플로우 장치(RDU)라고 하는 AI 칩 유형을 개발합니다. Nvidia AI 가속기와 마찬가지로 RDU는 학습과 추론 모두에 사용할 수 있습니다. SambaNova는 엔터프라이즈 워크로드 및 모델 미세 조정을 위해 RDU를 활성화하는 데 특히 중점을 둡니다. 이 회사의 최신 칩은 2023년 9월에 발표된 SN40L입니다.

SambaNova는 실리콘 위에 2월 28일에 처음 출시된 Samba-1 모델을 포함한 자체 소프트웨어 스택을 구축했습니다. Samba-1은 Samba-CoE(전문가 조합)라고도 하는 1조 매개변수 모델입니다. CoE 접근 방식을 통해 기업은 여러 모델을 조합하여 또는 단독으로 사용하고 기업 데이터에 대해 모델을 미세 조정하고 학습할 수 있습니다.

1000t/s 속도의 경우 SambaNova는 실제로 테스트를 위해 제공된 API 버전인 Samba-1 Turbo 모델을 사용했습니다. 이 회사는 향후 몇 주 내에 속도 업데이트를 엔터프라이즈용 메인라인 모델에 통합할 계획입니다. Cameron은 Groq의 800t/s 측정은 공개 API 공유 엔드포인트에 대한 것이고 SambaNova는 전용 프라이빗 엔드포인트에 대한 것이라고 경고했습니다. 따라서 그는 자신의 회사가 정확히 같은 비교가 아니기 때문에 직접 비교하는 것을 제안하지 않는다고 지적했습니다.

Cameron은 “즉, 이는 우리가 벤치마킹하는 API 제공업체의 평균 출력 토큰/초 속도보다 8배 이상 빠르며 Nvidia H100에서 달성할 수 있는 일반적인 출력 토큰/초 속도보다 몇 배 더 빠릅니다.”라고 말했습니다.

재구성 가능 데이터플로우를 통한 반복적 최적화

SambaNova 성능의 핵심은 회사의 RDU 실리콘 기술의 핵심인 재구성 가능 데이터플로우 아키텍처입니다.

재구성 가능 데이터플로우 아키텍처를 통해 SambaNova는 컴파일러 매핑을 통해 개별 신경망 계층 및 커널에 대한 리소스 할당을 최적화할 수 있습니다.

SambaNova의 CEO이자 설립자인 Rodrigo Liang은 VentureBeat에 “데이터플로우를 사용하면 완전히 재구성할 수 있기 때문에 이러한 모델의 매핑을 지속적으로 개선할 수 있습니다.”라고 말했습니다. “따라서 소프트웨어가 개선됨에 따라 효율성과 성능 측면에서 점진적이 아니라 상당히 상당한 이득을 얻을 수 있습니다.”

Llama 3가 처음 출시되었을 때 Liang의 팀은 이를 실행했고 처음에는 Samba-1에서 초당 330토큰의 성능을 보였습니다. Liang은 지난 몇 달 동안 일련의 최적화를 통해 해당 속도가 현재 최고 속도인 초당 1,000토큰으로 세 배 증가했다고 말했습니다. Liang은 최적화는 병목 현상을 방지하고 전체 신경망 파이프라인에서 처리량을 극대화하기 위해 커널 간의 리소스 할당의 균형을 맞추는 프로세스라고 설명했습니다. 이는 SambaNova가 기업이 자체 미세 조정 노력을 최적화하도록 돕기 위해 소프트웨어 스택의 일부로 사용하는 것과 동일한 기본 접근 방식입니다.

더 빠른 속도로 엔터프라이즈 품질 및 사용자 지정

Liang은 SambaNova가 속도 이정표를 달성하기 위해 16비트 정밀도를 사용하고 있으며, 이는 기업이 요구하는 더 높은 수준의 품질을 제공한다고 강조했습니다.

그는 8비트 정밀도로 떨어뜨리는 것은 기업 사용자에게 선택 사항이 아니라고 지적했습니다.

“고객 기반을 위해 우리는 16비트를 제공해 왔습니다. 품질을 매우 중요하게 생각하기 때문에 환각을 최소화하고자 합니다.”

속도는 여러 가지 이유로 기업 사용자에게 특히 중요합니다. 조직이 하나의 모델이 다음 모델로 흐르는 AI 에이전트 기반 워크플로우로 점점 더 많이 이동함에 따라 속도는 그 어느 때보다 중요해졌습니다. 또한 속도를 높이는 데에는 경제적인 이점도 있습니다.

그는 “더 빨리 생성할수록 다른 사람들이 사용할 수 있도록 기계가 더 많이 확보됩니다.”라고 말했습니다. “따라서 비용을 절감하기 위해 궁극적으로 인프라를 압축하는 것입니다.”