요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
에지에서 AI 미세 조정, 학습 및 추론을 처리하는 방법은 여러 가지가 있습니다.
GPU 외에도 실리콘 공급업체인 Kneron의 뉴럴 프로세싱 유닛(NPU)을 사용하는 방법이 있습니다.
오늘 대만에서 열린 Computex 컨퍼런스에서 Kneron은 에지 AI 추론 및 미세 조정을 발전시키기 위한 차세대 실리콘 및 서버 기술을 자세히 소개했습니다. Kneron은 2015년에 설립되었으며 Qualcomm과 Sequoia Capital이 투자자로 참여하고 있습니다. 2023년에는 전 세계적인 GPU 부족 문제를 해결하기 위해 KL730 NPU를 발표했습니다. 이제 Kneron은 차세대 KL830을 출시하고 2025년에 출시될 예정인 미래형 KL 1140을 살짝 공개했습니다. Kneron은 새로운 NPU 실리콘 외에도 오프라인 추론 기능을 제공하는 KNEO 330 Edge GPT 서버를 통해 AI 서버 포트폴리오를 확장하고 있습니다.
Kneron의 기술은 GPU 이외의 기술을 사용하여 AI 워크로드의 전력 및 효율성을 개선하려는 Groq 및 SambaNova를 포함한 소수이지만 증가하는 공급업체 그룹에 속합니다.
NPU로 구동되는 에지 AI 및 개인 LLM
Kneron이 이번 업데이트를 통해 중점을 두는 부분은 온프레미스에서 실행할 수 있는 개인 GPT 서버를 구현하는 것입니다.
조직은 클라우드 연결 기능이 있는 대규모 시스템에 의존할 필요 없이 네트워크 에지에서 로컬로 개인 GPT 서버를 실행하여 추론할 수 있습니다. 그것이 바로 Kneron KNEO 시스템의 약속입니다.
Kneron의 CEO인 Albert Liu는 VentureBeat에 KNEO 330 시스템이 여러 개의 KL830 에지 AI 칩을 통합하고 있으며 소형 폼 팩터 서버라고 설명했습니다. Liu에 따르면 이 시스템의 장점은 기업에게 저렴한 온프레미스 GPT 배포를 제공한다는 것입니다. KL730으로 구동되는 이전 KNEO 300 시스템은 캘리포니아의 스탠포드 대학교를 비롯한 대규모 조직에서 이미 사용되고 있습니다.
이 회사의 이전 KL730과 향후 출시될 KL1140 사이에 위치하는 KL830 칩은 특히 언어 모델용으로 설계되었습니다. 낮은 전력 소비를 유지하면서 더 큰 모델을 지원하기 위해 캐스케이드 방식으로 연결할 수 있습니다.
에지 AI 학습 및 미세 조정을 위한 새로운 도구 제공
Kneron은 하드웨어를 중심으로 하지만 소프트웨어도 중요한 부분입니다.
Kneron은 이제 회사의 하드웨어 위에서 실행되는 모델을 학습하고 미세 조정할 수 있는 여러 가지 기능을 제공합니다. Liu는 Kneron이 여러 개의 오픈 모델을 결합한 다음 NPU에서 실행되도록 미세 조정하고 있다고 말했습니다.
또한 Kneron은 이제 신경망 컴파일러를 통해 학습된 모델을 칩에 전송하는 기능을 지원합니다. 이 도구를 사용하면 TensorFlow, Caffe 또는 MXNet과 같은 프레임워크로 학습된 모델을 Kneron 칩에서 사용할 수 있도록 컴파일할 수 있습니다.
Kneron의 새로운 하드웨어는 RAG(Retrieval-Augmented Generation) 워크플로우를 지원하는 데에도 사용할 수 있습니다. Liu는 RAG에 필요한 대규모 벡터 데이터베이스의 메모리 요구 사항을 줄이기 위해 Kneron의 칩이 GPU와 비교하여 고유한 구조를 사용한다고 언급했습니다. 이를 통해 RAG는 더 낮은 메모리 및 전력 소비로 작동할 수 있습니다.
Kneron의 비밀 병기: 저전력 소비
Kneron 기술의 주요 차별점 중 하나는 저전력 소비입니다.
“주요 차이점은 전력 소비량이 매우 낮다는 것입니다.”라고 Liu는 말했습니다.
Kneron에 따르면 새로운 KL830의 최대 전력 소비량은 2와트에 불과합니다. 이처럼 낮은 전력 소비 수준에도 불구하고 KL830은 최대 10eTOPS@8bit의 통합 계산 성능(CCP)을 제공한다고 합니다.
Liu는 낮은 전력 소비량 덕분에 Kneron의 칩을 추가 냉각 솔루션 없이도 PC를 비롯한 다양한 장치에 통합할 수 있다고 말했습니다.