요약생성
바쁠 때는 리얼라이즈가 내용을 요약해 드려요.
Stability AI는 Stable Audio Open 1.0을 출시하며 오디오 생성 AI 분야에 대한 노력을 공개했습니다.
Stability AI는 Stable Diffusion 텍스트-이미지 생성 AI 기술로 가장 잘 알려져 있지만, 이는 코드, 텍스트 및 오디오를 위한 여러 모델을 포함하는 회사의 광범위한 포트폴리오의 한 부분일 뿐입니다. 2023년 9월 Stability AI는 텍스트-오디오 생성 AI 도구인 Stable Audio를 처음으로 공개적으로 출시했습니다. 4월 3일에는 생성된 오디오에 더 많은 선명도와 길이를 제공하는 Stable Audio 2.0이 출시되었습니다.
전체 Stable Audio 도구는 일반적인 상업적 용도로 사용할 수 있으며 최대 3분 분량의 오디오를 생성할 수 있는 반면, 새로운 Stable Audio Open은 훨씬 더 제한적입니다. Stable Audio Open의 목적은 완전한 노래를 만드는 것이 아니라 음향 효과와 같은 짧은 부분에 중점을 둡니다.
이름에서 알 수 있듯이 Stable Audio Open은 오픈 모델이지만 기술적으로 오픈 소스는 아닙니다. Stable Audio Open은 실제 오픈 소스 이니셔티브(OSI)에서 승인한 라이선스를 사용하는 대신 Stability AI 비상업적 연구 커뮤니티 계약 라이선스에 따라 사용자에게 제공됩니다. 이 라이선스는 모델에 대한 오픈 액세스를 제공하지만 사용자가 모델로 할 수 있는 작업을 제한합니다.
Stability AI의 오디오 연구 책임자인 Zach Evans는 VentureBeat에 “Stable Audio Open의 목표는 오디오 연구원과 제작자에게 생성 오디오 모델 중 하나에 대한 실질적인 액세스를 제공하여 이러한 놀라운 새로운 도구에 대한 연구, 채택 및 실질적인 창의적 사용을 가속화하는 것입니다.”라고 말했습니다.
Stable Audio Open이란 정확히 무엇일까요?
Stable Audio Open은 드럼 비트, 악기 리프, 주변 사운드 및 음악 제작 및 사운드 디자인을 위한 기타 오디오 샘플과 같은 것을 만드는 데 최적화된 전문 모델입니다.
최대 3분 길이의 더 길고 일관된 음악 트랙을 생성하는 Stability AI의 상용 Stable Audio 제품과 달리 Stable Audio Open은 텍스트 프롬프트를 사용하여 최대 47초 길이의 고품질 오디오 데이터를 생성하는 데 중점을 둡니다.
Stability AI는 또한 모델 학습 방식에 대한 책임감 있는 접근 방식을 취했습니다. 이 모델은 FreeSound 및 Free Music Archive의 오디오 데이터를 기반으로 학습되었으며, 저작권이 있거나 독점적인 자료가 허가 없이 사용되지 않았는지 확인했습니다.
Stable Audio Open의 미세 조정으로 창의력 발휘
Stable Audio Open 릴리스의 주요 이점 중 하나는 사용자가 자신의 사용자 지정 오디오 데이터에서 모델을 미세 조정할 수 있다는 것입니다. 예를 들어 드러머는 자신의 드럼 녹음 샘플에서 모델을 미세 조정하여 새롭고 독특한 비트를 생성할 수 있습니다.
Stable Audio의 미세 조정은 실제 오픈 소스 라이선스에 따라 사용이 허가된 Stable Audio Tools 라이브러리를 통해 가능합니다. Stable Audio Open Model 가중치는 이제 Hugging Face에서 사용할 수 있습니다.
Evan은 “오디오 연구팀은 생성 오디오 모델의 품질과 제어 가능성을 개선할 수 있는 방법을 끊임없이 연구하고 있습니다.”라며 “우리 연구팀의 진전을 반영하는 추가 상용 및 오픈 모델 릴리스를 기대합니다.”라고 말했습니다.