Stability AI, 음향 생성기 출시

Stable Diffusion의 개발사인 Stability AI가 Stable Audio Open이라는 음향 생성 AI 모델을 출시했습니다.

2024년 6월 5일 오후 5:39- 3달 전TECHCRUNCH.COM- Kyle Wiggers

Stability AI, 음향 생성기 출시

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

AI 기반 아트 생성기 Stable Diffusion을 개발한 스타트업 Stability AI가 로열티 없는 녹음으로만 학습했다고 주장하는 음향 및 노래 생성을 위한 오픈 AI 모델을 출시했습니다.

Stable Audio Open이라는 이름의 이 생성 모델은 무료 음악 라이브러리인 FreeSound와 Free Music Archive의 약 486,000개 샘플을 사용하여 학습되었으며, 텍스트 설명(예: “스튜디오에서 연주되는 록 비트, 어쿠스틱 키트의 세션 드럼 연주”)을 입력하면 최대 47초 길이의 녹음을 출력합니다.

Stability AI는 이 모델을 사용하여 드럼 비트, 악기 리프, 주변 소음, 비디오, 영화, TV 프로그램의 “제작 요소”를 생성할 수 있으며, 기존 노래를 “편집”하거나 한 노래의 스타일(예: 스무스 재즈)을 다른 노래에 적용할 수도 있다고 말합니다.

Stability AI는 자사 블로그 게시물에서 “이 오픈 소스 릴리스의 주요 이점은 사용자가 자신의 맞춤형 오디오 데이터로 모델을 미세 조정할 수 있다는 것입니다.”라고 말합니다. “예를 들어, 드러머는 자신의 드럼 녹음 샘플로 미세 조정하여 새로운 비트를 생성할 수 있습니다.”

하지만 Stable Audio Open에는 제한 사항이 있습니다. 완전한 노래, 멜로디 또는 보컬을 생성할 수 없습니다. 적어도 좋은 품질로는 말이죠. Stability AI는 이러한 기능에 최적화되어 있지 않다고 말하며, 이러한 기능을 원하는 사용자는 회사의 프리미엄 Stable Audio 서비스를 선택할 것을 제안합니다.

Stable Audio Open은 상업적으로도 사용할 수 없습니다. 서비스 약관에서 금지하고 있습니다. 또한 모든 음악 스타일과 문화권에서 동일하게 잘 작동하는 것도 아니고, 영어 이외의 언어로 된 설명에도 잘 작동하지 않습니다. Stability AI는 학습 데이터로 인한 편향 때문이라고 말합니다.

Stability AI는 모델에 대한 설명에서 “데이터 출처의 다양성이 부족할 수 있으며 모든 문화권이 데이터 세트에 동일하게 표현되어 있지는 않습니다.”라고 말합니다. “모델에서 생성된 샘플은 학습 데이터의 편향을 반영합니다.”

오랫동안 부진한 사업을 전환하기 위해 고군분투해 온 Stability AI는 최근 생성 오디오 담당 부사장인 Ed Newton-Rex가 저작권이 있는 저작물로 생성 AI 모델을 학습하는 것이 “공정 사용”에 해당한다는 회사의 입장에 동의하지 않아 사임하면서 논란의 중심에 섰습니다. Stable Audio Open은 그러한 논란을 뒤집으려는 시도이자 Stability AI의 유료 제품을 노골적으로 광고하는 것으로 보입니다.