ElevenLabs, AI 생성 음향 효과로 음성 그 이상을 향해 나아가다

ElevenLabs의 CEO인 Mati Staniszewski는 VentureBeat와의 인터뷰에서 이 도구가 몇 초 길이의 사운드를 넘어 더 긴 오디오 샘플을 생성할 수 있다고 말했습니다.

2024년 5월 31일 오후 3:00- 4달 전VENTUREBEAT.COM- Shubham Sharma

ElevenLabs, AI 생성 음향 효과로 음성 그 이상을 향해 나아가다

요약생성

바쁠 때는 리얼라이즈가 내용을 요약해 드려요.

텍스트 음성 변환 및 음성 음성 합성 도구를 출시한 AI 음성 스타트업 ElevenLabs에서 다음 목표로 나아갑니다. Google 및 Palantir 출신 직원들이 설립한 이 2년차 스타트업은 오늘 Sound Effects라는 새로운 텍스트 음향 변환 AI 제품을 출시했습니다.

오늘부터 ElevenLabs 웹사이트에서 사용할 수 있는 Sound Effects는 이 스타트업의 자체 기반 모델을 사용하며, 제작자는 상상하는 사운드에 대한 설명을 입력하기만 하면 다양한 유형의 오디오 샘플을 생성할 수 있습니다.

이 회사는 2월에 Sora에서 생성된 클립(AI 음향 효과로 개선되었지만)을 특징으로 하는 게시물과 함께 이 도구를 처음 공개했습니다.

Sora 발표에 깊은 인상을 받았지만 뭔가 부족하다고 느꼈습니다…

사운드를 설명하고 AI로 생성할 수 있다면 어떨까요? pic.twitter.com/HcUxQ7Wndg

— ElevenLabs (@elevenlabsio) 2024년 2월 18일

ElevenLabs는 Shutterstock과 협력하여 이 제품을 출시했으며, 몰입감 넘치는 사운드스케이프로 콘텐츠를 개선하려는 모든 분야의 제작자들이 이 제품을 채택할 것으로 기대하고 있습니다.

ElevenLabs Sound Effects에서 기대할 수 있는 것은?

현재 제작자가 소셜 동영상, 게임, 영화, TV 프로그램과 같은 콘텐츠에 주변 소음을 추가하려면 직접 녹음하거나 인터넷의 여러 저장소에서 오디오 파일을 구입/라이선스해야 합니다.

이 방법도 효과적이지만, 이러한 소스에서 원하는 오디오를 항상 찾을 수 있는 것은 아니며, 새로운 사운드를 녹음하기 위해 비용을 지불할 여력이 없는 경우도 있습니다.

ElevenLabs의 새로운 Sound Effects 도구는 이러한 문제를 해결하여 제작자와 제작 팀이 일반적인 대화체 영어로 입력하기만 하면 원하는 것을 정확하게 얻을 수 있는 방법을 제공합니다.

사용자가 원하는 음향 효과를 자세히 설명하는 텍스트 프롬프트를 입력하면 Sound Effects를 구동하는 모델이 이를 처리하고 선택할 수 있는 6개의 고유한 오디오 샘플을 생성합니다.

그런 다음 사용자는 이러한 각 샘플을 듣고 프로젝트에 가장 적합한 샘플을 선택하여 다운로드하거나 ElevenLabs 플랫폼에 직접 저장할 수 있습니다.

VentureBeat는 이 제품을 조기에 접해 약 30~40초 만에 선명한 출력물을 생성할 수 있음을 확인했습니다. 그러나 테스트 결과 Sound Effects는 6개가 아닌 4개의 옵션만 생성했습니다.

여기에는 천둥, 초인종, 동전 짤랑거리는 소리와 같은 표준적인 주변 소음부터 원숭이 짖는 소리, 자동차 경주 소리, 식당에서 사람들이 식사하는 소리, 기차가 멈추는 소리와 같은 더 복잡한 소리까지 다양한 오디오 샘플이 포함되었습니다.

ElevenLabs의 CEO인 Mati Staniszewski는 VentureBeat와의 인터뷰에서 이 도구가 몇 초 길이의 사운드를 넘어 악기 음악이나 캐릭터 음성과 같은 더 긴 오디오 샘플을 생성할 수 있다고 말했습니다.

Staniszewski는 “기타 루프, 재즈 색소폰 솔로, 음악 테크노 루프와 같은 프롬프트를 사용하여 최대 22초 길이의 악기 음악 트랙을 생성할 수 있습니다.”라고 설명했습니다. “또한 이 모델은 ‘모래 위에서 춤추며 노래하는 여성, 우리는 낮이 저무는 것을 지켜보았다' 또는 ‘오우거가 ‘하찮은 인간아, 가까이 오지 마라'라고 말하는 소리'와 같은 프롬프트를 사용하여 다양한 캐릭터 음성을 만들 수 있습니다. ‘기뻐하는 노부인이 ‘정말 자랑스럽다'라고 말한 다음 웃는 소리'와 같은 프롬프트를 사용하여 사운드를 서로 연결할 수도 있습니다.”

이 회사는 이러한 기능을 지원하는 모델의 세부 정보를 공개하지 않았지만, 회사의 자체 연구를 기반으로 하며 Shutterstock의 라이선스가 부여된 트랙 오디오 라이브러리에서 미세 조정되었다고 언급했습니다.

Shutterstock의 최고 엔터프라이즈 책임자인 Aimee Egan은 성명을 통해 “풍부하고 몰입감 넘치는 트랙 라이브러리와 이러한 최첨단 오디오 기술의 결합으로 진정한 시장 선도적인 제품을 만들 수 있었습니다. 얼리 액세스 커뮤니티의 긍정적인 피드백에 감사드리며, 이들이 만들어낼 다양한 프로젝트를 기대합니다.”라고 말했습니다.

전 세계 제작자에게 힘을 실어주는 것을 목표로

2년 전 설립된 ElevenLabs는 강력한 AI 오디오 기능을 개발하고 출시하는 데 주력해 왔습니다.

이 회사는 먼저 다양한 언어로 된 텍스트 음성 변환 모델을 출시한 다음 음성 복제 제품과 사용자가 원래 화자의 음성과 감정을 유지하면서 오디오 및 비디오를 29개 언어로 번역할 수 있는 음성 음성 변환 도구인 AI 더빙을 출시했습니다.

오늘 Sound Effects를 출시함으로써 이러한 작업을 확장하여 제작자에게 고품질 콘텐츠를 제작할 수 있는 더 많은 도구를 제공합니다.

Staniszewski는 영화 및 TV 스튜디오, 비디오 게임 개발자, 마케터, 소셜 미디어 콘텐츠 제작자를 포함한 모든 분야의 제작자가 Sound Effects를 사용할 수 있기를 바랍니다.

그러나 지금까지 이 제품을 알파 테스트한 기업의 이름은 공개하지 않았습니다.

1월에 이 회사는 The Washington Post, Storytel, TheSoul Publishing과 같은 유명 기업을 포함하여 Fortune 500대 기업의 41%가 자사 고객이라고 밝혔습니다.

Staniszewski는 다음 단계로 현재 알파 테스트 중인 음악 생성 모델과 음성 해설 스튜디오 제품도 출시할 예정이라고 덧붙였습니다. 두 제품 모두 출시 시기는 아직 확정되지 않았습니다.

AI 음성, 사운드, 음악 생성 분야의 다른 회사로는 Google, Meta, Suno, Pika, MURF.AI, Play.ht, WellSaid Labs 등이 있습니다. Market US에 따르면 이러한 도구의 글로벌 시장 규모는 2022년 12억 달러였으며 2032년에는 거의 50억 달러에 이를 것으로 예상되며, 연평균 성장률(CAGR)은 15.40%를 약간 웃돌 것으로 예상됩니다.