logo
공유된 기사
"스테이블 오디오, AI 기반 음악 생성 모델 출시...1초 만에 95초 고품질 오디오 생성 가능"
스태빌리티 AI가 디퓨전 모델에 기반한 음악 생성 AI 모델 '스테이블 오디오'를 출시한다고 테크크런치가 보도했습니다. 스테이블 오디오는 최대 95초 길이의 고품질 44.1kHZ 음악이나 음향 효과 오디오를 생성할 수 있으며, 이전의 음악 생성기인 '댄스 디퓨전'보다 오디오 품질과 길이를 효과적으로 조절할 수 있습니다. 이 모델은 '확산(디퓨전) 모델'을 사용하며, 이는 의도적으로 오류를 도입한 훈련 데이터셋으로 구축한 신경망으로, 노이즈를 줄여가면서 의미있는 오디오 파일을 생성하는 방식입니다.

스테이블 오디오는 '잠재 확산(latent diffusion)'으로 알려진 특수 확산 모델을 사용하여 오디오 클립의 크기 제한 문제를 해결했습니다. 이 모델은 '오토인코더(autoencoder)'라는 신경망을 함께 사용하여 불필요한 정보를 제거한 훈련 데이터셋을 사용합니다. 이를 통해 엔비디아의 'A100' GPU에서 44.1kHz 샘플링 속도로 95초의 오디오를 1초 안에 생성할 수 있습니다. 스태빌리티 AI는 앞으로 오디오 생성 모델과 훈련용 데이터셋을 개선하고, 스테이블 오디오를 기반으로 하는 오픈소스 모델도 출시할 계획입니다.

Copyright © 2025. Codenary All Rights Reserved.