티스토리 뷰

반응형

Hugging Face에서 Img To Music 모델을 사용해보자!

Hugging Face Screenshot

 

이미지의 분위기에 맞게 음악을 생성해주는 AI 모델을 Hugging Face에서 쉽게 체험해볼 수 있어서 나도 한번 사용해보았다.

 

먼저, Hugging Face는 어떤 사이트인가?

Hugging Face
Hugging Face는 기계 학습을 사용하여 애플리케이션을 구축하기 위한 도구를 개발하는 미국 회사입니다. 자연어 처리 애플리케이션용으로 구축된 Transformers 라이브러리와 사용자가 기계 학습 모델 및 데이터 세트를 공유할 수 있는 플랫폼으로 가장 유명합니다.

 

Hugging Face 설명을 보다보니 Transformers가 무엇인지 궁금해져 찾아보았다.

Transformers
트랜스포머 모델은 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망입니다. 트랜스포머는 텍스트와 음성을 거의 실시간으로 옮겨 청각 장애인 등 다양한 청중의 회의와 강의 참여를 지원합니다. DNA의 유전자 사슬과 단백질의 아미노산에 대한 이해를 도와 신약 디자인을 가속하기도 하죠. 트랜스포머는 트렌드와 이상 징후를 감지해 부정 방지, 제조 간소화, 온라인 추천, 헬스케어 개선 등에 기여합니다. 우리가 구글이나 마이크로소프트 빙(Microsoft Bing)에서 검색할 때에도 트랜스포머를 사용합니다.

 

fffiloni - Image to Music

 

Img To Music - a Hugging Face Space by fffiloni

 

huggingface.co

 

 

Image에서 Text를 추출하고, Text에서 Music을 추출하는 방식인데, Image에서 Text를 추출할 때 CLIP Interrogator를 사용하며 Text에서 Music을 추출할 때는 Mubert의 모델을 사용한다. Mubert는 AI 음악 생성 서비스를 회사로 Mubert Render, Mubert Studio, Mubert API, Mubert Play의 등의 서비스를 제공하고 있다.

 

 

pharma - CLIP Interrogator

 

CLIP Interrogator - a Hugging Face Space by pharma

 

huggingface.co

 

Mubert

 

Mubert (Mubert Inc)

Research interests Generative & interactive music, creative AI, MIR, DSP. Team members 3 None public yet None public yet

huggingface.co

 

 

아래의 영상들은 내가 Text to Image 모델로 생성한 이미지에 Image to Music으로 생성한 음악을 입혀본 영상이다. 우주같은 분위기의 이미지에 맞게 몽환적인 음악이 나온 것 같다. 비슷한 분위기의 세가지 영상인데, 각각이 다른 느낌으로 생성된 것도 재미있게 볼만한 포인트인 것같다.

 

 

 

 

 


 

Reference

Hugging Face - Wikipedia

트랜스포머 모델이란 무엇인가? (1)

반응형