최신 ICT 이슈 최신 ICT 이슈 인공지능, 위기의 음악산업에 새로운 돌파구가 될 것인가 * 음악을 즐기는 방법이 모바일과 스트리밍으로 옮아 가면서 음악산업이 전반적인 매출 하 락의 문제에 직면하고 있는 가운데, 딥 러닝 인공지능을 이용한 추천 방식을 통해 음악 소비자의 수요를 넓히려는 시도들이 음악산업의 새로운 돌파구로 작용할 지가 관심거리 급속한 디지털화와 더불어 전반적인 음악산업의 쇠퇴가 이어지면서 인공지능을 통해 산업의 활력을 되찾으려는 시도들이 진행 중 - 음악 전달이 CD 에서 아이튠즈로 바뀌고, 지금은 스포티파이 등 스트리밍이 주류가 됨에 따라 음악산업 전체 매출액이 크게 감소 - 음악 전달뿐 아니라 제작 과정도 IT 화가 진행되어 컴퓨터에 악보를 입력해서 음을 만들고, 완성된 음악은 소프트웨어를 통해 수정할 수 있는 등 누구나 마음대로 변형 과 수정이 가능함 - 그러나 이런 제작 방식으로는 비용 절감이라는 이점을 얻긴 하지만, 비틀즈와 같이 역사에 남을 명작을 남기기는 어렵다는 것이 음악산업 전문가들의 대체적인 중론 - 이런 가운데 인공지능이 음악의 특성을 정확하게 파악할 수 있다는 연구 결과들이 나와 음악업계에 충격을 주고 있으며, 오히려 인공지능 컴퓨터의 도움을 통해 침체 에 빠진 음악산업을 재건하려는 다양한 시도들이 이루어지고 있음 음악에 인공지능을 적용하려는 시도는 그간 별다른 성과가 없었으나, 최근 딥 러닝 (Deep Learning) 기법을 적용함으로써 비약적인 진전을 이룸 - 음악 같은 2 차원 데이터는 사실 인공지능이 매우 잘할 수 있는 분야이므로 새로운 가능성을 추구하기 위해 그 동안 많은 연구자들이 도전해 왔지만 별다른 성과를 거 두지 못하고 있었던 상황 - 그런데 딥 러닝 기법의 하나인 컨볼루셔널 신경 네트워크(Convolutional Neural Network: CNN) 를 음악에 적용함으로써 비약적인 진전이 가능하게 되었음 * 본 내용과 관련된 사항은 산업분석팀( 042-612-8296)과 최신 ICT 이슈 컬럼니스트 박종훈 집필위원 (soma0722@naver.com 02-739-6301)에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다. 정보통신기술진흥센터 23
주간기술동향 2015. 8. 26. - CNN 은 각 계층에서 서로 완전히 연결된 일반 신경망 구조 대신, 전문가에 의해 선 별적으로 연결되도록 설계된 신경망 구조를 말하는 것으로 특징의 양을 정확하게 파 악하는 센서와 같은 역할을 수행 - 이 기술에 대해서는 벨기에 겐트대학(Ghent University)의 샌더 딜레만 등이 심화 콘텐츠 기반 음악 추천(Deep content-based music recommendation) 이라는 제목 의 논문으로 발표한 바 있음 음악에 적용하는 CNN 기술의 핵심은 인공지능기법으로 음악의 특성을 파악해서 추천 의 정확도를 크게 향상시키는 것 - 현재는 협업적 필터링(Collaborative Filtering) 방식으로 음악과 책을 추천하는 것 이 일반적이며, 가령 쇼핑몰에서 OO 상품을 구매하신 분은 XX 상품도 구매하고 있 다 라고 표시하는 것이 대표적인 협업적 필터링 수법 - 한마디로 구매 패턴이 유사한 소비자들을 비교해 상품을 추천하는 방식으로 아마존 닷컴은 이 방식을 통해 상당한 성공을 거둘 수 있었음 - 그러나 협업적 필터링은 출시된 지 얼마 안된 제품이나 인기 없는 상품에는 적용할 수 없다는 문제가 있으며, 추천에 이르기까지 구매 자료를 모으는 것부터 사전 준비 에 시간이 소요될 수밖에 없음 - 반면, CNN 기술을 적용하면 음악의 숨겨진 특성을 파악할 수 있어 소비자에게 딱 맞는 곡을 권장할 수 있으므로 CNN 기술은 음악을 듣는 것만으로도 누구에게 무엇 을 권장할 지를 판정할 수 있다고 함 - 논문에는 높은 정확도로 음악의 특성 을 파악할 수 있다는 주장의 검증 결 과도 실려 있으며, 여기에는 구체적으 로 대규모 음악 데이터베이스인 Million Song Dataset 를 이용하여 음악을 분 석하고 스타일별로 분류해 놓음 - CNN은 각 음악을 힙합, 록, 팝, 일렉 트릭 별로 색으로 구분해 표시하고, 각 그룹별로 뭉쳐 분류하였으며, 이는 현 <자료>: Sander Dieleman (그림 1) CNN 의 정확한 음악 분류 24 www.iitp.kr
최신 ICT 이슈 행 방식이 구분하는 정확도를 크게 상회한다고 함 이 연구에 대해서 음악 스트리밍 기업 스포티파이(Spotify)가 큰 관심을 보였으며, 실 제로 CNN 을 음악에 적용함으로써 곡의 특징 정도를 학습할 수 있다는 것을 입증 - 스포티파이는 샌더 딜레만 등 논문 저자들을 회사에 초청해 몇 달 간 공동 개발을 실시하였고, 딜레만은 그 결과를 자신의 블로그에 공개하여 음악산업 관계자들에게 놀라움을 선사 - 블로그에 따르면 CNN 은 4 개 계층으로 구성되어 있고, 각각에 음악의 짧은 소절을 입력 - CNN 의 첫 번째 계층에서는 낮은 차원의 음악 특성을 학습하며, 구체적으로 소절 안의 비브라토를 쓴 발성, 장 3 도의 화음, 베이스, 드럼 등 음악의 구성 요소를 확인 - 여기서 한 단계 더 나아가면 CNN 은 기타의 디스토션(일렉트릭 기타에서 사용하는 의도적으로 소리를 왜곡시키는 기법) 특성을 파악할 수 있음 - 동일한 특성을 나타내는 음악을 모으게 되면, 디스토션이 많이 사용된 음악의 재생 목록을 만들 수 있게 됨 - 같은 방식으로 CNN 은 피치(기준음)를 학습하게 되는데, 가령 CNN 이 기준음 A 의 음정에 대해 반응하고 나면 동일한 반응을 보이게 되는 노래들을 모을 수 있음 - 논문에서 흥미로운 점은 CNN 이 각 소리에 대해 어떤 느낌을 받고 있는지 를 시각 적으로 보여주고 있다는 것 - 가로축은 시간, 세로축은 주파수로 아래로 갈수록 높아지며, 적색은 마이너스 수치, <자료>: Sander Dieleman (그림 2) CNN 1 계층의 음악 특성 학습 후 분류( 左 )와 음악에 대한 느낌 표현( 右 ) 정보통신기술진흥센터 25
주간기술동향 2015. 8. 26. 청색은 플러스 수치, 백색은 제로를 나타내며, 이를 통해 CNN 이 음악 요소의 두드 러진 특성을 나타낼 수 있다는 것을 직관적으로 이해할 수 있음 나아가 CNN 의 네트워크 계층을 늘리면 고차원의 음악 특성을 파악할 수 있으며, 여 기서 4 계층 네트워크의 최종 계층을 사용하면 음악의 장르별 파악이 가능 - 가령 입력된 소절을 통해 음악을 크리스천 록, 스무스 재즈, 아카펠라, 가스펠, 차이 니즈 팝 등으로 파악 - 이상에서 알 수 있듯이 CNN 의 첫 번째 계층은 음악 구성 요소라는 낮은 차원의 특 성을 파악하고, 네 번째 계층은 음악 장르라는 고차원적 특성을 파악하는 것 - 이미지 분석이라면 CNN 은 낮은 계층에서 저차원적 특성(자동차 타이어)을 파악하 고, 계층이 높아질수록 고차원적 특성(자동차의 차종)을 파악하는 방식으로 음악에 도 이런 구도가 적용 가능하며, CNN 을 음악에 적용할 경우 획기적인 시스템이 등 장할 것으로 기대해 볼 수 있는 것 <자료>: Spotify (그림 3) CNN 기술을 이용한 스포티파이의 음악 장르 파악( 左 )과 음악 추천 기능( 右 ) 실제로 스포티파이는 CNN 을 도입하여 유사한 특성을 가진 음악들을 모아 재생목록을 만들고, 이용자들에게 높은 정확도로 음악을 추천하는 것이 목표 - CNN 을 학습시키면 음악을 장르별로 구분하고 재생목록을 만들어 낼 수 있을 뿐만 아니라, 협업적 필터링과는 달리 출시된 지 얼마 안된 음악이나, 인기가 덜한 인디 음악도 추천할 수 있어 음악 전달의 기회와 폭이 넓어지는 효과를 제공 - 스포티파이는 에코 네스트(Echo Nest) 라는 기업을 인수하고, 그들의 기술을 활용 해 음악을 추천하고 있으며, 에코 네스트는 인터넷 상의 평가 및 음향 분석(Acoustic 26 www.iitp.kr
최신 ICT 이슈 Analysis) 프로그램을 함께 사용해서 음악의 특성을 평가함 - 음향 분석은 음악 신호 레벨에서 피치, 음량, 음색 등의 특성을 파악하고 음악의 특 징을 비교하는 것으로, 이 방식은 음악에 관한 전문 지식을 필요로 하기 때문에 다 루기가 어려운 것으로 알려져 있음 - 스포티파이는 에코 네스트 방식을 CNN 으로 바꾸는 것이 아니라 양자를 병행하여 운용하는 것으로 알려져 있으며, CNN 을 도입함으로써 기능과 정확도가 크게 향상 될 것으로 기대 스포티파이 외에 판도라, 구글 등 여타 스트리밍 서비스 업체들도 모두 CNN 을 적용 하고 있는 것으로 보임 - 판도라(Pandora)는 음악의 특성을 파악함으로써 청취자에게 최고의 음악을 전달하 는 기법을 시작한 최초의 기업이며, 판도라는 음악을 분석한 후 그 특성을 400 가지 요소로 정의 - 판도라는 이 기법을 음악 게놈 프로젝트(Music Genome Project) 라 칭하고 음악 의 유전자를 분석하고 있으며, 음악의 특성에 따라 곡을 전달함으로써 청취자들로부 터 호평을 받고 있음 - 음악 유전자 분석은 전문 음악가가 직접 듣고 하기 때문에 시간과 비용이 들기 마련 이나, 판도라는 CNN 을 도입해서 이 과정을 기계화하는 것으로 알려져 있음 - 세계 최고 수준의 인공지능 기술을 보유하고 있는 구글 역시 자사 음악 스트리밍 서 비스인 플레이 뮤직(Play Music) 에 틀림없이 CNN 을 적용하고 있을 것으로 추정 - 게다가 논문의 주저자인 샌더 딜레만이 구글에 채용되어 지금은 딥마인드(DeepMind) <자료>: Pandora (그림 4) CNN 기술을 이용한 판도라의 Music Genome Project 정보통신기술진흥센터 27
주간기술동향 2015. 8. 26. 의 런던 사무실에서 일하고 있기 때문에 구글은 앞으로도 CNN 기능을 대규모로 배 포 할 것으로 예상됨 음악 스트리밍 업체는 일제히 CNN 을 활용한 음악 추천기능을 빠른 속도로 개발하는 중으로 CNN 에 의한 음악추천 정확도가 향상될수록 큰 비즈니스 기회가 창출될 전망 - 음악산업은 전형적인 롱테일 비즈니스로서 구매되는 음악은 일부 히트곡으로 제한 되며, 꼬리 부분은 청취자가 선호하는 음악들이 많이 숨어 있지만 찾아낼 길이 없음 - 검색을 이용하는 방안은 청취자가 이미 그 음악에 대해 알고 있다는 것을 전제하므 로 롱테일을 이용한 새로운 시장을 창출하는 것과는 거리가 있으며, 미처 알지 못했 으나 자신의 취향인 음악이 추천되었을 때 새로운 구매로 이어질 가능성이 높음 - CD 에서 스트리밍으로 진화하여 음악에 대해 지불하는 단가가 낮아졌다면, 매출을 벌 충하는 방법은 스트리밍 서비스들이 스스로의 존재가치로 내세우는 것처럼 더 많은 곡을 듣도록 하여야 함 - 만일 CNN 을 통해 롱테일 속에 묻혀 있는 명작들을 발굴하여 청취자들에게 제시할 수 있다면, 침체된 음악산업에 새로운 활로가 될 수 있기 때문에 현재 음악 업계는 인공지능의 역할에 점차 기대를 걸고 있는 상황 <참 고 자 료> [1] Mark Watkins, Pandora Media Sees Large Increase in Short Interest, DAKOTA, 2015. 8. 17. [2] Marc Hogan, The Web Radio Landscape: Is Beats 1 Putting the Heat on Pandora and SiriusXM?, billboard, 2015. 8. 13. [3] John Paul Titlow, Inside Spotify s Plan To Take On Apple Music, Fast Company, 2015. 7. 31. [4] Jordan Novet, Google, Spotify, & Pandora bet a computer could generate a better playlist than you can, VentureBeat, 2014. 11. 11. 28 www.iitp.kr