추천 시스템은 인터넷의 발달로 급격하게 증가하는 정보의 양으로 인해 생긴 정보 선택의 어려움을 소비자에게 덜어주고 각 개인의 취향에 맞는 정보를 효율적으로 보여주는 중요한 역할을 한다. 특히, E-commerce와 OTT 기업은 상품과 콘텐츠 양이 급격하게 증가하면서 추천 시스템의 도움 없이는 인기 있는 상품만 소비되는 현상인 긴 꼬리 현상 (long-tail phenomenon)을 극복하지 못한다. 이러한 현상을 극복하고 고객 개인 취향에 맞는 정보 혹은 콘텐츠를 제공해 고객의 소비를 유도하기 위해 추천 시스템의 연구가 활발히 진행되고 있다. 추천 시스템은 기본적으로 콘텐츠 기반 필터링(Content-Based Filtering), 협업 필터링(Collaborative Filtering), 하이브리드 추천(Hybrid Recommendation)으로 나뉜다. 일반적으로 유저(user)의 과거 행동 이력을 활용한 협업 필터링이 유저가 선호한 콘텐츠의 정보를 활용하는 콘텐츠 기반 필터링에 비해 높은 성능을 보여준다. 하지만 협업 필터링은 과거 행동 데이터가 부족한 유저에 대해서는 추천의 성능이 낮아지는 콜드 스타트(Cold Start) 문제를 겪게 된다. 본 논문에서는 카카오 아레나 경진대회에서 주어진 음악 스트리밍 서비스 멜론의 플레이리스트 데이터를 기반으로 앞에서 언급한 콜드 스타트 문제를 해결할 수 있는 하이브리드 음악 추천 시스템을 제시한다. 본 연구에서는 플레이리스트에 수록된 곡 목록과 각 음악과 플레이리스트의 메타데이터를 활용해 절반 혹은 전부 가려진 플레이리스트의 다른 수록 곡을 예측하는 것을 목표로 진행했다. 이를 위해 플레이리스트 안에 곡이 있는 경우와 아예 곡이 없는 경우를 나눠서 추천을 진행했다. 플레이리스트 안에 곡이 있는 경우는 해당 플레이리스트의 곡 목록과 각 곡의 메타데이터를 활용하기 위해 LightFM을 활용하였다. 그 다음에 Item2Vec을 활용해 플레이리스트에 있는 수록 곡과 태그 및 제목의 임베딩 벡터를 생성하고 이를 추천에 활용한다. 최종적으로 LightFM과 Item2Vec 모델의 앙상블을 통해 최종 추천 결과를 생성했다. 이를 통해 플레이리스트 안에 수록 곡이 적은 콜드 스타트 상황에서도 대응이 가능했다. 플레이리스트 안에 곡이 없고 태그 혹은 제목만이 존재할 경우에는 플레이리스트의 메타데이터인 태그와 제목을 FastText를 활용해 사전 학습을 시켜 생성된 플레이리스트 벡터를 기반으로 플레이리스트 간의 유사도를 활용하여 추천을 진행했다. 이렇게 추천한 결과, 기존 Matrix Factorization(MF)에서 해결하지 못한 콜드 스타트 문제를 해결할 수 있었을 뿐만 아니라 곡과 플레이리스트의 메타데이터를 활용해 기존 MF 모델인 ALS와 BPR 그리고 Word2Vec 기반으로 추천해주는 Item2Vec 기술보다 높은 추천 성능을 낼 수 있었다. 또한, LightFM을 토대로 다양한 곡의 메타데이터를 실험한 결과, 여러 메타데이터 중에서 아티스트 정보를 단독으로 활용한 LightFM 모델이 다른 메타데이터를 활용한 LightFM 모델들과 비교해 가장 높은 성능을 보여준다는 것을 확인했다.
Recommendation system plays a significant role on relieving difficulties of selecting information among rapidly increasing amount of information caused by the development of the Internet and on efficiently displaying information that fits individual personal interest. In particular, without the help of recommendation system, E-commerce and OTT companies cannot overcome the long-tail phenomenon, a phenomenon in which only popular products are consumed, as the number of products and contents are rapidly increasing. Therefore, the research on recommendation systems is being actively conducted to overcome the phenomenon and to provide information or contents that are aligned with users'' individual interests, in order to induce customers to consume various products or contents. Recommendation systems are basically divided into contents-based filtering, collaborative filtering, and hybrid recommendation. Usually, collaborative filtering which utilizes users’ historical behavioral data shows better performance than contents-based filtering which utilizes users’ preferred contents. However, collaborative filtering can suffer from cold-start problem which occurs when there is lack of users’ historical behavioral data. In this paper, hybrid music recommendation system, which can solve cold-start problem, is proposed based on the playlist data of Melon music streaming service that is given by Kakao Arena for music playlist continuation competition. The goal of this research is to use music tracks, that are included in the playlists, and metadata of music tracks and playlists in order to predict other music tracks when the half or whole of the tracks are masked. Therefore, two different recommendation procedures were conducted depending on the two different situations. When music tracks are included in the playlist, LightFM is used in order to utilize the music track list of the playlists and metadata of each music tracks. Then, the result of Item2Vec model, which uses vector embeddings of music tracks, tags and titles for recommendation, is combined with the result of LightFM model to create final recommendation list. When there are no music tracks available in the playlists but only playlists’ tags and titles are available, recommendation was made by finding similar playlists based on playlists vectors which was made by the aggregation of FastText pre-trained embedding vectors of tags and titles of each playlists. As a result, not only cold-start problem can be resolved, but also achieved better performance than ALS, BPR and Item2Vec by using the metadata of both music tracks and playlists. In addition, it was found that the LightFM model, which uses only artist information as an item feature, shows the best performance compared to other LightFM models which use other item features of music tracks.
국문 요지 v제1장 서론 1제1절 연구 배경 및 목적 1제2절 연구 내용 2제3절 연구 질문 및 논문 구성 3제2장 선행 연구 5제1절 추천 시스템 개요 51.1 콘텐츠 기반 필터링 (Content-based Filtering) 61.2 협업 필터링 (Collaborative Filtering) 61.3 하이브리드 기반 추천 (Hybrid recommendation) 11제2절 LightFM 12제3절 워드 임베딩을 활용한 추천 시스템 14제4절 음악 플레이리스트 추천 시스템 16제3장 연구 설계 및 절차 19제1절 데이터 설명 및 구성 20제2절 데이터 전처리 및 모델 학습 232.1 ALS, BPR 학습 및 데이터 전처리 232.2 LightFM 학습 및 데이터 전처리 242.3 Item2Vec 학습 및 데이터 전처리 262.4 플레이리스트 제목과 태그 텍스트 데이터 사전 학습 및 전처리 28제3절 플레이리스트 제목 & 태그 기반 추천 34제4절 LightFM과 Item2Vec 앙상블 추천 34제4장 결과 35제1절 평가지표 35제2절 실험 결과 및 분석 362.1 메타데이터 활용에 따른 성능평가 362.2 수록 곡이 없을 때의 대응 방안 372.3 수록 곡 개수가 적을 때의 대응 방안 41제5장 고찰 45제1절 의의 45제2절 한계점 및 추후 연구과제 47제6장 결론 48참고문헌 49Abstract 52