(발번역) 추천 시스템 알고리즘(근래 주로 사용되는 추천 엔진과 동작 방식)

01 Aug 2017

원문 : https://blog.statsbot.co/recommendation-system-algorithms-ba67f39ac9a3

오늘날, 많은 회사들이 굉장히 의미있는 추천과 이익 증대를 위해 빅데이터를 사용한다. 여러가지 추천 알고리즘 중에 데이터 사이언티스트들은 비지니스의 제약사항과 요건에 따라서 가장 좋은 것을 선택해야만 한다.

이 작업을 단순화하기 위해 Statsbot팀은 주로 사용되는 추천 시스템 알고리즘에 대한 대략적인 내용을 준비했다.

협업 필터링

협업 필터링(Collaborative Filtering, CF)과 그 변형들은 가장 일반적으로 많이 사용되는 추천 알고리즘 중에 하나이다. 초보 데이터 사이언티스트 조차 이 시스템을 사용하여 예를들어 이력서 프로젝트와 같은 개인 영화 추천 시스템을 구축할 수 있다.

우리가 사용자에게 무언가를 추천하려고 할때, 가장 논리적인 방법은 유사한 관심사를 가진 사람들을 찾고, 그들의 행동을 분석하여 사용자에게 동일한 아이템들 추천하는 것이다. 또는 그 사용자들이 이미 구매한 것들을 조사하여 그와 같은 제품들을 추천하는 것이다.

CF에는 두가지 접근 방법이 있다. 사용자 기반의 협업 필터링과 아이템 기반의 협업 필터링이다.

이 추천 엔진 모두 두가지 과정이 있다.

데이터베이스에 얼마나 많은 사용자와 아이템들이 주어진 사용자와 아이템들과 유사한지 찾는다.
더 유사한 사용자/아이템의 총 가중치를 고려해서, 이 제품을 사용자에게 제공하기 위한 점수를 예측하기 위해 다른 사용자/아이템들을 평가한다.

이 알고리즘에서 ‘가장 유사하다’는 의미는 무엇일까?

우리가 가진 모든 것은 각 사용자별 선호도 벡터(행렬의 행)와 각 상품의 사용자 점수 벡터(행렬의 열)이다.

그림 출처

가장 먼저, 두 벡터값을 알고있는 요소들만 남겨두자.

예를 들면, Bill과 Jane을 비교하길 원한다면, Bill은 타이타닉을 관람하지 않았고 Jane은 배트맨을 관람하지 않았다고 말할 수 있고, 스타워즈에 의해서만 그들의 유사도를 측정할 수 있다. 어느 누가 스타워즈를 안볼 수 있단 말인가? ㅎㅎ

유사도를 측정하기 위한 가장 유명한 기술들은 사용자/아이템들 벡터간의 코사인 유사도 측정(cosine similarity) 혹은 상관관계 측정(correlations) 방법이다. 마지막 단계는 테이블의 빈칸들을 채우기 위해 유사도에 따라 가중산술평균(weighted arithmetic mean)을 구하는 것이다.

클러스터링

이전의 추천 알고리즘들은 꽤 간단하며 소규모 시스템에 적절하다. 지금까지 추천 문제는 지도 기계학습 과제(supervised machine learning task)와 같은 것으로 여겨지고 있다. 이제는 이 문제를 비지도 방식으로 풀어볼 시간이다.

협력 필터링과 행렬 분해가 더 오래 작동되어야 하는 규모있는 추천 시스템을 만든다고 상상해보자. 첫번째 아이디어는 클러스터링일 것이다.

비지니스를 시작할때, 이전 사용자들의 점수가 부족하다면 클러스터링이 가장 좋은 방법이 될 수 있다.

하지만 클러스터링 단독으로는 약간 약하다. 왜냐하면, 실제로 우리가 하는 일이 사용자 그룹을 식별하고 같은 그룹의 사용자들에게는 동일한 아이템들을 추천하기 때문이다. 충분한 데이터가 있는 경우 협업 필터링 알고리즘에서 관련된 이웃들의 선택을 좁히기 위한 첫번째 단계로 사용하는 것이 낫다. 또한 복잡한 추천 시스템의 성능을 향상시킨다.

각 클러스터는 클러스터에 속한 고객들의 선호도 기반하에 일반적인 선호도에 할당될 것이고, 각 클러스터에 있는 고객들은 클러스터 레벨에서 계산된 추천을 받게 될 것이다.

당신만의 추천 시스템을 구축하기 전에 알아야할 중요한 사항들

당신이 큰 데이터 베이스 가지고 온라인에서 그것을 이용하여 추천 시스템을 만든다면, 가장 좋은 방법은 2개의 하위 문제로 나누는 것이다. 1) 최상위 N개의 후보를 선택하고 2) 그것들의 순위를 매긴다.
당신은 모델의 품질 측정을 어떻게 하는가? 표준 품질 측정 항목과 함께 추천 문제를 위한 몇가지 특별한 지표가 있다. Recall@k와 Precision@k 그리고 평균 Recall@k와 평균 Precision@k. 또한 추천 시스템을 위한 측정 항목의 훌륭한 설명을 살펴봐라.
당신이 분류 알고리즘을 사용하여 추천 문제를 풀고 있다면, 네거티브 샘플을 생성하는 것을 생각해봐야 한다. 사용자가 추천된 제품을 샀다면, 그것을 포지티브 샘플로 넣거나 다른 것을 네거티브 샘플로 넣어서는 안된다.
알고리즘 품질의 온라인 및 오프라인 스코어에 관해 생각하라. 과거 데이터 기반의 트레이닝 모델은 초기 원시적인 시스템으로 이끌 수 있다. 왜냐하면 그 알고리즘은 새로운 동향과 선호들을 알 수 없기 때문이다.

Choonguri's Read & Write

(발번역) 추천 시스템 알고리즘(근래 주로 사용되는 추천 엔진과 동작 방식)

협업 필터링

이 알고리즘에서 ‘가장 유사하다’는 의미는 무엇일까?

추천을 위한 행렬 분해

클러스터링

추천을 위한 딥러닝 접근방법

당신만의 추천 시스템을 구축하기 전에 알아야할 중요한 사항들