문서 보기역링크PDF로 내보내기맨 위로 이 문서는 읽기 전용입니다. 원본을 볼 수는 있지만 바꿀 수는 없습니다. 문제가 있다고 생각하면 관리자에게 문의하세요. # 추천 시스템 ### 추천 시스템의 기본 유형 - 콘텐츠 기반 필터링 [[Content Based Filtering]] - 협업 필터링 [[Collaborative Filtering]] - 최근접 이웃 기반 협업 필터링 [[Nearest neighbor collaborative filtering]] - 잠재 요인 협업 필터링 [[Latent factor collaborative filtering]] {{youtube>oTuM8WDI3nA}} ### Statistics-based 좋아할 만한 = `통계적`으로 `유의미한` 아이템 Chi-Squared (예상보다 많이 본) - Categorical Cross-Entropy(KL-divergence) (분포가 많이 다른) - Continuous ### Chi-Squared 개념과 활용 $$ X^{2} = \sum^{k}_{i=1}\frac{(x_i - m_i)^2}{m_i} \\ x = 관측치\\ m = 예측치 $$ Categorical Variable 유저가 소비한 아이템의 예측치와 실제로 소비한 관측치의 차이를 이용 `예상보다 많이 본` 것이므로, 절대값보다는 상대적인 변화량에 주목 ### Collaborative Filtering Co-occurrence 동시에 발생하는 이벤트에 주목하라 [[PMI]] (Pointwise Mutual Information) $$ PMI(A, B) = \frac{P(A,B)}{P(A)P(B)} $$ 함께 발생한 `빈도`와 함께 각 이벤트가 발생할 `확률`을 함께 고려한 정보량 ### Deep Learning ### RNN for News Recommendation 유저의 문서 소비 패턴을 보고 추천 #### Deep CF models {{https://i.imgur.com/lC1PDKk.jpg}} ### 추천 품질 평가 요소 추천의 만족도 - Accuracy: 유저가 실제 소비한 아이템이 상위에 추천되는지 - Diversity: 다양한 주제/유형의 아이템이 잘 추천되는지 - Novelty: 새로 나온 최신의 아이템이 잘 추천되는지 ### Agile Development Language & Tool 통합 데이터 분석 및 추천 모델링에 사용하는 언어와 도구를 실서비스 투입이 가능하도록 통합 - [[Airflow]] (schedular) - [[Hive]] (data warehouse) - [[Spark]] (big data processing engine) - [[Hadoop YARN]] (distributed cluster resource manager) - [[Slider]] (an application to deploy existing distributed applications on Yarn cluster) - [[OpenTSDB]]/[[Grafana]] (a scalabe, distributed monitoring system) - [[DOT]] (distributed incremental search engine) - [[DDK]]/[[Cana]] (event-driven near-realtime serverless compute solution) - [[C3]] (PassS, Hadoop cluster) - [[Cuve]] (PassS, HBase, Kafka) - [[nBase-ARC]] (PaaS) ## 링크 - https://yamalab.tistory.com/67 open/추천-시스템.txt 마지막으로 수정됨: 2020/11/02 09:03저자 127.0.0.1