一、推荐理论基本概念
推荐的要素:人,物品,关系
推荐的意义:本质是将实物和用户联系起来。
二、推荐的应用场景
主动搜索:用户知道关键词,可以准确的描述需要的物品。
被动过滤:用户无显性需求,不知道关键词和目标物品,靠推荐系统推送,用户被动的逐条筛选。
三、推荐方式
向朋友咨询:社会化推荐
喜欢的导演和类型的推荐:基于内容的推荐
参考排行榜:协同过滤
应用领域:
- 基于人的维度:审美(电商,社交),内容(电影,书籍,音乐),爱好(体育周边,娱乐周边),广告,位置。
- 基于物品的维度:行业,用途,特性。
行业不同,实践流程和反馈机制的设计有很大区别。
四、推荐的流程和实验
- 预启动
设定目标,AB测试组;获取少量用户信息,主观询问统计,提取特征。 - 冷启动
没有线上数据,可以推荐热点,离线计算;基于社交推荐。 - 数据分析
实时计算,得到[用户-物品]日志数据,客观行为分析,得到推荐关系。 - 实验反馈
评价推荐关系的优劣,结论迭代下一轮实验。
四、问题和局限
获取用户的偏好和需求模糊
(1)首先,现在的自然语言理解技术很难理解用户用来述兴趣的自然语言;
(2)其次,用户的兴趣是不断变化的,但用户不会不停地更新兴趣描述;
(3)最后,很多时候用户并不知道自己喜欢什么,或者很难用语言描述自己喜欢什么。马太效应
(1)覆盖率:推荐系统的初衷是希望消除马太效应,使得各种物品都能被展示给对它们感兴趣的某一类人群。
(2)多样性:推荐种类随着推荐和反馈,趋于收敛,即用户喜欢悬疑电影,不断的推荐悬疑类,导致收到用户偏好的反馈和悬疑的相似度越来越趋于1,应该推荐多类型的。
(3)解决方式:两种方式结合,用itemCF推荐深度收敛,用userCF推荐种类,发散维度。相关性≠因果性
(1)推荐螺丝钉和螺母的规则是正确的,但是几乎没有意义,因为很少会单独买。
(2)排除本身销量就大的,相关性是有主次之分的,弱者去关联强者。例如买了啤酒的很多人都买了香烟,但是香烟本身就是低价高频的刚需,会发现很多用户不管买不买啤酒,都会买烟,所以推荐无效果。
(3)买完电脑的,还是推荐电脑没有意义,高额短频消费特征。
(4)喜欢吃荔枝的大部分都喜欢吃桂圆,或者买了面包的大部分会一起购买牛奶,这种才是我们需要的挖掘。冷启动问题
(1)场景:用户冷启动,物品冷启动,系统冷启动。
(2)解决方法:用非个性化的推荐->热点推荐,代表性个性鲜明物品,推荐多样,积累数据,再做个性化推荐。- 推荐结果的反馈层级
以电商行业为例:应该观察下单率->有效下单率(无退货换货),其中有效成交要再看评价->评价中再看是问题类型(是否是质量问题),如果是非质量问题中的偏好选择问题才是推荐算法的锅。
五、评价指标的选定和评估
(暂时参考一个问题)
问题:该问卷的调查问题是请问下面哪句话最能描述你看到推荐结果后的感受?
1.推荐的论文都是我非常想看的。
2.推荐的论文很多我都看过了,确实是符合我兴趣的不错论文。
3.推荐的论文和我的研究兴趣是相关的,但我并不喜欢。
4.推荐的论文我很喜欢,但是和我的研究不相关。
5.不知道为什么会推荐这些论文,它们和我的兴趣丝毫没有关系。
分析和调整策略:
1->过拟合:推荐论文过于完美,反而不利于推荐算法发散,但不是最差的结果,可以添加部分userCF协同推荐。
2->最好。
3->用户的行为反馈占的权重大了,虽然偏好不稳定,单行为不会说谎,用户不喜欢,应该建立联系,找出短期内用户偏好。
4->和3是镜像,用户的偏好占的权重大了。
5->欠拟合了。
七、影响推荐的上下文
除了用户的偏好和用户的行为分析,还存在除此之外影响用户决策的信息:
比如时间,偏好不稳定,随时间远近变化。
物品有季节性和热点性。
宏观政策的影响。