快生活 - 生活常识大全

豆瓣图书推荐策略调研与问题归纳


  笔者列出相关指标,对豆瓣图书的推荐策略进行了调研,归纳总结了几个问题,针对问题给出了相应的改进方案。你的豆瓣给你推荐了什么书?
  一、定义理想态
  1.1 理想态定义
  豆瓣推荐的书籍与用户兴趣相关(书籍查看率大于等于80%),令用户满意(书籍想读率大于等于80%)并且能够拓宽用户兴趣边界(多样性、时效性、新颖性)。
  1.2 理想态指标
  用户满意度,涉及指标定义如下:
  书籍查看率:用户点击推荐书籍数/推荐书籍数;
  书籍想读率:用户标记推荐书籍想读数/推荐书籍数;
  书籍评价率:用户评价(包括标记读过、在读、评分)推荐书籍数/推荐书籍数。
  预测准确度,涉及指标定义如下:
  预测准确度:点击查看书籍数/推荐书籍数;
  覆盖率;
  多样性;
  时效性;
  新颖性。
  二、抽样分析
  2.1 Case选择
  5~10本书籍的case选择覆盖面太窄,因此目前将书籍从内容类型角度分为9种类型,每种类型选择一本书,具体选择如下图所示。
  2.2 Case汇总
  9种case汇总如下图所示(由于表格较长,一张表格拆成两张图展示)。
  2.3 问题分析
  案例1
  【推荐书籍5、6、7、9、10】
  问题说明:多样性不足-同一个作者推荐太多。
  从文学小说这个类型的书籍出发,虽然大家对同一个作者的书籍更有可能感兴趣,但是查看书籍为同一作者的推荐项占比超过50%还是过高了。因此这5本书籍的主要问题都是同一个作者推荐太多。
  原因:不管从作者角度,还是内容类型角度出发,该书籍都不可能属于冷门书籍。因此推荐多样性不足的原因就不可能是收录的书籍数目太少,而应当是权重有问题,导致同一个作者的书籍占据了推荐书籍的90%。
  可能的原因有三种:
  有可能是作者标签过重;
  用户协同过滤算法权重过大;
  用户画像中用户对该作者的喜好程度极高,且权重大,导致推荐90%为同一作者书籍。
  改进方案:
  推荐逻辑中,降低作者标签权重;
  推荐逻辑中,降低用户协同过滤算法权重;
  推荐逻辑中,当用户画像中,用户对某一标签(作者)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
  案例3
  【推荐书籍2、3】
  问题说明:推荐准确度太低-几乎无相关性。
  这两本书相关性过于弱了,对于查看5+3的用户来说,很有可能是学生家长,也很难会对这两本书感到满意。
  原因:从该case其他推荐书籍来看,豆瓣虽然可能对教辅书的收录和标签管理不足,但也有其他通识教育类的书籍可以推荐,因此出现该问题的原因应当是标签不准确。
  改进方案:
  增加收录该类目书籍;
  调整优化书籍标签。
  【推荐书籍4、5、8、10】
  问题说明:推荐准确度太低-属于同一大类型,但细分类差别太大。
  这4本书从内容角度来看具有一定相关性,可以属于一个内容类型大类。但是,从细分领域来看,两类书的差别还是较为明显,可能能够探索用户的兴趣边界,但是用40%的推荐项来探索用户兴趣边界过多了。
  原因:同类型书籍收录过少,标签不准确,推荐目的错误。
  改进方案:
  增加收录该类目书籍;
  调整优化书籍标签。
  【推荐书籍6、7】
  问题说明:推荐准确度太低-几乎无相关性。
  相关性过弱,而作为探索用户的兴趣边界的推荐项,与上一个问题加起来占比超过60%,显然不是正确的策略。
  原因:同类型书籍收录过少,标签不准确,推荐目的错误。
  改进方案:
  增加收录该类目书籍;
  调整优化书籍标签。
  案例4
  【整体问题】
  问题:推荐准确度太低-没有推荐该作者的其他书籍。
  没有推荐该作者的其他书籍。单个推荐书籍没有问题,但是整体来看该作者推荐书籍太少。《全球通史》作为热门书籍,作者也并不是只有这一本代表作的情况,存在一定明星效应,因此可以多推荐1、2本该作者的其他书籍。
  原因:标签权重有问题。
  改进方案:推荐逻辑中,提高作者标签权重。
  案例6
  【推荐书籍1】
  问题说明:时效性考虑不足。
  时效性不足,书籍作者有更新的摄影书籍《长皱了的小孩》,该书豆瓣已有收录,但是豆瓣并没有推荐。
  原因:标签权重有问题。
  改进方案:推荐逻辑中,提高时效性标签权重。
  【推荐书籍4、10】
  问题说明:多样性不足-同一个作者推荐太多。
  算上书籍2、3,推荐阮义忠的书籍共有4本。阮义忠不是该书籍的作者,但他的书籍占推荐项的40%,显然过多了。
  原因:
  标签权重有问题;
  用户画像中用户对该作者的喜好程度极高,且权重大,导致推荐40%为同一作者书籍。
  改进方案:
  优化推荐规则,减少同一作者的推荐书籍;
  推荐逻辑中,当用户画像中,用户对某一标签(作者)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
  案例7
  【推荐书籍10】
  问题说明:展现顺序不合理。
  该书籍与查看的书籍相关性很高,但是却排在推荐书籍末尾,排序有问题。
  原因:标签权重有问题。
  改进方案:排序逻辑中,提高内容相关性标签权重。
  案例8
  【整体问题】
  问题说明:多样性不足-同一套书籍推荐太多。
  所有推荐书籍均为火影忍者,没有多样性可言,很难让用户满意。
  原因:
  标签权重有问题;
  用户画像中用户对该套书籍的喜好程度极高,且权重大,导致推荐40%为同一作者书籍。
  改进方案:
  推荐逻辑中,降低成套书籍相关性标签权重;
  推荐逻辑中,当用户画像中,用户对某一标签(成套书籍)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
  案例9
  【推荐书籍2】
  问题说明:展现顺序不合理。
  该书籍与查看的书籍相关性并没有其他推荐书籍高,但是排在推荐书籍第二位,排序有问题。
  原因:标签权重有问题。
  改进方案:排序逻辑中,提高内容相关性标签权重。
  【推荐书籍8】
  问题说明:重复推荐。
  该书籍与推荐书籍7重复,这本应该是一个非常容易避免的错误。
  原因:排序规则有问题。
  改进方案:优化推荐规则,过滤重复书籍。
  三、改进方案
  3.1 改进方案汇总
  影响面计算说明:问题涉及案例推荐书籍数/总案例推荐书籍数=x/90。
网站目录投稿:夏蝶