如何在分钟产出海量竞品高认知人群

　　御膳房简单来说就是将阿里买家卖家数据转化为生产资料，来激活生产力。作为阿里巴巴的数据引擎业务，御膳房就是专注于为ISV、商家、非电商用户提供开放式大数据服务平台。在对钻展的推广中，可以出非常精准的定位人群，钻展可以对御膳房的人群做个性化投放，使卖家的每一分的推广费都会精确分配到每一种专门化的人群对象中，从而达到＂大而细，细而精＂的程度。
　　一、海量竞品高认知人群
　　顾名思义，就是对于搜索海量的竞品商品的高认知作为你的定位人群。比如，店铺里面都是卖连衣裙的，那我可以在淘宝搜索＂连衣裙＂关键词，并根据店铺需求设置价格和销量，找到店铺对其最有竞争力的商品前100名，并把这些商品放进御膳房里面，设置对其有高认知的人群。
　　如，对这些商品15天内浏览过6次，并且浏览过8天。显然，这种人群近期对＂连衣裙＂是非常有好感的，搜索浏览频率非常高，我们把这种人引进店铺，可以提高我们店铺的点击率和降低点击单价，也可以出低价来获取它们的点击，从而引进非常低价的浏览。因此，海量竞品高认知人群对于一家游走在竞争行列非常大类目的店铺来说，是一把强大利刃，可以精确打击对方的人群阵地，对拉动店铺整体ROI和点击质量的上升有重要意义。
　　二、传统御膳房操作
　　熟悉御膳房的人都知道，御膳房可以定位到任意每一个商品，任意每一家店铺。这与DMP只能出全网类目的认知或者自己店铺的认知大有区别。在御膳房的人群产出中，在离线节点上耗时是最长的，也是作为数据人群部门最＂痛苦＂的地方。比如，要出一个＂连衣裙＂的15天浏览2次的竞品人群，很多人往往是这样做的：
　　1.在御膳房新建离线节点，并设置好表、时间和浏览的天数频次；
　　2.去淘宝搜＂连衣裙＂，并打开这些产品的详情页获取它们产品的ID；
　　3.把ID一个一个粘贴到浏览ID框中。
　　显然，第一个操作很简便，熟悉的人30秒就可以搞好了，但后面两项是最耗时间的。在竞品量比较多的时候，3的操作简直是一场噩梦。那我们可怎样提升产出效率呢？
　　三、御膳房高效人群产出法
　　对于之前的三步，第一步是无法优化的，这取决于操作人对御膳房到而熟练程度，而后两步非常自由也是非常耗时的，下面讲下怎样快速完成余下两步：
　　(一) 淘宝搜索页信息json分析：
　　JSON是一种轻量级的数据交换格式。它基于ECMAScript的一个子集。 JSON采用完全独立于语言的文本格式，这些特性使JSON成为理想的数据交换语言。 易于人阅读和编写，同时也易于机器解析和生成。而淘宝的搜索页信息就是隐藏在其源代码的一个json集中，我们只需要获取搜索页的源代码就可以分析其信息json数据。
　　例如，我们在＂连衣裙＂搜索页的源代码中可以找到一段json数据，如图3.1.2。它这一段数据集记录了整个页面的商品信息。下面我们就来分析这些信息：
　　首先，这段json数据里面是一个大容器，包含了很多歌商品信息item，而每一个商品信息item也是一个大容器，里面包含了每个商品信息的每一项信息。如产品名、ID和商家名等。通过分析可以看出，这段数据里面记录每个商品信息item的容器 其实是一段json数据，它是以＂p4pTags＂开头标识，以下一个商品的p4ptags标识为结尾的数据。例如，下面是一个商品的JSON数据：
　　从这一段可以知道这个商品名(title)是＂夏装新款时尚堆堆领连衣裙女大码特价弹力碎花少女修身牛奶丝＂,商品ID（nid）是＂5203328532XX ＂，价格是19.5元，共有28人付款，（＂detail_url＂）：＂http://www.item.taobao.com/item.htm?id=520332853291&amp;ns=1&amp;abbucket=13#detail＂。他们分别用[＂title ＂,＂ nid ＂,＂ view_price ＂,＂ view_sales ＂,＂ detail_url＂＂]这些来表示。
　　以上是一个商品的信息分析，如果把整页拿下来的话，就需要不断获取＂p4pTags＂的数据就可以了。以上是搜索页的全部商品分析。当我们知道了整个数据结构后，接下来就简单了，我们就可以使用各种手段解析这些数据了，常用的方法有C++,C#,JAVA和PYTHON.我使用的是PYTHON的json库，直接用正则获取json数据，然后通过json节点名来获取得到数据，方法很多，这个不细说。
　　最终我们将会获得每个商品的名字、商家、ID和链接等数据，如下表所示：
　　3.1.3 连衣裙搜索页 爬虫数据列表
　　这里我们就会得到所有商品的ID了，整个操作由搜索到复制源代码到运行程序只需要1分半钟。接着就可以进入第三步了。
　　(二)御膳房高效人群ID录入
　　普通的录入ID，是复制一个ID然后再行为对象属性值里面粘贴一次，稍微高阶点的是把所有ID以＂，＂的形式连接再粘贴，如图3.2.1所示。无论哪种方式，如果商品ID数量达到100以上，耗时是非常巨大，而且复制操作量也非常大。不但对于操作人员的＂精气神＂是极大的考验，而且浪费了大量重复冗余的操作和宝贵的工作时间。（以前测试过节点输入100个ID需要35分钟左右）
　　3.2.1 节点ID 普通录入形式
　　我们知道在节点的＂调度＂里，有一个＂参数＂框,这个框一般用来控制节点跑数据的时间窗口，例如图3.2.2就表示时间窗口是date1-date2，即15天。
　　3.2.2 节点参数时间窗口设置
　　由这个我就联系到，把所有ID作为一个参数输进去，因此加入我们有100个ID，我们命名一个参数叫做＂ID＂,并且整个描述是这样的:
　　ID=${123456，123456，123456，123456，123456 …，123456}
　　就这样，我们可以瞬间放入100个ID到大括号中，并以逗号隔开。然后再跟date1和date2组成参数序列直接赋值到＂参数＂框中如图3.2.3所示，并在＂＂行为属性值＂中填入＂${ID}＂作为参数的定位，如图3.2.4所示。就这样，完整的一个节点部署已经完成，就可以提交该节点了。
　　3.2.3 节点参数ID设置
　　3.2.4 节点ID参数定位
　　总结：
　　1.综合以上步骤，第一步＂御膳房新建离线节点，并设置好表、时间和浏览的天数频次＂用时30秒，＂去淘宝搜连衣裙,并根据JSON下周商品列表＂用时2分钟，＂把ID以参数形式填写到参数框中＂用时30秒，然后提交后编写SQL和推送DMP节点用时2分钟。整个人群产出只要5分钟即可，但是里面却包含了100个准确竞品ID。
　　2.这种方法对于批量类目也是同样适用，我们只需要知道每个类目所对应的ID，然后把商品ID替换成类目ID放进去也是可以做到批量类目人群。
　　3、在结合数据进行人群维护的过程中需要使用大数据技术，因此，需要专业的团队和平台实现。并且对于json的获取，需要有一定的网络编程能力，普通人员并不具备，需要专业人士来操作。
　　4.用此方法可以瞬间获取几百个商品的高认知竞品人群，这种人群对于你所设定的关键词是非常有认知的，因此钻展可以配合这种人群做低价引流操作，极大地降低点击单价，提高点击率。
网站目录投稿：觅枫