编辑导语:数据,对于任何平台或者企业来说,都很重要。无论是想要做出一些营销决策还是调整新产品的发布策略,数据的收集和分析都是必经的一环。对于医药O2O电商平台来说,得到权威而又准确的数据,尤其是药品和病症之间的关系数据源,显得尤为重要。 本文复盘一次药学服务数据购买的案例,呈现当时的处理方式和遇到的问题。 该"买数据"案例,发生在做医药O2O电商平台,药品这一特殊的电商商品,其"健康属性",可以作为附加值提供的载体。如,卖药的同时附加提供健康服务,以药学服务拉近"人货场"的温度,打造线上线下产业化新零售生态。 药学附加服务,无论是用药指导、寻医问药,还是患者画像之类的,前提都是要有药品-病症之间的关系数据源。 这个数据即要权威准确,又要通俗易懂,兼顾科学化和网络大众化。市场上单纯的医药数据,或单纯的药品商品数据,都不难获得。难获得的是,针对医药电商人群和故事场景下的医药健康的资料。 本案例涉及到的内容清单: 一、前期需求分析1. 分析需求 基于项目规划,将本次药学服务的需求场景,归纳如下: 这就要求,数据中起码涉及这些字段:用法用量、功能主治、适用人群、禁忌不良反应、服药周期、治疗的疾病、疾病的症状、疾病说明等。结合业务场景,可以勾勒出这样的简单的关系图: 2. 确定核心要素 根据以上需求,我们可以得知 "药"、"病"、"症" 三者最为核心,关系如下: 且三者为多对多关系,如下: 3. 评估数据量级 常规药品的数量,达到6万种(SKU)。 药品基本都是单规格的(不同含量视为不同规格,不同含量不同的申报,业内视为不同的商品),因此大约要准备接近这个数字的药品资料,才能保证覆盖面。 总结:至此,从需求要素、核心内容、需求数据量范围,描绘了拟获取数据的轮廓,作为寻找数据源的验收标准或参考。 二、调研获取数据的途径 我们的目标数据,是客观标准的基础数据,不是运营产生的数据。因此权威性、客观性最重要,那么如何获取呢? 1. 假如自己维护? 请专人、找到药盒、翻阅药品说明书、录入、再翻阅医药词典类数据、对应整理疾病信息……平均一天一人最多搞定100条,算下来6万就要很久。 显然来不及且成本不菲,并且没有验证的数据也不敢用,这条途径pass。 2. 爬别人的数据 药品信息在药监局官网比较权威,但是上面没有疾病方面的,甚至连条形码都找不到(备注:条形码,国内就是69码,唯一标识商品,13位、12位或8位数字组成)。 爬取其他网站,也曾尝试的,结果不是不准确、不齐全,就是不成功,这条路也走不通。 3. 购买数据 购买数据比起爬数据要正规些,咨询了京东阿里和腾讯丁香,人家都不卖。这些公司是要自己做数据服务的,也不差这点钱。 咨询了药房网、135网,没疾病方便的可靠数据,这时候业内人事推荐了一个叫"YA"的公司,在做药学服务,就决定深入商谈。 三、拿到样本数据 经过洽谈,对方提供的是一批EXCEL格式的样本数据。大概的表有14个表格,数据拿到之后,进行初步验收。 1. 比对E-R模型 他们的数据是mongdb存储的,首次抽离出来数据来卖,所以数据在表结构和表数量上有冗余。通过其表结构,绘制出E-R图,基本与需求符合。 2. 竞品横向对比 在检查样本数据的过程中,也在做替代方案的对比。 制定检验要点是:单表数据的错误率、联表查询的匹配率、市场数据的覆盖率、错误修复时效等。从网站或App寻找同类产品,但都有各种问题,最终还是舍弃了其他选项。 3. 远程全量检查数据 在未付款情况下,对方不提供全量数据。 由于样本有限,为了进一步了解数据,协商采取远程查数据库。对方在数据库中进行了单表验证和联表查询操作,我方远程观看,并记录检查结果。 远程的操作毕竟是不便,只交叉抽样验证了部分数据,当时估计出的准确率是93%——这也是决定继续洽谈的主要参数。 四、付首款并拿到全量数据 接下来的流程是谈价格,价格谈好就可以打包出售数据。 我方压价的论点主要是:疾病方面的数据不到一万条,买回后仍需补充的人工成本;非独家买断,可以复制销售,卖家边际成本很低,内容质量不高。 口头说的是由执业药师团队和药师专业、中国非处方药物协会药师进行审核。但是并拿不出证据,最终得到了折扣,拟定了全量数据验收的合同。 当时的合同内容比较简单,草稿截图如下: 合同签署后,拿到了全量数据。 双方约定一周的时间进行数据验收,验收无误则支付尾款。因为数据的敏感性,由专人以邮件压缩包文档的方式接收。然后存入堡垒机中,其他参与验收人员通过堡垒机进行检验。 1. 研究数据的质量 检查数据的合理性:也就是数据在逻辑机构上的是否有缺陷。 数据的关联度:采取的是手动在EXCEL上比对,并导入数据库后程序员SQL查询相结合的方式。基于对基础数据的了解,制定了检查方案,局部如下图: 2. 检查数据的权威性 这一点需要专业药师或药学人员参与,我们采用的是抽样调查的办法,比对的标杆是药典的权威资料,考察的对象比如"阿苯达唑"的服用时间、用药禁忌等。 3. 数据的覆盖率 采用的办法是,指定20个常用药物(比如对乙酰氨基酚),看是会否能查到全套的资料,得到的结论是数据并不理想。 比如:用条形码匹配已有的商品,发现有1579个找不到,占比20.87%;再用这1579个的通用名查找,仍有147个仍找不到,即绝对找不到的比例1.9%。 4. 数据的冗余性 很多表都是从MongDB转化过来的,所以表之间的结构不合理。最终14个表,也就有7个表是有用的,其余的多是过度表(初步验收时候虽然也发现了)。 5. 双方交涉 其实大家看得出,全量数据的检测结果不理想。 主要发生在,表结构不合理;数据存在错误、一些名词在各表中的表述不一致等。但是这个时期,合同的约定并不利于买方,因此只能继续往前。 我们在一周内输出了问题清单,抠合同字眼,寻找有利的机会,然后责令对方将数据清洗后重新交接。 五、数据购买后的应用规划 在经历5次数据交付后,双方法务协商一致,进行了价格的调整,最终完成了交易。 如果把验收当做一次项目,那么虽然项目做的不太漂亮,但是数据还是有价值的,是可用用的。 数据拿到了,技术层面进行应用规划:第一步,元数据检查和清洗,将14个表,抽离成整洁的新表;第二步,指定底层服务逻辑,以作为数据中台,供应用端接口调用。 比如: 第三步:对接具体业务场景,输出具体方案(此处略)。 六、总结1. 本次数据购买主要涉及三方面产品角度的需求锲合度;医药专业角度的数据权威性;法务层面的合同约定项:其中后两点都没做太好,尤其是法务方面,这导致了全量数据拿到之后的进退两难。 但是项目自身也存在局限性和难度:比如数据量大,很难发现细节问题;缺少标杆,自行推敲只能抽样调查的方式;数据的价格方面没有固定的标准,难以拿捏。 2. 数据购买带来的经验教训自身对数据的需求范围和目标明确;了解卖家,和卖家数据的影响力;应当在购买之前,应该了解还有谁买过或者用过,调查口碑;在于对方接洽之前,准备充分的行业和技术方面的验证标准和计划;制定基本的项目步骤,比如:前置研究、评估成本、购买谈判、后置约束;在拿到全量数据之前,应当充分采取远程调查的手段,挖掘对方数据的漏或者不足,以作为合同约定和议价的前提;在合同签署中,更多约定对"隔皮断货"的风险的鉴定标准和卖方的责任。这个份文档一定要提供给行业专家、法务,以便将来拿到真实数据之后,可进可退;合同中要约定验收过程问题的处理办法,验收成本谁来负责,验收不通过的最大次数等。 #专栏作家# 唧唧歪歪PM,公众号:唧唧歪歪PM(ID:jjyypm),人人都是产品经理专栏作家,2019年年度作者。《后端产品经理宝典》作者,药学硕士转行互联网产品多年;熟悉跨境电商业务,医药领域;擅长大型后台体系,社交APP。 本文原创发布于人人都是产品经理,未经作者许可,禁止转载 题图来自Unsplash,基于CC0协议