半个月前,整个网络被掀翻了,一名学生被受骗,因压力过大去世。事隔两天,又一名学生因被骗,心脏骤停去世。对于电信诈骗,我们可能无从下手,对于预防,我们完全可以通过自己的力量来创造相应的"骗子模型",不管是事先提示无辜用户,还是用来作为自己内部参考,甚至之后是否可以实现这部分的数据共享,各公司之间的打通,汇总整理后统一交给公安机关进行处理,都是可以尝试的。 显而易见已经有相当多的软件和公司正在做这件事,最常见的浏览网页的时候,危险网页会被标记,提示是否要打开,在接收短信的时候也会被提示疑似诈骗短信请谨慎,那么我们应该依据哪些数据进行建模呢? 抄录一段场景,作为引入的开始: 我们有时候每天购买50条,有时候购买100条数据,然后打印下来,分给我的"小弟"进行电话联系。当然我们是有分工的,同样有几个"小弟"已经守候在ATM门口,一有到账,及时转走。我的"小弟"在得手之后,马上将手机关机,电话卡拿出砸碎扔掉,换上新的电话卡继续开展业务,打一枪换一炮当然是为了安全,并且我们的手机都是诺基亚的,没人知道为什么,从我"师傅"那辈就这么传下来的。好了不跟你说了,财务给我打电话了,我要去拿分成了,拜拜。 有可笑,但并不可笑;有幽默,则多为心酸;互道一声珍重,莫贪小便宜。 一、IP 毋庸置疑最重要的就是通过IP数据来看,也是最直接的。IP所揭示的风险几何?可以从以下几个角度来判断: 1 代理IP 网上每天有许多公开的代理IP,代理IP的目的是为了隐藏自己的真实IP,所以使用代理的,基本上可以判断为有欺诈嫌疑,并且从技术角度来说,就算使用代理,也是可以深挖出真实IP。我们可以通过每天的自动爬虫,爬取互联网上的代理IP作为黑名单。 Tips:HTTP头的X-Forwarded-For:这个字段只有在通过了HTTP 代理时才会添加,如果带有XFF,那就是代理了;以及带有Proxy-Connection: Keep-Alive的报文,毫无疑问是代理。 2 IDCIP 一般的APP或者网页,跑来注册的IP是云服务器的IP,这正常吗?显然不正常。事实上很多就是被黑的服务器,或干脆就是自己租的服务器来达到恶意目的。这里就要去做一些收集,各大云服务商、各大IDC服务器段。可以维护下来作为黑名单。 3 技术手段 反向探测对端端口开放情况:代理常用端口是80和8080,如果对端IP开启了这些端口,显然是不正常的,一个家用IP地址是不大会开放这些端口的。 源端口:大于10000的源端口有两种情况,不是代理就是大型机构,所以会有误伤,建议判断权重在50%。 二、手机号码 用户在注册或者提交资料时候的手机号码,也是一个可以验证的维度。这里也可以通过一些方法收集所谓"黑名单"建立自己的高风险库,可以有以下几种途径: 1 收码平台 欺诈分子通过在收码平台上开项目,可以使用大批量的不同号码来注册。通过爬虫定期爬取,收集号段,可以得到这些信息,加入到风险库中即可。 2 小号 目前有一些小号软件,可以虚拟一个号码出来,这些号码像正常电话一样,可以打出去,接听,收发短信。在网上搜索:小号,即可找到大量类似平台。把这些号码爬取下来作为黑名单库。 3 撞库法 利用注册用户的手机号码,去各类平台上注册,如果提示号码已被注册,则说明该用户对某方向有较强需求。 Tips:金融类平台尤为注意,一旦被式出目标手机,诈骗分子很可能通过电话,直接拨打给用户"我是xxx平台赔给您的理财经理……"后果不堪设想。并且这种模式实际在前台并无提交,所以一般也都是产品忽略的地方,不会做限制,也就让诈骗分子无门槛尽情碰撞数据库中的手机号了。 4 定向爬虫 在一些分类信息网站上爬取中介的手机号码,或者对应搜索号码爬取关键字,以及及时接入微信电话本、xx通讯录的公开数据源,作为高风险库。 三、设备指纹 世界上没有完全相同的两台设备,每台设备都是独一无二的,与人类的指纹一样。我们可以通过抓取用户手机上的一些特征,形成一个特征编码,这就是"设备指纹"。 通过设备指纹,可以判断同一台设备,注册了多少账户,登陆了多少账户,是从设备角度进行判断的一个重要手段。 同样,欺诈分子在对抗中也逐渐在升级。欺诈分子也开发出了诸如008神器、海马玩等软件,可以一键修改设备相关信息,来以此绕过设备指纹。针对欺诈分子的工具,可以通过作弊软件识别、冷门信息算法。所谓作弊软件识别,市面上很多作弊软件,都是通过同一框架进行开发,因此可以加入对这个框架的识别,来判断是否使用了作弊。 而冷门信息算法,则是抓取一些欺诈分子没有注意到的地方,例如传感器的某些信息,例如蓝牙、电池、音乐排序、网卡生产商的某些信息来组成算法,对欺诈分子在修改时不注意的这些地方进行判断,找寻蛛丝马迹。 四、GPS 位置数据主要使用GPS进行判断,需要用户授权。位置数据可以有多种使用方式: 定期调取GPS,以此来判断工作地址和家庭地址,与进件资料作比对,看用户是否包装资料。 活动环境位置,用户经常在一些不良场所活动,例如赌场、夜店活动,说明此人可能有不良习惯,可以加入疑似库优先处理。 GPS移动异常:可以根据用户的GPS移动距离计算,例如1小时前在上海,1小时候在北京,则有GPS造假可能。 相同GPS:同一位置有很多操作,说明有欺诈嫌疑。 多台设备同一GPS,说明设备之间有关系,可以作为关联欺诈的判断,升级为诈骗网络判断依据标准之一。 五、APP数据 对用户的APP数据进行采集,实际侵犯了用户隐私,请慎重!我们可以探测用户的APP列表,如果存在大量某种类APP,则说明用户对某种需求及其强烈。同样,如果用户手机没有其他APP,则说明该设备可能用来欺诈。 如果探测到安装有模拟器类、GPS伪造类,说明用户有欺诈可能。 六、设备账户信息 该类数据采集也是对用户隐私的严重侵犯,请慎重!在设备上还可以采集到OS和其它APP的用户名,以此来建立用户名与设备之间的关系,同一个APP存在3个以上的用户(退出重登),则说明该设备有盗账户嫌疑。 其它APP账户与业务申请吻合,则可以对该账户一个较高信任分数。 Tips:如果第三方OS开放部分数据,对于这块工作将会进行的十分便利。例如某用户在小米OS上注册用户名为mystic,某APP同样是mystic,重合APP越多,则该用户可信度相对较高,反之亦然。 七、通讯录数据 通讯录数据也是严重侵犯用户隐私的行为,比之前的都敏感。对通讯录信息的获取,可以防止欺诈关系圈。有几种情况: 通讯录为空,说明该设备有欺诈嫌疑。 通讯录内容,可以形成关系,作为关联欺诈的一个重要判断。 通讯录名称标识,可以通过社交关系信用过判断本人信用,并且关联疑似诈骗网络,为日后连窝端做准备。 八、设备关系数据 相同WiFi:两个设备多次出现在同一WiFi下,则说明设备之间有关系。出现次数越多,关系越强。 蓝牙配对:蓝牙配对记录的采集,可以获得两台设备的关系。 GPS:前文已说过,同一GPS出现的设备,说明设备有关系。 通话记录数据:通过通讯录、通话记录可以得到关系数据,而且可以根据通讯录名称直接标明关系。 九、其它 技术手段:此手段针对某一个体适用,也就是已确认该用户为诈骗分子,并已造成较严重后果,联合公安机关通过技术手段完成追查,具体什么手段我也不知道,毕竟新闻一般统称"技术手段"。 电信手段:通过请求与电信公司的数据开放,可完成追查,同样该项手段极其敏感,一般非政府机构无权调用,仅提供思路。 最大的Tips 以上仅是被动手段,我们技术、产品人员尽量杜绝漏洞、BUG,不给诈骗分子任何可乘之机,尽量构思完善。在一切关键数据必须模糊处理,并且必须只有高级权限领导层才能详细查看关键数据,每一次导出、查询必须留下记录(说实话我认为导详细联系方式的人都有问题,互联网看数据看的是趋势,而不是某一个体,看个体你能看出什么?无非满足你的好奇心而已,闹不好还沾一身腥)。 一定在数据泄露和有可能发生漏洞的环节仔细排查,从自身内因找起,再做外部策略建模(如果要是在国家保密部门外泄数据,早被崩了好吗,有真实案例支撑,有兴趣的可以查查。民法还是太清,多死几个,才重视,有毛用?)。