其实不一样的行业,不相同的领域的风控还是有很大区别的,这里只针对典型刷量,刷榜,不当获利等类型的网络行为,进行风控体系的一些基本架构。 当业务数据有显而易见波动的时候,无论是往好的方向,还是坏的方向,都应该立即提示预警,这个波动范围是多少呢?对于巨大的网络站点平台而言,超过5%的同比变化很可能就是一个预警阈值,但对于很多创业小团队来说,可能大幅度变动比较频繁,阈值可设为的高一些。 我做个假设,如果你是微信产品经理,你发现今天在没有产品升级,没有热点新闻的情况下,朋友圈的浏览和转发增加了5%,你会认为这是自然增长么?多半你会暗骂一句,妈蛋,又是什么裂变套路失控了。 来,思考题,为什么微信不遗余力的绞杀各种裂变运营?裂变难道不是数据向好么?这是一个典型的风控认知问题。曾经,人人网会认为这是好数据,所以它死掉了。 数据预警不代表一定存在问题,但快速甄别和判断是需要的,正确理解数据变动的原因,并快速确认,这是一个风控需要处理的问题。 数据预警不只是总量信息的预警,比如来自于某个特征的数据突然激增,同样是需要关注并确认的,比如某个地区的访问量突然激增,或者某种设备的访问量突然激增,就很可能来自于某些刷机的机池。 至于怎么分析数据异常,以前提过,对比、细分、溯源,我这三板斧能解决绝大部分的数据异常定位问题。 实时处理就是针对当前的操作,当前的行为进行判定,并实时进行标签,过滤或阻断。 回溯处理就是对历史数据做分析,并做出合理的判断和处理,比如清洗数据,或者常见的砍单。 过滤的意思是,这个数据系统认为无效,不予记录,但用户仍旧能有效的进行操作和交互。 典型如黑名单,比如符合什么样的条件的被阻断,符合什么样的条件的记录要被清洗,符合什么样的条件的记录打标签。 这里有两种常见规则,一种是针对单条信息基于明确的规则阻断,比如来自于黑名单的ip不予访问。另一种是基于某一些统计规律进行清理洗涤,比如来自同一个ip区段的重复点击超过阈值后不再记录。 在古早互联网,规则的产生是来自于针对历史经验教训的总结,一个资深的风控基于日志分析和过往被侵袭的记录,逐条设置规则,防范欺诈点击或其他不当得利。 但现在不一样了,机器学习开始逐渐替代人工,自动基于一些坏记录,整理规则,甚至超出人类的常识。 而这些规则,很多时候,是可做,不可说的,比如说,某个现金贷平台,基于历史的坏账记录,机器学习总结出一条规律来,身份证号码前几位是什么什么数字的,坏账率明显偏高,那么这个规律就被写入了风控规则库。 那你说是不是有误杀,机器关心的整体效率,比如整体坏账率2%,而符合这个规则的坏账率是10%,10%已经会导致平台严重亏损,所以加入这条规则,虽然会误杀掉合乎条件的90%的好人,平台也是愿意的。 为什么可做不可说的,你讲出来,这叫什么,地域歧视,你凭什么说人家这个地区的就是坏人。你毕竟误杀了90%的好人对不对,但这是机器学习做出来的,所以,可做,不可说。 风控的负责人员,关键人员,应该加入一些安全行业的内部社群,参与一些安全行业的交流活动,甚至还需要渗透到各种羊毛党群,各种黑灰产社群,潜伏了解一些流传的攻击手段和攻击资源。我以前说过一句话,一个公司的信息安全,三分靠技术,七分靠人脉,今天还是要重复这个观点,真的。 有人觉得我能力强,水平高,我不混圈子。信息安全,风控这个行业水很深,可能你的平台被某些对手搞了很久,圈内都知道了,就你不知道。这种事其实挺常见的,早些年那个空空狐创业者,自称被投资人欺负的那个,数据是因为愚蠢的补贴策略,被信用卡套现的羊毛党薅出来的,各种社群都在交流,就创业者自己不知道,还感觉自己业务数据挺好。 风控也不是越严格越好,因为过度严格的风控会把业务搞死。今天我们说商旅行业羊毛党仍然有很多玩法和路数,那些商业巨头难道不清楚?为什么航空公司,酒店集团,对积分里程的各种羊毛玩法没有斩尽杀绝,水至清则无鱼啊,让会员总觉得有便宜可以赚,也是一种维持用户增长的途径。 所以各种风控策略上线后,依然要基于数据不断评估和反思,是不是某些策略所处理的问题已不那么严重,误杀率是不是有点过高,对正常用户的行为是不是造成了干扰,可能特殊阶段会有比较严格的策略,那么此阶段过去后,相关的策略是不是能够减弱甚至取消? 风控其实有两个指标,第一是对不良行为的清洗,阻断率,是不是真正有效的让那些干扰和噪音不再影响业务和决策者的判断。第二是对正常业务的干扰率,风控不可能是完全精确的,任何一条策略都可能干扰到正常用户行为和正常业务数据。那么这个影响是不是能够控制在足够小的范围内。这是要经常反思和分析的,绝对不能被业务负责人过来追着骂的时候,才想起来这里可能有问题。 大体如此,实际细节依旧很多的,而且还不敢展开,一展开就暴露我的无知了。