冰鉴科技顾凌云:餐厅换了老板娘,征信大数据都知道

给小微企业做征信,会成中国征信行业的“新蓝海”吗?

给小微企业做征信,会成中国征信行业的“新蓝海”吗?

DT君说

因为被京东和百度轮番投资,美国FinTech公司ZestFinance这两年在中国有点火。ZestFinance做的事儿,是用机器学习和大数据为没有信贷历史的贷款人作信用评估。

近日,DT君采访了ZestFinance模型组创始人顾凌云。当年,顾凌云作为创始成员加入ZestFinance,三年内为ZestFinance开发了六代模型后离开,后又加入主营小微企业征信和借贷的Kabbage公司担任首席数据科学家。2015年,顾凌云回到国内创立了冰鉴科技,主攻小微企业征信。

目前,国内个人征信机构不少,但做独立第三方小微企业征信的并不多见。顾凌云的选择多少令DT君有点好奇。不过,在他看来,做小微企业征信难度虽大,但同时也意味着前景广阔。

而这个看似枯燥的领域,其实也不乏乐趣。比如在很多具体的案例中,常常会有令人震惊的发现。比如,一家老牌餐厅刚换了老板娘,在冰鉴科技监测的指标和算法中,相应的数据居然就出现了很大的变化;而使用苹果最新iOS系统的人,在非上班时段申请贷款,欺诈概率也会小很多等。

在采访中,顾凌云还揭露了征信业内一些公司的“黑”历史。他认为,中国的征信行业,未来终究会走向一条规范化之路。

选择做企业征信,因为难做意味着容易领先

(注:以下内容根据对顾凌云的采访整理而成,文中小标题为DT君所加。)

2015年创立冰鉴科技的时候,我直接选择企业征信,而不是个人征信,是因为企业征信给我们留下的时间窗更长,这让竞争对手即使知道你在做什么,但是恐怕也不容易追赶。

小微企业征信和个人征信最大的不同处在于,小微企业的所有变量都是快变量,而个人征信用的是缓变量。

一个人一生的成长,他的变量不会有太大的改变,比如学历学籍,性别等,而且这些变量是不可逆的。但企业的情况就不一样了。

拿IBM公司举例来说:1972年以前的IBM是以卖机器硬件为主的;1972-1992年,IBM基本是卖机器加综合解决方案混在一起的;直到1992年,微软的出世彻底打碎IBM的硬件梦以后,IBM完全变成基于咨询的一家公司了。

(图片说明:IBM公司的变迁史 来源:网络)

从个人征信的角度来看,历史数据多是好事情。因为在进行建模的过程中,历史数据越多,表现出来的指向性和稳定性就越强。

但这个情况在企业征信中就不一样了。所以如果我们拿IBM的历史数据来建模,数据的历史越长,伤害越大,因为这些历史数据对应的不指向同一个经济指标。

此外,个人征信中不同的快变量还是高度相关的。比如一个40岁左右的用户在上海静安区有一套房子,是自己买的。我几乎就能大概知道他的职业会是什么,也许是金融,也许是IT;他的年收入大概会在60-80万,否则他连首付都付不起。

所以,在做个人征信时,当有公司号称有2000个维度来做反欺诈,模型里最终有500个变量作为模型的输入时,这几乎是没有意义的。因为这些信息看上去相互独立,但实际上高度相关,它们最终指向了相同的信息:或指向个人收入,或指向社会阶级,或指向性别,几乎就这么多了。

在中国做企业征信,离不开对企业主的个人征信

小微企业征信用到的快变量中,有很多维度是个人征信中涉及不到的。

第一,社会舆情。比如,上海静安区有一家人流量很大的餐馆。我们发现,这家企业的经营状况非常不错。而餐馆对应的社会舆情是什么样呢?比如说,我们爬取大众点评上的评论就能体现出来了。

第二,企业本身的经营状况。经营状况的离散程度非常大,因为企业可以轻松作假。所以这个时候会用交叉验证或者其他大数据的方式来解决。

比如上述的餐馆,我们发现,在全国范围内类似情况的地区——比如说南京鼓楼区,西安钟楼区,或者北京西城区——在同样的人流量、相同的经济结构、居民/上班族的比例类似的情况下,其他的餐馆对应的菜品的流量,以及餐厅的价格和收入,和这家餐厅有不少出入。

为什么有很大的差别呢?这个时候,我就知道上海静安的这家餐厅一定作假了。但大数据不是万能的,这时候你让我复原它的报表,我做不到。但是我知道,它作假一定是不对的,所以我们在模型之中就会有相应的“惩罚”(penalty)。

第三,行业信息也很重要。比如,冰鉴在服务很多金融机构的时候,有些机构会明确要求:不要钢贸。因为钢贸行业的欺诈比例非常高。

这里不是说每一家钢贸企业都欺诈,只是从整体上来看,它的违约率高。所以在行业上面来说就是有风险的。也就是说,你对企业所在的行业要有判断。

最后一个重要的信息是企业主信息。现在很多小微企业活不下去了,真正企业运营出问题的,只有大概30%。更常见的情况是企业主出了问题——要不因为涉黑,在东北被追杀所以不能开店了;要不就是他把钱交给黑帮了,没法还钱了;或者因为他离婚了,要赔一笔钱净身出户了;或者因为涉黄涉毒,把钱弄出去了等等。

所以在中国小微企业征信,如果不做企业主或实际企业控制人的征信的话,其实是没有意义的。

所有这几个维度放在一起可以说明两件事情:首先,企业征信比个人征信难做得多;第二,因为做企业征信必须要包括做小微企业主的个人征信,所以从逻辑上来说,小微企业征信自然向下兼容对个人的征信。

餐厅换了老板娘,它的数据就变了

企业的变量方方面面都会改变它的建模过程。

还是拿餐厅举例子。比如说,有一个餐馆存续了很长时间。但是我们的算法和指标突然发现,在某一个时间点以前或之后,它得到的结果完全不同。

这里有一个概念,叫OOT,out of time(指需要考虑到不同时期的因素)。冰鉴科技认为,社会的宏观经济环境是会改变微观企业的。所以2009年的时候企业的表现特征和2015年是完全不一样的。(DT君:比如,这两个时期的货币供应量增速就大相径庭。见下图)

OOT是很多做模型的人不做的,但这是真正该做的事情,尤其是小微企业征信。

所以具体要怎么做OOT,要保证用2008年到2013年训练的数据能够比较准确地预测2013年以后的事情,这个叫out of time。(DT君注:在机器学习中,训练集一般用来估计模型,测试集用来检验最优的模型的性能如何。)

与OOT相关的另一个概念叫OOS,out of sample(样本外测试),这说的是测试集的数据不能在原来的训练集里出现过——否则就没意义了。

我们处理数据时,会做random shuffling(直译:随机洗牌),这就像“洗牌”一样。但有些是不能洗的,比如说时间,因为这是有先后顺序的。这时,要切出某个时间点之后的——就是既是OOT,又是OOS的——来做测试,这件事情才能做完。

具体到刚才讲的例子,比如这家餐厅延续时间很长且一直经营得不错,那我们要怎么发现这个OOT之中的时间节点呢?其实原因很简单,就是店主离婚了,原来的四川老婆被湖南小三给踢掉了,然后餐厅的经营就从四川菜改成湖南菜了,整个经营就改变了。

关于这点我们也很震惊。虽然四川和湖南都是吃辣的,但吃辣的人群变了,它的价格,翻桌率等等都变了。

大数据分析能得到结论,但原因常常不能被验证

至于这背后的原因,说实话我也不知道是什么。这就是大数据和统计不一样的地方:有时候我们通过大数据能得到一个结论,但并不知道它背后的原因是什么。

比如说,我们在做反欺诈的时候,你非常清楚地看到,用苹果iOS操作系统10.3版本以上的人,在正常时间段以外(非上班时段)申请贷款的话,他的欺诈概率很小。

对于这个结果我可以给出理由:比如我认为这些人是努力工作的,所以他们上班时不干私事。他缺钱,但又不是专门搞现金贷或者高利贷的那种人。他可能会看资金的利息在10%左右,就去借来用一下。但是他用苹果设备,那他收入应该不错等等。

我可以找出这样的理由,不过这些理由永远不能被验证。

未来中国征信业:数据的采集、使用会日渐规范

其实冰鉴科技最早的时候选择从小微企业征信切入,和我的个人背景有关系。我当时在美国ZestFinance创建模型组的时候,做的是个人贷;后来我在Kabbage担任首席数据科学家的时候,做的是企业贷。

这两家公司是美国目前在使用大数据上比较成熟、而且商业模式一定程度上被认可的公司。所以,在美国有完整数据源的时候,怎么做小微企业贷和个人贷我是比较清楚的。

我个人认为,美国金融的昨天,就是中国金融的今天;美国金融的今天,就是中国金融的明天。并不是所有行业“美国的昨天就是中国的今天”,体育,文化,政治,方方面面都不是,只有金融它一定是。因为金融存取汇兑付的本质是不会改变的。

我认为征信的红线会越来越清楚。什么数据可以用,什么数据不能用,会变得非常清晰。

现在有一些公司采集数据是非常“黑”的。一些公司号称在用户不使用APP就不收集用户信息的情况下,依然以每6秒钟、每30分钟、每2个小时的速度在回传用户的信息。而且同时它会以一个APP向其他安装的APP发请求信息的方式,来判断用户的应用列表。

中国未来像今天这样的采集数据的乱局会越来越少,转而强调对个人隐私的保护,我认为,这会是对高科技技术类公司的福音。

因为当什么数据都能用的时候,其实有无技术是无所谓的。但是一旦这些隐私数据不能随便被获取时,对于数据的提炼加工,模型的建立和后期的分析,就会变得非常重要。

单纯卖数据的公司,不是说就没有明天

我在很多场合都抨击挂羊头卖狗肉、完全靠卖数据生存的征信公司。但是这并不意味着卖数据的公司就没有明天。

在美国就有非常明确的案例。美国基本上所有的细分的数据行业都会有一家公司,它不大不小,虽说上市无望,但也一样活得挺滋润。

为什么呢,因为它所有专业都做好了。做水电煤(数据)的就做水电煤,做大学生付房租的就做付房租,它的数据采集已经细分到很小的领域,不太可能跳出原来的领域成为巨无霸,但是各家征信公司都会用它的数据。

为什么它能做到小而美呢?因为美国对数据的合规性要求太重了。所以数据公司的首席合规官(CCO)就变得很重要。CCO的工资不低,他每天工作几乎就在干一件事情,就是保证公司目前的数据采集、数据存储和数据更新活动合法合规。不合规的话,可能公司就没了。中国以后一定也会成为这个样子。

所以这些数据公司不是说不会有明天,只是不会有一个很亮丽的明天而已。

(联系本文编辑张弦:zhangxian@dtcj.com)

数据侠门派

本文数据侠顾凌云,卡内基梅隆大学计算机系博士,现为上海冰鉴信息科技有限公司创始人、董事长兼CEO。曾任ZestFinance算法模型负责人、IDG资本驻站企业家。

顾凌云在美国获得多项专利,发表论文数十篇;曾获得2016年上海市陆家嘴十佳杰出青年、2016年上海市海外金才、上海市千人计划特聘专家、“中国征信50人”等称号。

如何加入数据侠

“数据侠”栏目网罗全球最IN的数据侠客,利用人工智能、机器学习等各种前瞻算法,从数据的视角洞察消费生活的方方面面,打造理性酷炫、活泼有趣的数据分析盛宴。用大数据,阐述事实及其背后的故事和逻辑趋势。

DT时代超级英雄正在组队!你也想要成为数据侠吗?请将你脑洞大开的数据作品,发到数据侠联盟盟主程一祥邮箱:chengyixiang@dtcj.com。

关注DT财经公众号“DTcaijing”,或下载DT财经APP“DT·一财”阅读原文。

精彩评论:0

还可以输入250个字 评论

评论成功

评论失败

热门文章HOT NEWS

订阅 "百家" 频道, 观看更多百家精彩文章

 

百度新闻客户端

  • 扫描二维码下载
  • 订阅 "百家" 频道
  • 观看更多百家精彩新闻
用户反馈