互联网金融突出“普惠”二字,过去高大上的金融产品跟互联网相结合,让普通老百姓也有了接触到的机会。当然风险控制历来是金融的重点工作,而征信又是风险控制的基础。如何让广大没有信贷记录的老百姓们也能被正确的评估其风险,这是互联网征信需要解答的一个问题。
2015年是中国互联网征信元年,中国人民银行首批批准的8家获得个人征信牌照的机构包括腾讯、阿里(芝麻信用)、平安、鹏元等公司。可以看到,大数据是互联网征信的技术基础,而以腾讯为代表的拥有大量社交关系链数据的互联网公司也使互联网征信有了全新的角度。
征信大数据技术
首先要有一个可以存储并计算海量数据的平台,随着互联网技术的发展大量的开源解决方案不断刷新着处理能力的前沿,从早期的hadoop到后来spark、yarn、storm等等,大家可以在网上轻松的获得资料,各大互联网公司也在争相对开源社区贡献自己的代码和解决方案。
其次讲到数据处理过程,第一步必须准备好数据,这里涉及到的工作是数据的采集、清洗、抽取、转换、入库等;第二步要确定指标,不同的征信对象指标各有不同;第三步是通过单变量分析找出单个指标与违约率之间的映射关系;第四步是模型拟合与参数估计,这里可以采用logistic回归模型,并可采用最小二乘法、最大似然估计、最大后验概率等最优化方法做参数估计。
违约模式模型主流的信用风险模型之一,它是用来估计在给定期限内资产组合的违约风险概率分布。最近,在业界的实际系统中主要盛行的方法是判别分析(LDA)、logistic回归、层次分析模型(AHP)、多目标线性规划、决策树、SVM等,而在面临非常多参数时通常采用神经网络法。在目标函数方面,以前的系统通常以预测客户的违约率为目标,而近年来开始流行采用生存分析法预测客户在任意时点上的违约概率的变化情况,以及针对投资组合的最大化利润目标函数、最小化损失目标函数等。
社交关系对征信的贡献
传统的征信评分依据用户在银行或者金融机构的信贷记录来进行计算,这对于信贷业不是很发达的中国来说是不利的,大量有一定经济能力和消费能力的人也许从未做过任何借贷,那么是否他们的征信评分就没法给出了呢。
中国的互联网公司给出的新的解决方案,他们认为也许社交关系也是评估个人征信水平的一个重要参考依据。举个例子,一个资深的网络社交工具的使用者,他/她在社交工具上的一言一行一举一动往往能够体现出他/她是否是一个“靠谱”的人,另外当他/她在社交工具上的行为与其征信评分挂钩的时候,他/她就不得不评估征信评分下降带来的社交工具使用的受限是否是一个很大的代价。再举个例子,google的page rank技术在搜索领域是划时代的,它通过对某网页的引用次数/质量来确定该网页的重要程度,同理在社交征信领域,一个人的社会关系中出现的都是信用较高的人,那么他/她信用高的可能性也会大,反之亦然,这也符合中国一句古话:物以类聚人以群分。
不过具体某个社交属性如何贡献到一个人的征信评分里,这还需要经过一系列的摸索尝试,中国征信牌照的发放也许会推动这一工作的进展。
征信宝网站:www.zhengxinbao.com
微信公众号:征信宝(ID: ixinyong)
联系微信号: aihaozhe