作者工作单位:联合信用征信股份有限公司 陈玉冰
一、大数据征信技术的形成
随着我国社会信用体系建设步伐的不断加快以及计算机和网络技术的不断提高,征信业的发展也需要适应大数据时代发展所带来的变革。征信机构在积累征信数据的同时,也需提升自身数据存储能力,丰富存储数据维度,增强数据分析能力,提升数据处理速度,从而促进自身和征信业向一个崭新的数字化时代迈进——大数据征信时代。
数据积累是征信机构一项重要的商业资本,大数据征信也是征信机构的发展方向。征信机构通过不断地开拓数据渠道、发展数据挖掘技术、创新产品和服务,将大数据征信应用到经济、金融、电子商务等各个领域。
二、征信大数据链数据流动过程解析
(一)征信大数据链框架图
征信大数据链的相关方包括:上游的数据生产者,即形成征信大数据各类型数据的服务机构或平台;中游的征信机构,即通过数据服务商提供的数据进行二次加工形成征信产品的信用中介;下游的征信信息使用者。征信大数据框架如下图所示。
(二)征信大数据的上游生产者
大数据征信并没有颠覆传统征信的基本职能,从数据的来源渠道看,大数据征信比传统征信数据来源更加广泛,除了来自金融机构和政府部门,还有基于互联网的交易和社交的信息等。目前与征信相关的大数据来源可以分为四大类。
1.信用交易数据生产者
信用交易数据是从事金融活动时所产生的数据,此类数据主要来源于金融服务机构。我国金融服务机构大体可以分为三类:金融机构、类金融机构和互联网金融机构,这三类机构构成了我国的金融服务体系。
金融机构:是指从事与金融服务业有关的金融中介机构,为金融体系架构中的一部分。本文将纳入“一行三会”日常监管下的传统金融机构归类为金融机构,涵盖了商业银行、证券公司、保险公司、基金公司、信托公司、资产(管理)公司、金融租赁公司、信用合作社、政策性银行等金融机构(企业)。这些金融机构在应用征信大数据方面具有天然优势:数据量充足。金融服务机构在业务开展的过程中积累了包括客户身份、资产负债情况、资金收付交易等大量高价值的数据。在运用专业技术挖掘和分析之后,这些数据蕴藏着巨大的商业价值。
类金融机构:目前对类金融机构没有严格定义,本人认为:类金融机构广义理解是除了银行、保险、券商等传统金融企业以外的投融资机构或平台,包括派生的、延伸的、创新的投融资机构。本文将“一行三会”监管范围以外的投融资机构称为类金融机构,主要包括了小额贷款公司、融资性担保机构、融资租赁公司、商业保理公司、典当公司等。这些投融资机构拥有客户交易的历史数据等信息,这些数据对企业和个人客户的信用分析、风险识别等方面具有宝贵的价值,可以起到甄别客户和防范风险的作用。
互联网金融机构:指将传统金融服务与互联网技术结合,利用互联网和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融机构。互联网金融并不是互联网和金融业的简单结合,而是基于安全、移动的网络技术,被用户熟悉并接受的新业务模式。互联网金融的主要模式有:
(1)众筹:个人或团队将需要资金的项目策划交给众筹平台,经过相关审核后,便可以在平台的网站上建立属于自己的页面,用来向公众介绍项目情况,从而获得资金。
(2)P2P平台:即点对点信贷。P2P网贷是指通过第三方互联网平台进行资金借、贷双方的匹配,需要借贷的人群可以通过网站平台寻找到有出借能力并且愿意基于一定条件出借的人群,帮助贷款人通过和其他贷款人一起分担一笔借款额度来分散风险,也帮助借款人在充分比较的信息中选择有吸引力的利率条件。
(3)第三方支付:具备一定实力和信誉保障的非银行机构,借助通信、计算机和信息安全技术,采用与各大银行签约的方式,在用户与银行支付结算系统间建立连接的电子支付模式。
(4)数字货币:数字货币是对货币进行数字化,是电子货币形式的替代货币。以比特币等数字货币为代表的互联网货币爆发,从某种意义上来说,比其他任何互联网金融形式都更具颠覆性。
(5)大数据金融:是指集合海量非结构化数据,通过对其进行实时分析,可以为金融机构提供客户全方位信息,通过分析和挖掘客户的交易和消费信息掌握客户的消费习惯,并准确预测客户行为,使金融机构和金融服务平台在营销和风险控制方面有的放矢。
(6)信息化金融机构:是指通过采用信息技术,对传统运营流程进行改造或重构,实现经营、管理全面电子化的银行、证券和保险等金融机构。金融信息化是金融业发展趋势之一,而信息化金融机构则是金融创新的产物。
(7)金融门户:是指利用互联网进行金融产品的销售以及为金融产品销售提供第三方服务的平台。它的核心就是“搜索比价”的模式,采用金融产品垂直比价的方式,将各家金融机构的产品放在平台上,用户通过对比挑选合适的金融产品。
2.商品、服务交易数据以及行为数据生产者
此类数据包括电子商务、金融服务、娱乐、旅游等行业的企业,以及水费、电费、煤气费、手机话费的缴费中介服务商,还有教育、医疗等公用服务机构。这些数据的生产者利用自有的工作机制和网络平台,收集自身留存客户买卖商品和享受服务中所提供和产生的的身份信息、业务信息以及社交行为等信息,并对这些数据进行有序加工整理,形成数据库。由于不同企业和服务机构处于竞争状态,因此提供他人分享自己数据的内在动力不足,所以这类信息也主要是企业和服务机构自身的客户信息。
3.政府公开信息和公共服务信息的数据生产者
政府公开信息主要是行政司法机关掌握的企业和个人在接受行政管理、履行法定义务过程中形成的信息。政府公开信息特别常用的是企业工商注册的信息。公共服务信息最常见的有工会服务信息、社区服务信息,以及信用中国及地方的信用信息平台的公开信息等。
4.通过技术手段爬取或非常渠道获得的其他各种领域的数据
对于很多企业来说自身数据积累相对有限,因此通过技术手段从互联网渠道爬取或者是以非常规渠道从黑市交易获得机密数据,成为了一种对于机密数据的获取之道。此类数据的种类多样,可能有涉及各行业的行业数据或者涉及企业和个人的信息,该类数据生成和掌控信息的渠道与部门众多,有私权的市场主体,也有公权的政府机构。
根据以上介绍,可以发现不仅征信数据的形成渠道多样,并且数据种类和数据结构也非常复杂。从征信数据的渠道来源来说,有来自政府的公开信息,也有从市场采集的信息;从征信数据的数据种类来说,有金融交易数据、市场交易数据,也有不少社交行为数据;从征信数据的数据结构来说,有结构化的数据,如数据库里的行数据,也有非结构化的数据,如视频、图像、文本等。
(三)中游征信机构的数据加工
1.征信大数据的数据加工过程
总体来说,征信行业大数据应用实施的演变过程可以分为四阶段:第一个阶段是征信数据的积累,即对各种采集渠道获得的各类型征信数据,进行收集和存储;第二个阶段是信息检索过滤,是将积累的数据进行分类检索和过滤筛选之后,变成有价值的信息的过程;第三个阶段是信息深度挖掘,从信息中发现知识;最后一个阶段是大数据的至高境界——智慧决策,即对未来的事件进行预测,从而采取相应的决策来防范风险。由此可见,征信大数据应用实施过程就是把没有关联关系的大量数据通过一些分析和处理的技术手段转变成有用的信息最终形成决策。
2.征信大数据的挖掘分析技术
由于与征信相关信息的数据采集渠道复杂、数据来源不可追溯、数据结构多样,于是针对不同的数据群体的不同特点,也要选取不同的处理和解决办法。
征信大数据分析技术包括离线数据处理、实时数据处理和数据分析技术等。
(1)离线数据处理引擎——Hadoop
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的并行计算框架MapReduce,可以对离线数据提供简单的并行计算处理。Hadoop适合处理几百T这个级别的数据量,并且适用于一次写入,多次读取的场景,也就是数据复制进去之后,长时间在这些数据上进行分析,从而实现了对离线数据进行长时间处理的功能。目前Hadoop主要可以用于用户行为分析、广告效果分析、产品设计分析、商业智能分析、报表统计等。
(2)实时数据处理引擎——Spark
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎,虽然它与Hadoop开源集群计算环境相似,但是它在某些工作负载方面表现更优越,不仅优化了迭代工作负载,且内存计算速度比Hadoop快100倍。构建在Spark上处理实时数据的Stream的框架,基本的原理是将实时数据分成小的时间片断(几秒),以批量处理的方式来处理小部分数据,从而实时计算与处理数据流。
(3)数据分析技术——SPSS
SPSS——“统计产品与服务解决方案”软件,是IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务总称。传统的征信理念试图通过已知的因果逻辑关系分析历史数据,征信大数据应用SPSS软件强大的数据分析技术,除可以揭示信息主体的历史数据和行为之间因果逻辑关系外,还努力发现事物之间的相关性、关联性,并对其加以广泛利用。
用于数据挖掘与分析的软件还有很多,对于不同软件的选取与使用原则:一是要遵照数据挖掘与分析项目需求与实现功能,二是要结合数据分析师的分析思维和日常习惯。
(四)下游信息使用者对大数据征信产品的使用
1.金融领域
在金融领域大数据征信产品的应用有:银行评级及其他评级报告、大数据征信报告、金融机构服务等。该领域产品主要为从事金融活动的相关方提供,帮助金融活动的相关方收集被调查对象的真实、有效数据,经过征信机构分析、判断、评价后,甄别与防范在金融活动中可能发生的各种风险。
2.政府领域
在政府领域大数据征信产品应用有:信用体系建设、大数据征信服务等。该领域的产品主要服务于政府部门、行业协会等,不同产品对应于政府相关部门不同需求。如社会信用体系建设是征信机构结合信息化技术为地方或行业社会信用体系主管部门提供规划编制、平台建设、体系设计等服务。
3.商业、商务领域
在商业或商务领域常用的数据征信产品有:评级或评价报告、投融资咨询报告、征信评价报告、供应链管理服务、系统开发等。该类产品是针对商业发展或商务合作开展的大数据征信服务。
4.公共领域
在公共领域常用的数据征信产品有:社会信用产品应用咨询、大数据行业排名等。该类产品是针对社会公众需求所提供的大数据征信服务。
5.个人领域
在个人领域常用的数据征信产品有:大数据个人征信、个人贷款风险预测等。该类产品是针对个人所提供的大数据征信服务。
三、大数据征信的未来发展方向
(一)互联网行业发展催生征信需求发展旺盛
以互联网金融为代表的新型互联网服务行业的快速发展将带来大量新的征信需求,如互联网金融行业、电子商务行业和O2O服务行业等。对于P2P网络借贷等互联网金融行业,需要借助信用信息共享来防范信用风险、降低交易成本,这就需要大数据征信的实时分析技术,来实时甄别和防范可能发生的风险。对于电子商务行业,电商消费者的精细化营销、个性化服务和批量化处理将成为主要的运营模式,这要求大数据征信技术更加准确地把握消费者的消费习惯、风险偏好和信用状况。
(二)深层次的信息加工推动征信产品创新升级
随着云计算、数据挖掘等信息技术的发展和应用,为征信产品的创新和升级奠定了技术基础。一方面,征信机构能够凭借互联网的各种渠道拓展信息来源,降低信息采集的难度和成本,并且利用电子邮件等网络通讯技术的新型交流方式,快速、便捷地提供实时、全面的征信服务。另一方面,数据处理能力的提升,使得征信机构可以对其掌握的数据资源进行更充分挖掘和分析,开发出具有更高技术含量的产品和服务,满足社会多层次、全方位、专业化的征信需求。
(三)信息安全和信息主体权益保护技术全面加强
随着征信机构采集和存储数据的不断增多,信息安全问题也亟待加强,征信机构通过数据库存储数据和互联网传输信息等技术手段提供征信服务,容易受到黑客有意入侵和病毒攻击的威胁,一旦数据遭到窃取、泄露、篡改,将对个人隐私和客户权益造成侵害。
另外,互联网环境下,个人信用信息的采集、共享和使用与信息主体权益保护间也存在一定的冲突,如何落实《征信业管理条例》的相关规定,还需要进一步斟酌和研究。
(作者工作单位:联合信用征信股份有限公司)