9月17日,在由清华大学五道口金融学院、清华大学国家金融研究院主办的“2017第二届中国金融科技大会”的“大数据的创新与挑战”主题论坛上,鑫苑科技集团执行总裁庞引明发表演讲。
“首先,你要什么数据都有,很多数据来源你都搞不清楚,所以外面把它总结成黑白灰三道。”庞引明表示,目前征信的数据来源比较混杂,共有黑白灰三道,法律方面面临诸多问题,大数据和区块链技术在实际应用过程当中也存在着一些问题。
黑的数据:数据来源根本不知道哪里来的。但国家立法,5条数据以上就够刑事犯罪。
白的数据:银行的数据和房产公司的数据,这些数据在一定程度上在授权范围内是可用的。
灰的数据:合法性有待确定。这种数据在社会上现在非常多,急需要立法来解决很多问题。
以下为现场演讲实录:
今天下午,包括上午,都是一些创新企业的杰出代表。其实我是来自地产公司的,包括我的上一个东家都是地产公司。我们其实是一个传统的地产行业的一群人,在做一些创新的业务,我们今天跟大家汇报下,大家就知道其实我们也在思考一些问题,有很多问题跟大家遇到的问题是类似的,可能有些问题大家没有遇到,但是我们遇到了。
我们也在做金融科技相关的事情,我其实一直在上海那边工作,现在是刚到北京这边来没几天,清华也是第一次来,一直对五道口心向往之,但是还没有机会加入这里。
今天也是我第一次在五道口露面。我一直在陆家嘴那边各种讲座什么的参加得比较多,在那边也发表了自己的看法,第一次到这里来讲一些自己的观点。
详细的东西我写的几本书里面都有,我们这个题目叫做“金融大数据遇到的问题”,当时我在2014年写《互联网金融与大数据分析》的时候,当时我想跟出版社商量能不能叫《大数据金融》,出版社表示反对,就问“这个概念是谁提出来的,有没有这个依据”。后来也就算了。
其实,遇到的问题这些年还是类似的,像刚才几位嘉宾都讲到,包括大数据的一些问题。我们很多在数据领域工作几年的人都知道,这些年国家很多地方发展得比较快,尤其像征信行业,像人工智能行业等等。昨天在从莫干山上刚下来时,他们讨论的比较集中的问题是人工智能为什么发展得比较快,相信清华计算机系,他们学计算机的很多人都知道,最早我们学人工智能那个专家系统等等,那个时候离实用还有一定的距离,昨天我比较同意他们很多人的观点,也就是说缺少一个大数据的训练、缺少深度学习和大数据领域里面发现一些东西。
做数据挖掘的人都知道,一开始是做关联度的一些挖掘等等,慢慢地现在有这个大数据训练以后,人工智能真的具有了自我学习的能力。甚至前段时间说很多机器都会写诗了,我看了以后我也吓了一跳。所以说大数据这两年进展特别快。
我们在做征信这个领域里面的时候,为什么传统的行业要做征信。大家知道最初很多征信系统都是接央行的征信数据,但是那个数据的特点大家知道:
特点一,它都是静态的数据。很多年前的贷款,甚至很多人都不在那里面,我如果没有买房,或者说很早以前退休的人,他可能就不在这个名册里面,就很难作为我对他进行信用判断的依据。
全国有5.7万家地产公司,改革开放30年,可以说所有的精英都住在我们这5.7万家地产公司开发的房子里面(很难有例外),这些地产公司就很自信,就认为我们掌握了比较核心的数据。我在别的地方也讲过一个例子,为什么在地产界要求做区块链和大数据,因为我们国家的产权是70年(看成一个生命周期的话),我可以用一个区块来表达,这70年内这个房子能转手四次,四家所有的数据我都可以在里面,而且这个可以用一些加密的手段,如智能合约等等,让这个数据是永生的,而且是不可篡改的。包括这家买房的时候有没有贷款(可以看他的收入情况),一户里面的WIFI的情况,就可以看到他每天用网络的情况,他的用电量是多大等等这些数据都非常有用,也就是我们可以分析这一家的行为。当然也很可怕,你家里所有的行为都逃不过大数据的侦查,就是你很多东西都在这个数据里面。
当然,这里面是需要有一些交互的,比如说他的贷款信息可能跟银行的区块链要进行对接或者有一些交互,你才能看到它更多的信息。这就是作为一个传统行业,我们为什么想要用区块链、征信这些手段来解决这些问题。
我们手里有一些数据,比如说原来有400万个家庭的买房的数据,我们鑫苑大概有几十万相关的买房的数据,这些数据就反映了我们这个征信行业(包括大数据)的一个问题,就是数据的条块分割。我们有数据,如果这个数据跟央行的征信数据整合在一起的话,是很有用的。然后能够整合一些医院的数据的话那就更有用了,再整合一些其他的数据,慢慢就能整合出来。
我们在上海做征信的时候,其实遇到一些问题,我不知道在北京有没有遇到,就是这个数据的来源现在比较混杂,法律方面的问题很多。比如说我们找一些数据来源来进行一些信用方面的分析的时候,我们发现:
首先,你要什么数据都有,很多数据来源你都搞不清楚,所以外面把它总结成黑白灰三道。
黑的数据:黑的数据你根本不用知道我这个数据哪里来的,你只要用就OK了,这个数据到了我们看都觉得有点儿吃惊的程度。当然最近国家立法了,5条数据以上就够刑事犯罪了,但是你确实看到社会上有很多数据来源,你会感到很吃惊。
白的数据:像我刚才讲的银行的数据和房产公司的数据,这些数据在一定程度上在授权范围内是可以用的。
灰的数据:你说它合法不合法不好说,你说它不合法也很难说,就是这样的数据也很多。这种数据在社会上现在非常多,急需要立法来解决很多问题。像我到中部的某个省去看大数据的应用相关情况,当地政府出面把“六部一局”所有的人招在一起开会,我们的数据要统一交给某一个公司来做,做了两年了也没有做下来,因为这里面的问题很明显。
问题1:这些数据给出去,市长可以下命令让局长和部长把这个数据给出去,但是市长会换的,明年就调走了,谁给了谁是要负责任的。
问题2:拿到数据的这一方,他自己是否有足够的手段,或者说有足够的办法、足够的法律依据,把这些数据能得到一些合法的应用,这个也是问号。
这些问题基本上就是我们国家大数据应用的现状,大数据应用过程当中遇到的一些问题。
现在我这个题目——区块链和征信是比较大的,是让我助手定的。我想讲我们在实际的应用中(尤其传统的这些企业),我们手里有一部分的数据,但是数据又不全,在这种情况下想做,面临着一些问题。比如说中午午餐会的时候,一行三会的领导都在,问我们这些做企业的有什么样的问题,可以问监管部门。我当时就想问一个征信方面的问题,大家知道央行一开始发了几张牌照,那几张牌照后来又没有正式发下来。其实使我们这些用的企业就感觉到心里没有太多的底。
原来如果他们八家企业都成立了,我们跟他合作就OK了,然后他可以通过合法的渠道,把他的数据给到我们,然后我们要一些分析的结果,付钱就OK了。现在这个牌照延迟发了,延迟发了之后我们在用的过程当中我们就很踌躇。首先,找谁来用。其次,我们自己的数据在什么样的范围内用,都比较麻烦。我们跟合作伙伴之间,我们的数据怎么进行交互、怎么来合作做一些事情。这些都是我们在现实中面临的一些问题。
昨天在莫干山上讲到区块链的应用的时候,其实大家知道区块链的应用现在还处于一些比较初级的阶段,初级的阶段区块链应用到一定的程度,一定会遇到大数据的问题,目前还没有遇到(因为现在区块都比较小),而且这个链条都还没有打造完成,那么这个链条数据的积累,还没有达到一定的程度。这个数据一旦到大的时候,那个是我在去年年底的时候,我来北京那个场合演讲的时候,其实我提到这个问题,也就是说这个区块链里面的大数据问题真的是一个问题。也就是说如果数据大到一定程度的话。
大家知道区块之间的交换速度是一个瓶颈,现在声称达到1万的测试数据,我都表示怀疑。你想想看,如果数据量非常大的时候,这个交互的速度等等方面是不是一个问题。现在冯诺依曼的体系架构(集中存储、集中处理)是不太适合处理区块链这种去中心化的业务架构,也就是说你业务的这种去中心化跟你技术架构上的集中,这两者之间是矛盾的。这些问题都是我们在这个过程当中遇到的问题。
还有1分钟的时间,刚才告诉我只有8分钟的时间。这也是我第一次露个面,到五道口来拜个码头,向大家问个好。下面我可能常驻北京工作,有一些什么样的问题,也欢迎大家跟我一起讨论。
我发现这个论坛请来的都是非常具有创新性的一些人物,这些人物在一起确实能够产生很大的能量,在一起能讨论一些行业面临的问题,共同把这个行业推下去。也就是我在莫干山的论坛上跟大家讲的一个观点,金融科技真的是一个正面的东西,我们现在监管是需要的,但是就是我们监管需要保护它往前走,因为这个金融(无论是金融还是科技)都是要往前发展的,过程当中遇到一些问题是正常的。
刚才吃饭的时候一行三会的领导说,它是一个螺旋上升的过程,上升的这个还会螺旋上升,直到把我们的金融变革到能够更好地服务于整个的经济活动。我就讲到这儿。
(来源:凤凰财经WEMONEY)