刘新海：美国征信数据及信用评分应用实例-征信宝官网

（原文载于《征信》 2016年第11期，合作者骆司融为上海财经大学统计与管理学院副教授，此外，曹晨舟和马燕杰对本文也有贡献）.

一、引言

债权人与债务人的信用关系是现代经济的核心要素，社会每一个个体及企业的经济活动都是在信用关系基础上进行的，错综复杂的社会信用关系构成了社会的经济基础。因此，只有在一整套严格的信用管理体系基础上建立稳定可靠的信用关系，现代市场经济才可能持续存在发展，而征信制度正是信用交易的重要支撑。

信用风险及其相关的投资风险是现代经济社会潜在的巨大风险。2008年，由美国次级住房信贷的信用风险引发了金融市场信用衍生产品的投资风险，造成了席卷全球的金融危机，对全球的经济发展造成重大冲击。直至今日，很多国家仍深陷由金融危机引发的债务危机中，社会经济发展停滞甚至衰退，社会陷入持续的动荡。因此，研究和发展征信制度，进而有效控制信用风险，对一个国家经济的持续稳定发展具有重要的现实意义。

征信，本质上是信用信息服务。为了满足从事信用活动的机构和个人在信用交易中对信用信息的需要，专业化的征信机构，依法采集、调查、保存、整理、提供企业和个人的信用信息。征信数据是征信机构在征信过程中得到的数据，它包含企业征信数据和个人（消费者）征信数据。

我国征信数据系统的建设是最近15年才开始的，虽然起步晚，但取得了重大进展。人民银行于1998年开始筹建银行信贷登记咨询系统，2002年初步建成了地市，省市和全国三级数据库体系从商业银行采集的企业的基本信息。2006年实现全国金融机构连网查询，数据涵盖个人账户开立信息，银行信贷信息，信用卡及公积金缴存信息等。这些基础数据的建立，为金融机构控制信用风险提供了坚实的数据基础。

美国是世界上信用交易额最高的国家，也是信用管理行业高度发达的国家，在征信制度体系及应用方面有许多值得借鉴的经验。本文主要介绍了美国企业和个人的征信数据，并着重讨论了个人征信数据在金融风险建模及保险定价业中的应用，旨为我国的征信数据在实践中的应用提供参考和建议。

二、文献综述

在国内，薄晓光（2004）研究了美国的信用报告制度，讨论了信用报告的主要内容和如何解读信用报告，也介绍了美国的信用报告公平法案，对国内的信用报告制度提出了建议。段金锁（2009）指出征信体系在金融企业信用风险控制中的重要作用，金融业需要认清风险管理与征信管理的协调发展关系，明确信用风险管理在风险管理中的核心地位。郑秀君和魏文静（2011）比较了发达国家的企业信用报告，主要包括美国、日本和德国三个国家的信用报告，指出了异同点，由此针对我国的特殊环境，提出了我国企业信用报告的建议，如统一标准、明确范围、引入评级机制、建立信息共享和培养专业人员等。针对中小企业，赵绍光（2005）以各财务指标为切入点，分析了中小企业信用评估的要素，提出了建立中小企业信用评估指标体系的指导原则，在此基础上构建了中小企业信用评估指标体系。樊锰（2010）等从中小企业信用评级方法的比较和选择入手，以AHP分析法为核心，构建多级模糊综合评价模型，以期对中小企业信用状况做出客观公正的评价。尽管对征信体系的重要作用国内已有统一认识，但由于我国的征信制度起步晚，征信体系还在完善过程中，本文通过对美国具体征信数据的研究介绍，希望能对中国征信数据的进一步完善提供参考。

国外学者对征信数据在金融业的应用已有广泛的研究。Barakova et al.（2003）将信用分数用于抵押市场的经验检验模型中，认为信用质量与房贷质量有极大的相关性，可以利用信用分数来预测房贷质量。Chosisengphet和Elul （2006）特别提出征信数据在建立和检验抵押贷款风险模型中的重要作用，强调了模型的一个重要特点，即信用分数可以推断出申请者的贷款风险。Arya et al.（2011）对信用分数进行了深度分析，着重讨论了导致不良信用分数的原因，认为冲动性、时间的优先选择、可赖性等行为要素与信用分数相关程度非常大。Smith（2011）通过研究公司债券和证券风险定价模型，提出信用分数的级别是抵押贷款违约率的先导信号，征信数据随着时间在更新，我们可以充分利用更新的信用数据定期检查贷款质量，防范信用风险。这些研究充分展示了征信数据在国外金融风险管理中的重要作用，而本文则更侧重研究如何将征信数据和金融企业的客户行为数据相结合，建立更加有效的信用风险模型。

除了在金融领域，征信数据在保险领域也被广泛应用。在国外，大量的研究实践经验显示，客户的信用和保险损失之间存在着明显的相关性。例如，Monaghan（2000）通过多元统计分析发现个人信用变量和传统广义线性模型（GLM）中的分类变量不相关，且能解释部分汽车保险损失的方差中不能被传统分类变量解释的部分，也即说明了信用变量是汽车定价模型中的重要解释变量。行业协会和政府机构也对此现象引起了高度重视。2002年，美国精算学院研究了信用历史在个人保险中的应用，讨论了信用记录对保险损失表现的影响，征信数据在个人汽车保险中的信用评级、保险承销中的应用等。2009年，美国财产意外保险业协会进一步就基于征信数据的保险评级的预测能力及其对保险定价的影响和可行性进行了研究。2011年，爱荷华州发表了《爱荷华州保险信用评级的使用》，该书介绍了保险评级的背景，保险评级的法律，保险评级在爱荷华州的应用及其研究结果等。国外这些经验显示，可以利用征信数据对投保客户进行信用等级分类，对可能产生更大保险损失的客户收取较高的保费，而对低风险的客户收取较低的保费，因此，客户征信数据的使用，可以让保险公司提供一个更公平的定价。本文从实践工作经验出发，阐述了如何将征信数据和传统的保险定价变量相结合生成保险的信用评级，阐明了如何将这些评级应用到保险定价中。

三、征信数据的介绍

在国外，社会信用体系大多采用以民营商业征信服务公司为特征的完全市场化运作模式，其征信服务机构都是独立于政府之外的民营征信机构，征信数据主要由这些专业的征信服务公司提供。例如，美国有三家从事征信业务的公司，即Equifax， Trans-union和Experian，这三家公司既提供个人信用数据也提供中小企业的信用数据，为个人消费贷款和中小企业信贷的发展提供了有力的支撑。征信公司收集各家银行、金融公司的客户信用行为数据，将其整合加工成专业的信用数据，并依靠自身的专业数据分析能力，生成信用评级，卖给银行和金融公司。美国的银行和消费信贷企业和保险公司也大量使用这三家公司的信用数据和信用评分进行无担保的信贷业务。根据公司规模的不同，或直接使用这些公司的信用评分进行信贷决策，或购买这些公司的信用数据并结合本公司拥有的数据进行信用风险评级建模。

下面以美国的征信数据为例，分别讨论个人和企业的征信数据。征信公司的征信涉及面广，征信数据变量非常之多，例如，Equifax的征信数据就有数百个变量。为了对征信数据有个全面的认识，本文对征信数据分别就个人征信和企业征信进行了分类解释和说明。

（一）个人征信数据

个人征信数据主要包括信用范围、信用历史、信用违约、信用查询、信用状态、信用分数，除了这些，还包括个人信息、法律信息和其他交易信息等。将征信分类总结为下表，并对每类数据给出了具体的例子。

（二）企业征信数据

类似于个人征信数据，将企业征信数据分为企业基本信息、信用信息、账户信息、财务信息和法律信息，其中信用信息又包括信用历史、信用额度、信用违约、信用查询和信用评级分数。参照Equifax的征信数据，下表给出了每类征信数据的例子。

本文并未列出所有征信数据，只是举例说明各个类别的信用。但几乎所有征信数据都可以概括为以上几个方面的内容，根据这些信用信息的分类，可以很清晰地看出个人或企业信用主体在每个方面的信用状况，进而了解其总体信用情况，也可以让公司更方便地利用这些征信数据。

值得注意的是在评价企业的信用时，除了使用信用分数，还考虑法院判决和追债记录等，而个人的信用评价多数情况下可使用FICO信用评分。下面给出Equifax商业征信报告中的好坏标准的例子，以√为优，当企业的信用信息满足以下标准时，这个企业有好的信用表现：a）信用评分在75-100分之间，b）没有破产和税收留置记录，c）只有少于1个的付款拖欠记录。

四、征信数据的应用

征信数据不仅影响了个人的日常生活，例如就业和贷款，也对企业日常的经营活动产生了深远影响。尤其是金融保险业，大量使用征信数据进行风险监控，信贷决策和定价等进行经营决策。下面就以金融保险行业为例，具体阐述征信数据在信用风险模型，信贷资产评估和保险定价中的应用。

（一）征信数据在金融领域的应用

1.信用风险模型中的应用

信用风险模型用于反映信用和贷款的质量，金融企业用它来预测客户的违约概率以及发生违约时的贷款损失率，银行可以根据模型的预测值相应地调整客户的信用额度和贷款利率，以减少未来的违约风险。征信数据在建立信用风险模型时起到了重要的作用，它是由征信公司根据各家银行、金融公司提供的行为数据整合而成的，具有综合性、完整性、准确性等优点，以此建立的信用风险模型可以更准确地反映客户的整体风险状况，继而准确预测未来的违约率和违约损失，为银行和金融公司决策提供依据。

以一个典型的消费信贷金融公司为例，它存储了客户的信用行为数据，包括每月的还款记录，账户余额，撇帐和违约记录等。我们可以基于这些行为数据预测信用风险，但是由于这些信息只包含客户部分的信用行为，因此这样的模型预测通常效果不理想，而通过购买征信数据，将客户的征信数据和行为数据相结合可以达到更好的预测效果。具体的建模过程可由下至上，从账户级到客户级逐步进行，如图1所示。图中的Equifax， Trans-union和Experian代表从三家征信公司买到的征信数据。具体建模步骤如下：

（1）对账户进行细分，产生细分的组（Segment），根据银行自己掌握的客户历史行为数据将账户按风险分为不同的细分组（Segment）；

（2）对每个账户组，建立账户级风险模型，也就是信用评分卡。模型的变量应包括账户额度、支付记录、信用分数、账户结余等行为数据，以此建立模型预测未来某个时期内的违约率。例如，可用逻辑回归模型预测到未来18个月内账户违约概率；

（3）把账户级风险模型的预测值按客户统计，生成以行为数据为基础的客户级风险模型，即将步骤2中对每个账户的预测值按客户整合起来，对客户建立风险模型，从而预测此客户在未来某个时期内的违约率，注意如果有一个账户违约即视为该客户违约；

（4）针对购买的每个征信公司的数据进行客户级风险建模。征信公司收集的信用数据全面且完整，但每个征信公司收集的数据又不尽相同，因此需要对每个公司的征信数据进行风险建模，充分利用信息的价值；

（5）将客户级的风险模型汇总生成最终风险模型。即将步骤3中的客户风险模型和步骤4中根据征信数据建立的模型预测值整合起来，建立一个总模型，以此来形成最终的客户级累积风险模型。

这样的风险模型架构不仅可以使得风险模型更完整、更准确，而且各个征信公司之间的模型也相互独立，假如银行因为财力紧张，只能购买其中一家或两家公司的数据，只需要将其他公司的模型剔除，不需要重新建模，这样既方便又可以节省成本。

2.回顾评分（Retro scoring）中的应用

建立风险模型最终的目的就是预测和决策，通过模型来预测客户在未来的违约概率和发生违约时带来的损失率，继而决定是否调整信用额度和贷款利率等。除了额度和利率，信贷企业也面对大量的日常经营决策，在进行信用决策的过程中，需要对信贷资产未来若干年的收益和损失进行预测。下面举例说明上述风险模型如何用于信贷决策以及如何购买征信数据进行回顾评分。如图2所示，t=0表示当前决策点，需要预测账户未来三年的损益，决策者需要使用已建立的累积风险模型来进行账户细分从而做出精细的管理决策。常规的信用评分模型（例如FICO信用评分）一般是根据在t=-18即18个月前抽样的数据建立的，由于回顾评分要预测未来三年的数据，就需要追溯到t=-36，即36个月前，对历史数据抽样并进行价值评估。

但在进行三年历史数据抽样时，在t=-36时点还没有该累积风险模型，也就没有相关的信用风险预测值。为了在将来应用建立的累计风险模型辅助决策，需要对t=-36时的样本采购模型使用的征信数据，产生累积风险预测分数，用于接下来的信用决策。这个过程就是回顾评分（Retro scoring）。此时，已经拥有存储的客户历史行为数据，需要从征信公司添加征信数据，再对三年历史样本进行累积风险评分，以评分结果用于最终的价值评估建模和决策。

实践中的具体操作步骤如下：

（1）账户抽样；

（2）汇总以下信息：

A.账户行为数据（如账户额度、余额、支付记录等）

B.客户身份信息；

（3）将收集的信息交给征信公司，征信公司添加上征信数据；

（4）征信公司将身份信息去掉，保护信息安全，公司得到没有身份信息的样本；

（5）公司利用从征信公司得到的数据进行风险评分，然后进行价值评估建模，从而做出最终决策。

3.市场拓展中的应用

金融公司在进行市场拓展获取新客户时，也需要用到征信数据建立相关的市场反馈（Response）模型，有针对性的寻找目标客户群，提高市场活动效率。

具体操作步骤：

（1）购买目标市场潜在客户的信用信息，即向征信公司购买征信数据。

（2）利用历史市场活动数据（包括征信数据、市场反馈数据）建立客户回馈模型和信用风险模型（只包括客户的征信数据）。

（3）利用客户回馈模型对潜在客户进行评分，得到客户回馈的概率。

（4）依据客户回馈模型和信用风险模型对目标客户群进行细分，从而决定目标客户群，即违约风险小且回馈可能性大的客户群。

这样有针对性地选择目标客户群，减少盲目性，提高了市场拓展成功的概率，还可以有效控制新客户的违约风险。

4.催收过程中的应用

客户违约后，进入讨债环节，金融公司会专门成立讨债部门，或者外包给专业讨债公司。在讨债过程中，公司依然会根据征信数据建立模型，反映讨债成功的概率和可能追回的金额，进而将违约客户进行细分。金融公司依据讨债成功的概率高低和追回金额大小依次进行讨债，这样大大提高了成功率。

（二）征信数据在保险领域的应用：基于保险损失的信用评级

保险公司在确定保费时会对投保客户进行风险评级，产生最终的分类评级定价系统（Classification Rating System），以进行公平的保险定价。如文献综述所述，保险损失与征信数据有极大的相关性，通常信用历史较好的客户保险风险也较低，因此，保险公司在开发保险产品时，会购买征信数据，开发保险信用评级模型，将其加入最终的保险定价模型。投保客户在投保时，保险公司实时采购客户的征信数据，制定出公平的保险价格。

征信数据在保险评级中的应用步骤如下：

（1）变量选择，即征信数据的字段选择。对保险定价来说，并不是所有的征信数据字段都有用，因此需要先进行变量选择。以保险损失为因变量Y，征信数据字段为自变量X，建立回归模型，选出显著变量，剔除那些对因变量贡献小或与其他自变量相关性较大的自变量；

（2）将每个选出的显著变量进行分段，如对信用历史进行时间分段，对信用查询次数进行次数分段，对信用额度进行金额分段等；

（3）将分段后的变量与其他保险自变量（如年

龄、性别、婚姻状况等）一起做回归模型，通常多为广义线性模型，如log=+，其中表示征信数据变量，表示其他保险变量，和均为向量；

（4）产生信用分数，利用对客户风险进行评分，对评分结果进行分段，生成最终的保险信用评级，此处，注意每个评级要有足够的投保（Car Years）；

（5）将保险评级变量和其他变量一起做广义线性回归，生成最终的分类评级定价系统。

以个人信用历史为例，图3直观地表示出征信数据与保险定价之间的关系。

在图3中，保险费率（relativity）随着个人信用历史的增长而减小，因此，信用历史越久，保险费率会越低。

五.结论

美国在经过百余年的发展后形成了比较完整和成熟的信用体系。本文在对美国征信数据进行分类的基础上，讨论了其在金融风险管理和保险定价中的应用，展示了征信数据在实践中的重要价值和意义，对国内的金融行业中风险评估有着很好的借鉴意义。

刘新海：美国征信数据及信用评分应用实例

相关推荐

评论抢沙发

归档

分类

其他操作

相关推荐

评论 抢沙发

归档

分类

其他操作

评论抢沙发