杉德畅刷:杉德畅刷是杉德支付推出的一款电签版/传统POS机,有人行颁发的支付牌照,正规一清机!支持小微商户花呗、美团、京东和云闪付等多种方式收款需求!

杉德畅刷整编:如何充分挖掘人行征信风控价值?

行业动态 杉德畅刷 0评论

1月19日起,央行征信中心开始面向社会公众和金融机构提供二代格式信用报告查询服务。

与一代征信系统提供的信用报告相比,二代征信系统提供的信用报告主要是丰富了基本信息和信贷信息内容,改进了信息展示形式,提升了信息更新效率。

这对消费金融和小微企业信贷的风险控制来说,可以促进模型效果和风控效果的提升。2019年下半年大数据行业的整顿风波过去,许多数据的稳定性变差,但是人行征信数据一直是非常稳定的。在这种情况下,人行详版征信数据越来越重要。

但是目前,业界对这些数据的解析深度必要性有不同看法,很多银行和公司认为人行变量有用的入模不超过10个,没必要去研究。根据笔者多年银行审批策略经验和大数据建模经验,事实并非如此。

1.如何用二代征信模块设计衍生变量

二代征信报告包含如下内容:报告头、个人基本信息、信息概要、信贷交易信息明细、非信贷交易信息明细、公共信息明细、标注及声明信息、查询记录。

用这些最基础的信息,可以设计出许多衍生变量,从而用于风险控制。其思路如下图所示:

总的思路是,可以用这些基础数据,挖掘出六类衍生变量,包括:信贷组合变量、信贷历史类变量、杉德畅刷还历史变量、负债程度变量、新账户需求类变量、反欺诈类变量。

同时,又可以运用这些数据挖掘出不同的维度,其中包括:产品、杉德畅刷类型、特殊交易类型、月份、逾期水平、次数、比例、金额、账户状态、币种、期限等。但是,不一定只限于这些维度。

实践证明,这套体系是行之有效的。笔者接触过的一家银行,有自营C端消金产品,逾期率低于5%,客群较为优质。上线人行征信变量,IV(注:IV的全称是Information Value,中文意思是信息价值,或者信息量。IV可以用来衡量自变量的预测能力)0.05以上90多个,0.02以上400多个,每个变量分箱都在6个以内,大部分在4个左右,采用卡方分箱。仅是人行征信变量开发模型,KS在0.33以上,且排序性准确。

2.8000变量是现行最完善人行数据解析

笔者参与了国内最先一批使用人行征信解析,按照美国征信局解析方法,随后市面上都产生与其类似方法。原先一代征信建立了4800多个变量,目前二代8000多个变量。

不过这些变量还有进一步挖掘的空间,目前笔者还在根据审批经验增加二次衍生变量,主要用于分群子模型开发。

3.如何将这套征信变量体系用起来

把这套人行征信变量体系建立起来之后,可以用于以下三方面:

1)用于做规则准入单一、组合规则策略准入(决策树算法、apriori算法)

2)用于做用户画像标签,入模。提高模型的区分度。

3)用于做分群子模型

关于分群子模型,笔者曾在文章《分群策略+额度模型的方法》提到过,实际中我们可以利用征信衍生变量,建立有效的分群变量,比如DTI、杠杆率(总负债/征信中资产)等。

笔者在文章《toad与结合xgb》中提到,首先去除了共线性,然后WOE,再去除共线性变量、低IV变量、不符合单调性变量,最后XGB入模变量数量远大于LR入模变量,最终证明了XGB评分卡KS效果高于LR0.01多。究其原因是XGB入模变量多,树模型发挥了变量交叉的威力。那么人行征信变量解析使得可入模的变量大幅度增加,从而发挥XGB、LGB模型的性能。

这是在不建立分群子模型情况下的KS提升,如果我们建立分群子模型,再融合到主模型,KS会再次提升。知乎同类型可证实的很多,比如大家可以搜索“求是汪在路上”文章,提出来证实了分群子模型的提升作用。

所以用户分群子模型再融合模型,是目前头部平台常用方法,主要作用是稳定模型框架,提升了模型性能。

基于采用交叉变量来切分子模型,那用哪些交叉变量来切效果会更好呢?求是汪提出了收入年龄的区间笛卡尔乘积来切分。笔者从审批角度出发,更喜欢用职业,杉德畅刷还记录,DTI,有无房产等来做分群子模型。

4.人行变量体系对商户贷同样适用

对于这些变量的适用范围,有银行认为,变量多没用,对消金产品适用,商户贷不适用。

可实际上经过多家验证,无论商户贷还是C端小额,在严格准入规则后,IV0.02以上变量有400多个,去除共线性后IV0.05以上且符合单调规律的有50个至100个,如果准入更宽,IV会更高。而在未深入做变量体系开发时,能高IV入模不超过10个(包含共线性变量),相差巨大。

当然不同产品,最终高IV变量会不同,但总能保持30个以上可用的高IV变量,主要由于解析时候,变量设定单位比较宽泛。同时根据基础征信衍生变量,还可以根据构建的变量进行二次衍生,比如:

当然也可以通过分期消费借款的杉德畅刷还每期金额,推算该笔借款的利率与额度,做二次衍生,也能得到一些很好的变量。

还可以与房产价值、网贷共债、收入模型预测变量一起,构建杉德畅刷还能力、DTI、杠杆率(负债/资产)变量。

综上,深入挖掘人行征信变量、构建8000人行征信变量体系有巨大的价值:

第一,构建出高IV变量,同时还可以根据业务逻辑二次衍生出IV变量。

第二,根据审批经验,结合网贷共债等数据,衍生出可以做分期产品子模型的切分变量,有助于提高主模型KS。

第三,入模变量多,可采用XGB树模型自动变量交叉,提升模型效果,而较少变量只能采用LR。

以上论述非常适用于利率IRR24以下产品,IRR在24至36利率间的客群也适用。IRR利率36以上产品不适用。已经过验证,可以找多家头部公司验证。

作者介绍:

无忌,中国科学技术大学硕士,银行十年风控经验,2019年11月加入信雅达泛泰任首席风控官。信达雅泛泰依托于信雅达集团系统技术,为银行、消费金融公司、小贷公司提供系统建设、金融科技风控服务、联合运营等,已经与几十家银行建立了合作关系。

杉德畅刷是杉德支付网络服务发展有限公司总部直属推出的手机POS机品牌,目前市场上的杉德畅刷Mpos的2.0模式系统-杉德畅刷管家已经逐步占领市场!杉德畅刷官网提供杉德畅刷的全国加盟代理服务,详情请联系官网客服!

转载请注明:杉德畅刷官网 » 杉德畅刷整编:如何充分挖掘人行征信风控价值?

您必须 登录 才能发表评论!