融360贷款:用户与产品分析
介绍
Rong360 一个金融科技网站的设计是为了填补贷款市场的空白,通过匹配贷款人和借款人寻求小额贷款. 它试图简化申请流程,并为借款人提供更多的贷款选择, 同时收集借款人信息,增加贷款人的客户群. 我们发现了两个主要的观点:贷款产品可以分为三个部分(我们称之为黄金, 银, 和 bronze); 和 user platform activity data on Rong360 may reduce applicant risk 和 lead to higher approval rates.
代码可以找到 在这里.
数据描述
数据有4个表:贷款产品数据、用户应用数据、用户web数据和订单数据. 贷款产品数据包含融360上所有贷款的信息.com (48, 433), 包括城市, 贷款期限, 以及申请时需要哪些个人信息. 用户应用程序数据包含 用户提交的所有申请的信息, 包括用户的个人信息, 以及贷款信息, 如贷款类型和金额(1,506,097 x 89). 用户网络数据 记录用户在Rong360上的浏览量(238958 x 12),包括首页、常见问题解答等页面. 订单数据是贷款申请和审批结果的基本记录(143152,6). 在所有这些表格中,有些信息被编码了. 因此, 类别的含义被混淆了, 这使得数据有些难以解释. 各银行在要求哪些信息以及如何记录信息方面也存在不一致.
数据清理
产品数据
产品数据中只有两个特征包含缺失值:二进制提前还款和惩罚特征. 近三分之一(45976)的订单没有提前还款信息. 所有这些命令都缺少处罚信息. 少数(378人)只是缺少处罚信息. 计算这些值, 我研究了贷款接受率中缺失的偶然性, 如下表所示. 缺失值的贷款的批准率明显低于包含这些值的贷款——无论是0还是1. 因此,为了灌输这些价值观,我决定创建一个新的类别.

用户数据

当我们有更多的用户数据 (PV 's等)一般贷款审批率提高. 这应该会促使贷款机构鼓励申请者利用融360平台.
质量数据
Quality数据集包含所有用户的贷款申请数据. 我们将这个数据集与结果结合起来,找出哪些申请最终被批准了贷款,然后努力找到被批准的申请有共同的因素.
应用程序数据中有多达89个信息字段. 大多数银行在贷款申请中要求的信息要少得多, 是什么导致这些字段中的值丢失. 我们专注于最常见的申请人信息. 它包括有关寻求贷款的信息(i.e. 贷款金额、贷款期限)及有关申请人的情况(一).e. 用户是否有车,使用年限). 尽管其中一些用户数据被编码了, 我们能够通过简单的可视化找到批准模式.
用户数据和贷款批准率

上图是荣360网站首页的截图, 我们可以看到,作为搜索贷款的第一步,用户被要求填写他们的职业身份. 在下面的可视化中, 很明显,有一种职业类型的支持率比其他职业要高得多.

下面的条形图显示了最常用的申请信息的贷款批准率. 我们可以在左边的图中看到,拥有社会保障的用户比没有的用户更容易获得批准. 数据的另一个方面被称为“垃圾邮件得分”,“这是由Rong360生成的指标,用来估计用户成为机器人的可能性有多大. 垃圾邮件分数越低,表明应用程序是真正提交的可能性越大. 正如预期的那样,较低的垃圾邮件分数对应较高的贷款批准率.

我们的可视化尤其重要,因为数据是经过编码的. 然而,还有更深层次的模式更难揭示. 我们最感兴趣的是贷款申请的哪些方面对审批的影响最大. 我们试图使用卡平方检验来确定不同用户类别之间的批准率是否存在显著差异, 这能证实我们在视觉化中暗示的关系,并有可能揭示其他关系吗. 我们的数据集是如此之大, 然而, 即使是很小的差异也能得到统计上显著的p值.
最终, 我们使用了一个随机森林来了解功能的重要性, 换句话说, 用户应用程序的哪些部分在决定他们的应用程序的批准或拒绝方面最有影响力. 我们对几个参数进行了网格搜索. 我们的最佳估计器的沙巴体育安卓版下载误差是0.14149,测试错误为0.17155, 这表明数据过拟合程度远低于我们沙巴体育安卓版下载的初步决策树和随机森林. 下面是按重要性排序的各种应用程序组件.

我们使用类似的过程来了解用户行为对融360网站的影响. 请注意,用户的页面视图在影响贷款审批结果方面很重要. 换句话说, 用户在融360上的活动会影响他们的整体风险状况,并影响他们获得贷款的可能性. 融360收集的用户行为排名特征重要性如下图所示.

贷款景观
k - means聚类
哪些贷款产品最受欢迎? 为什么这么频繁地申请? 为了回答这些问题, 我们选择对贷款产品进行聚类,以查看某些产品之间是否有任何特定的相似之处. 聚类算法特别容易出现维数问题, 所以我们根据应用程序的数量用随机森林回归来缩小范围. 下面是一个从简单的网格搜索中获得的特征重要性的图表. 对于集群,我们使用了前15个最重要的特性,以及应用程序计数. 这是用一个简单的k-means算法在缩放特征上完成的——肘部图如下所示. 虽然不是最锋利的手肘,但在k=3组时似乎有一个小手肘. 因此,我们选择了3个聚类来进行分析.

为了了解所得到的三个积群,我们看一下连续特征的箱线图. 我们看到,在这些特征中,青铜族和银族有相似的分布, 而黄金往往不同. 黄金贷款是更大的贷款, 从贷款额度和贷款额度上看, 因此有更长的贷款期限和更长的决策周期. 银牌组和铜牌组在申请数量上有所不同, 许多银行, 和决策周期, 青铜基金更受欢迎,决策周期更短,贷款机构更少.

观察分类变量的条形图有助于进一步说明银牌组和铜牌组之间的差异. 在左上方的图中是贷款结果的比例:1表示贷款被接受, 0表示不被接受. 我们可以看到Gold组的录取率最低, 这是合理的,因为这些贷款更大. 铜牌组的录取率也较低,而银牌组的录取率较高. 其他条形图描述了贷款的不同特征:1表示贷款申请需要ID, 房屋登记, 营业执照, 等.,而0表示不需要这些功能. 这就是银和铜真正的区别所在. 青铜贷款没有这些要求. 相比之下,银质贷款需要身份证、银行对账单、收入证明或水电费账单. 这就解释了为什么铜币贷款的申请数量高,录取率低:它们更容易申请,要求也更少. 黄金贷款也有要求, 在某些情况下,甚至比银贷款还要严重, 因为其中可能包括结婚证, 房屋登记, 以及收入证明.

主成分分析
为了进一步了解这些群体,我们做了一个主成分分析. 结果如下图所示,左边的图显示了沿着两个主要成分的数据点. 这些颜色表示来自k-means聚类的组分配. 沿着第一个主成分(x轴),我们看到两个不同的点簇. 右边较小的集群主要分配给青铜组. 我们可以看到这个主成分如何区分左边有很多要求的贷款和右边有较少要求的贷款. 沿着第二个主成分(y轴),我们可以看到左边大的点簇中白银和黄金组之间的划分. 这表明该组件用贷款规模来划分积分, 这就是这两组人的主要区别. 右边的图包含第三个主要成分, 哪个更能显示星团的形状. 然而,我们可以看到集群主要由两个最大的主成分来描述. This makes sense for 3 clusters; 然而, the first two components explain 17.4%和8.8%的方差,所以仍然有73.8%的方差无法被这两个成分解释.

结论
我们的分析指出了进一步研究的有希望的途径, 最引人注目的是网站上贷款申请的时间序列分析. 贷款申请日期是审批率的重要因素. 查看下面的可视化图,了解批准比例如何随时间变化. 日期被编码了, 因此,我们无法将观察到的在任何文化或金融事件中支持率下降的背景化. 即使没有上下文, 然而, 从贷款申请时机的角度来看,仍有重要的问题需要研究.

我们的分析可以为融360的用户提供建议. 个人和企业使用该平台寻求贷款, 重要的是要记住,他们对网站的使用可能会影响他们的贷款批准率. 那些很难通过传统途径获得贷款的人可能会发现,通过融360获得贷款会更成功, 哪款游戏能够为用户提供更全面的风险分析. 申请人也可以使用我们的分析来找到他们可能获得的合适的贷款级别. 针对在融360平台上提供贷款产品的银行, 我们建议他们了解他们的产品属于哪一级贷款. 对于银质贷款较多的银行, 我们建议他们减少贷款申请所需的信息, 正如我们所看到的,人们对白银贷款很感兴趣, 然而最终提交的申请并不多. 在融360上为客户提供尽可能多的合适的贷款产品,对双方都有好处.
进一步的研究途径
- 深入挖掘区位对贷款审批的影响
- 特色工程贷款批准率每个银行, 看看银行分支机构的数量与贷款批准率之间的关系
- 深入挖掘时间序列分析
- 为了更深入地了解集群的组成,可以使用产品类型来进一步了解集群用户.