博士论文合集-基于机器学习的个人信用风险预测模型和研究
本文汇总了5篇关于个人信用风险预测的博士论文研究。研究重点包括:商业银行互联网贷款风险评估(刘帅祺提出FOMBRF算法解决数据不均衡问题)、深度学习在银行大数据中的应用(杨德杰使用GAN处理样本不均衡)、消费金融违约预测(李伟采用集成学习方法)、大数据信用评估模型(张万军构建CreditNet模型)。这些研究运用机器学习、深度学习等方法,针对信贷数据不均衡、高维特征等挑战提出创新解决方案,为金融机
作者Toby,原文来源公众号Python风控模型,基于机器学习的个人信用风险预测模型和研究
大家好,我是Toby老师,今天汇总关于个人信用风险预测模型相关的,且下载量和引用量较高的博士毕业论文合集,分享给大家。本文将带你快速梳理该研究的核心方法、主要发现与复现价值。
01商业银行互联网贷款信用风险评估及客户特征发现


商业银行互联网贷款信用风险评估及客户特征发现
刘帅祺
北京科技大学
摘要:2020年至2022年间,我国银保监会先后出台的《商业银行互联网贷款管理暂行办法》、《关于进一步规范商业银行互联网贷款业务的通知》文件内容揭示了信用风险管理及风险模型的建立是互联网借贷行业在新形势下的关注重点和工作重心,强调商业银行应加强自主风控能力,进一步完善以风险管控为核心的贷款管理。金融科技的运用使得信用风险识别更加准确且高效,技术驱动下的信贷数据挖掘核心价值在于通过对历史数据的训练,识别和预测可能出现的信用风险,并从历史数据中充分学习与风险相关的特征,为有关机构带来有效的决策支持。基于数据挖掘的信贷风险管理中面临的问题包括:客户细分视角单一且现有方法适用性不强导致的贷款针对性不足;由于信贷数据具有严重的数据不均衡、属性维度高且包含的信息混杂等特征,导致风险评估不精确、客户特征刻画不充分等实际问题。因此,信贷数据挖掘任务具有一定特殊性和挑战性,需要更先进的挖掘方法以适应信贷数据特征和业务特点,提高信贷风险识别能力。面向以上实际问题,本论文研究的科学问题包括:(1)以违约风险和误分程度为视角的信贷客户细分。基于异质集成学习方法以违约风险为视角对信贷客户进行细分,并研究不同客户细分类间的特征差异。(2)以解决数据不均衡问题和降低实际误分损失为目标的违约风险评估。结合误分损失、误分程度等因素构建客户细分类的样本关注度矩阵,提出融合样本关注度矩阵的随机森林提升算法(FOMBRF)。(3)分类分析空间识别。针对信贷数据高维且包含信息混杂等问题,基于业务理解进行数据理解,提出考虑业务流程的信贷数据属性划分方法,并结合客户细分形成信贷数据对象-属性空间划分方法。基于划分后的数据实现对不同客户细分类、以不同维度信息多角度挖掘客户特征。本论文的主要创新性成果如下:(1)提出以违约风险和误分程度为视角的信贷客户细分模型及风险特征学习方法。传统的客户细分多以客户价值、客户流失为视角,以精准营销为研究目标,而信贷客户细分的目标在于风险管理。借鉴异构集成学习思想,通过多个基分类器对信贷数据的预测结果发现,具有相同类别标签的客户间也存在不同程度的违约风险。进而根据基分类器预测结果对客户进行风险评级并以违约风险为视角将信贷客户细分为八类,包括:最高违约风险类客户、目标客户、最易误分的非履约类客户、最高潜在风险类客户等,并挖掘了客户细分类间重要风险特征,为信贷客户细分和客户特征的研究提供了新的视角和方法。此外,在数据严重不均衡的信贷数据机器学习任务中,对于易被错分的少数类风险样本的准确识别对进一步模型优化及降低机构损失具有重要意义。(2)基于融合关注度矩阵的随机森林提升模型(FOMBRF)的信贷违约风险预测。传统针对不平衡数据分类任务多以通过不同准则改变样本分布或合成新的少数类样本以提升训练结果,但会造成不同程度的信息损失或信息失真。结合模型对每个客户细分类样本的误分程度及每个客户细分类的实际误分损失两方面因素提出模型样本关注度矩阵(FOMA),以针对性的提高模型对高风险、高损失、难分类样本的学习程度。分析了分类模型方差、偏差间关系,结合Bagging策略及Boosting策略两者优势,提出了随机森林提升算法(Boosting-RF)以降低模型方差及偏差,并通过对比实验分析对所提算法进行验证。结合所提样本关注度矩阵及Boosting-RF算法,提出融合关注度矩阵的随机森林提升算法进行违约风险预测。通过对比实验的模型度量结果及模型带来的实际损失的降低,验证了所提算法在信贷风险分类任务中的有效性及实用价值。(3)基于信贷数据对象-属性空间划分的信贷客户特征研究。传统的特征降维方法会造成不同程度的信息损失且将有价值的借款人相关特征过滤。针对信贷数据维度高、信息混杂带来的客户风险特征难刻画的实际问题,本研究基于业务理解进行数据理解,结合信息流程特征及信息类别提出考虑业务流程的信贷数据属性划分方法,将全部属性划分为贷前类信息和贷后类信息共六类,其中贷前信息包括借款人基本信息类属性、贷款申请信息类属性及贷款标的信息类属性等。基于属性划分后的数据实现以不同信息维度出发,以不同变量为分类目标对借款人特征进行多角度刻画,充分挖掘贷前信息中蕴含的知识以指导授信及审批决策。结合本文所提的信贷客户细分方法,解决了信贷数据对象-属性的空间划分问题。根据所提方法,本文实现了对最高违约风险类客户、目标客户、最易误分的非违约类客户及最高潜在风险类客户等四类客户,分别以借款人基本信息、贷款申请信息及贷款标的信息为视角,以具体规则描述了客户特征,为授信批复和针对性的贷后管理提供了高价值高效的决策支持。 还原
关键词:
数据挖掘;信贷客户细分;违约风险预测;信贷客户特征;集成学习;
- 专辑:
信息科技;经济与管理科学
- 专题:
自动化技术;贸易经济;金融;投资
- DOI:
10.26945/d.cnki.gbjku.2023.000344
- 分类号:
TP181;F832.4;F724.6;F713.55
导师:
武森
学科专业:
管理科学与工程
博士电子期刊出版信息:
年期:2024年第01期
文章目录
-
摘要
-
Abstract
-
1 引言
-
1.1 研究背景
-
1.2 研究意义
-
1.3 研究内容
-
1.4 创新点
-
1.5 文章结构
-
2 文献综述与理论基础
-
2.1 互联网贷款
-
2.1.1 互联网贷款的发展
-
2.1.2 互联网贷款的主要问题
-
2.2 信贷风险评估方法
-
2.2.1 基于传统统计的方法
-
2.2.2 基于机器学习的方法
-
2.3 信贷客户特征研究
-
2.3.1 信贷客户特征刻画与用户画像
-
2.3.2 客户细分与属性划分
-
2.4 数据不均衡问题研究
-
2.4.1 数据层面
-
2.4.2 算法层面
-
2.5 本章小结
-
3 基于违约风险评级的信贷客户细分
-
3.1 问题描述
-
3.2 研究思路
-
3.3 基于违约风险评级的信贷客户细分方法
-
3.3.1 信贷客户违约风险评级策略
-
3.3.2 信贷客户细分模型
-
3.3.3 客户细分类特征刻画
-
3.3.4 信贷客户细分算例
-
3.4 H商业银行信贷客户细分实验分析
-
3.4.1 数据选取
-
3.4.2 数据预处理
-
3.4.3 实验结果
-
3.5 本章小结
-
4 基于FOMBRF模型的信贷违约预测
-
4.1 信贷违约预测存在的问题
-
4.2 融合关注度矩阵的随机森林提升算法
-
4.2.1 样本关注度矩阵
-
4.2.2 偏差-方差均衡
-
4.2.3 随机森林提升算法
-
4.2.4 融合关注度矩阵的随机森林提升算法FOMBRF
-
4.3 应用FOMBRF算法的信贷违约预测实验
-
4.3.1 数据准备
-
4.3.2 评价指标
-
4.3.3 实验结果及分析
-
4.4 本章小结
-
5 基于信贷数据对象-属性空间划分的客户特征发现
-
5.1 问题描述
-
5.2 考虑业务流程信贷数据属性划分
-
5.2.1 基于全部属性客户特征研究的不足
-
5.2.2 考虑业务流程属性划分方法
-
5.2.3 考虑业务流程的属性划分
-
5.2.4 基于信贷数据属性划分的借款人特征学习策略
-
5.3 基于数据对象-属性空间划分的信贷客户特征研究
-
5.3.1 研究思路
-
5.3.2 实验设计
-
5.3.3 数据描述
-
5.3.4 多角度信贷客户重要特征发现
-
5.3.5 多角度信贷客户特征刻画
-
5.4 本章小结
-
6 结论与展望
-
6.1 研究结论
-
6.2 研究展望
-
参考文献
02
基于深度学习的个人信用风险评估研究 ——以银行大数据为视角

基于深度学习的个人信用风险评估研究 ——以银行大数据为视角
杨德杰
中央财经大学
摘要:个人信用历来是银行衡量个人履约风险最重要的因素。近些年,随着个人借贷需求与日俱增,违约风险也随之增多,这不仅是商业银行所面临的主要风险之一,也是导致整个金融体系不稳定的重要影响因素。如何全面和准确地进行个人信用风险评估,是包括商业银行在内的金融机构风险防控的核心环节,也是不断提高商业银行风险管理水平的必然要求。而传统的信用风险评估过于依赖个人征信,在数据时效性、全面性和多样性上存在诸多不足,已不能满足当前银行个人信贷快速发展的需求。大数据时代的到来提供了多源的个人数据,丰富了个人的信用画像,特别是商业银行逐步积累起大数据资源,如何充分结合和利用银行大数据来更全面地进行个人信用风险评估,是商业银行面临的问题之一。在利用银行大数据的同时,大数据高维、稀疏的特点带来了特征选择上的困难,使得传统的信用风险评估方法无法很好地适用于大数据环境;此外,大数据环境下高噪声普遍存在,如何有效解决噪声大数据下的个人信用风险评估是亟待解决的问题;与此同时,信用风险评估数据样本不平衡的问题在大数据环境下仍然存在,会直接影响评估模型的效果。为了更好地利用银行大数据进行个人信用风险评估,解决大数据环境下高维、稀疏以及多噪声带来的问题,同时有效避免不平衡数据样本对风险评估的影响,进而从整体上提高银行对个人信用风险评估水平这一目标。本文基于人工智能研究领域较为前沿的深度学习技术,结合银行大数据的统计分析,进行了构建基于银行大数据的个人信用风险评估特征、基于生成式对抗网络的信用不平衡数据样本学习、以及建立基于堆栈降噪自编码神经网络的个人信用风险评估方法等三个方面的研究。具体而言,本文的研究工作包括以下三个方面:1.基于银行大数据构建个人信用风险评估特征。银行传统信用风险评估中使用的特征较为单一,对个人信用风险评估不全面导致信贷资源未能达到最优供给、并且违约风险增加。利用银行大数据,根据用户画像原理,构建基于银行大数据的个人信用画像,弥补了传统评估特征表达个人信用的信息不足,缓解了个人信用风险评估中的信息不对称。通过实例阐述利用大数据构建个人信用风险评估特征的完整流程,以统计分析和建模相结合,验证了银行大数据与个人信用风险的相关性,以及结合银行大数据对信用风险评估结果的贡献,并通过大数据分析得出不同信用群体的差异性画像,给利用大数据进行信用风险评估提供了参考和依据。2.基于生成式对抗网络(Generative adversarial network,GAN)的信用不平衡数据样本的学习。信用风险评估建模中往往存在数据样本不平衡的现象,而当前解决不平衡数据样本的主要方法是对少数类样本中进行局部的随机性采样,这种方式的结果是采样不准和采样失真,进而影响最终模型的评估效果。生成式对抗网络是在2014年被提出来的一种生成式学习模型,主要用来生成数据。将该方法首次应用到信用不平衡数据样本的学习中,并针对信用风险评估数据样本的特点和方法存在的问题对原始方法加以改进,提出了Focal-Loss GAN的方法,结合公开数据集以及银行不平衡信用数据进行实验对比论证,最终本文的方法在解决信用不平衡数据样本的问题中有更好的效果。3.基于深度学习的个人信用风险评估方法。该方法建立在大数据基础之上。传统的信用风险评估模型在高维、稀疏的大数据环境下会面临特征选择上的困难;此外,大数据中存在的高噪声也会影响模型的评估效果。针对上述问题,基于深度学习的框架,提出和设计了堆栈降噪自编码神经网络(Stacked Denoising Autoencoder neural networks,SDANN)算法,将此应用在银行大数据环境下的个人信用风险评估问题中。通过实验论证和对比分析,在大数据环境下利用深度学习进行信用风险评估,能更好地挖掘和表达反映个人信用的本质特征,相比于传统的特征选择方法在大数据环境中效果更好;引入降噪模型进一步提升了模型鲁棒性,提升了信用风险评估水平。本文利用银行大数据进行个人信用风险评估特征构建,可以对银行的个人信用风险进行更加全面地评估,丰富了大数据在金融机构个人信用风险评估领域中的研究与应用,提供可借鉴的利用金融大数据构建个人信用评估特征的流程和方法。基于生成式对抗网络的不平衡数据样本学习为解决数据样本不均衡问题提供了新的研究思路,进一步丰富了生成式对抗网络在金融领域问题中的应用场景。基于深度学习的个人信用风险评估方法,给出了在大数据环境下进行个人信用风险评估的一种新的解决方案,对于深度学习在金融领域,特别是大数据环境下信用风险评估领域的研究有一定的借鉴和指导意义。 还原
关键词:
信用风险评估;深度学习;大数据;特征选择;样本不平衡;维度灾难;
- 专辑:
社会科学Ⅰ辑;经济与管理科学
- 专题:
思想政治教育;金融
- DOI:
10.27665/d.cnki.gzcju.2019.000094
- 分类号:
F832.4;D64
导师:
章宁
学科专业:
经济信息管理
博士电子期刊出版信息:
年期:2021年第01期 网络出版时间:2020-12-16—2021-01-15
文章目录
-
摘要
-
Abstract
-
第一章 绪论
-
第一节 研究背景和研究意义
-
一、研究背景
-
二、研究意义
-
第二节 主要研究内容及拟解决的问题
-
一、研究内容
-
二、拟解决的问题
-
第三节 研究方法和技术路线
-
一、研究方法
-
二、技术路线图
-
第四节 创新点
-
第二章 基础理论与文献综述
-
第一节 个人信用风险理论基础
-
一、基本概念
-
二、个人信用风险成因及影响因素
-
第二节 信用风险的经济学分析
-
一、信贷的经济学基础
-
二、经济周期对信用风险评估方法的影响
-
三、信用风险评估的经济学分析
-
第三节 深度学习与大数据
-
一、深度学习
-
二、大数据
-
第四节 个人信用风险评估研究综述
-
一、相关文献研究
-
二、文献述评
-
第三章 基于银行大数据的个人信用风险评估特征构建
-
第一节 用户信用画像及个人信用风险评估特征构建流程
-
一、用户信用画像
-
二、个人信用风险评估特征构建流程
-
第二节 实验和分析
-
一、实验设计及度量指标
-
二、数据预处理
-
三、实验结果对比与分析
-
第三节 大数据特征和传统评估特征对信用风险评估影响的对比分析
-
第四节 本章小结
-
第四章 基于生成式对抗网络的信用不平衡数据样本学习
-
第一节 当前相关研究的主要方法
-
第二节 基于生成式对抗网络的信用样本数据生成算法
-
一、生成式对抗网络理论
-
二、算法的设计流程及模型改进
-
第三节 实验和分析
-
一、实验设计与度量指标
-
二、实验结果分析
-
第四节 本章小结
-
第五章 基于堆栈降噪自编码神经网络的个人信用风险评估方法
-
第一节 基于堆栈降噪自编码神经网络的信用风险模型
-
一、大数据下的个人信用风险评估特征学习
-
二、噪声大数据下的降噪处理模型
-
三、堆栈降噪自编码神经网络学习训练的整体流程
-
第二节 实验和分析
-
一、实验设计与度量指标
-
二、实验结果对比和分析
-
第三节 本章小结
-
第六章 研究结论与展望
-
第一节 研究结论
-
第二节 展望
-
参考文献
-
攻读博士期间的研究成果
-
致谢
03
数据驱动的消费金融违约风险预测方法研究

数据驱动的消费金融违约风险预测方法研究
李伟
合肥工业大学
摘要:消费是最终需求,促进消费对释放内需潜力、推动经济转型升级、保障和改善民生具有重要意义。基于此,商业银行、消费金融公司以及互联网金融企业在开展传统个人金融业务的同时,积极拓展信用卡、消费信贷和P2P借贷等多样化消费金融业务,助力推动消费市场不断扩大、消费结构持续优化。近年来,随着“互联网+”战略的深入发展,海量金融数据爆发式增长,使得信用数据呈现复杂性、多样性、异构性等特点,传统的金融数据分析方法多是采用模型驱动的策略,无法有效应对个人违约风险预测问题,导致信用违约事件频发,各类金融机构均承受着违约风险。鉴于此,亟需通过引入最新的机器学习算法,完善个人违约风险预警机制,促进消费金融市场健康、可持续发展,这对于丰富和完善消费金融信用风险管理体系具有重要的理论意义和实践价值。本文在对现有消费金融与违约风险的理论方法进行总结的基础上,凝练了消费信用数据所存在的非均衡样本、小数据以及高维特征等问题,系统研究了多场景下数据驱动的消费金融违约风险预测方法,充分运用深度学习算法,构建了基于异质集成学习、特征迁移学习以及集成深度学习的消费金融违约风险预测方法,通过实验对比分析验证了所提方法的准确性,最终解决了信用数据所呈现的问题。本文的具体研究内容和创新点如下:(1)基于异质集成学习的信用卡违约风险预测研究。分析了信用卡消费数据的非均衡样本对个人违约风险预测的显著影响,提出了一种能够克服非均衡样本问题的渐进式异质集成学习框架;构建了基于XGBoost、神经网络和逻辑回归算法的信用卡违约风险预测个体分类器,并研究了基于排序特征和离散特征的缺失值处理策略;在此基础上,构建了基于非均衡样本的信用卡违约风险预测方法。使用包括12,000组样本、122维特征的信用卡消费数据开展了对比实验研究,结果显示基于非均衡样本的信用卡违约风险预测方法与对比方法相比,具有较佳的预测精度,并且能够很好的解决非均衡样本问题。(2)基于特征迁移学习的消费信贷违约风险预测研究。剖析了消费信贷新获客时冷启动对违约风险预测所导致欠拟合的现象,提出了一种能够解决小数据问题的特征迁移学习框架,设计了面向特征和样本的相似度估计算法,迁移了与消费信贷业务相似的部分信用卡数据;构建了基于GBDT、XGBoost和LightGBM算法的消费信贷违约风险预测个体分类器;在此基础上,提出了基于小数据的消费信贷违约风险预测方法。使用包括40,000组信用卡样本和4,000条消费信贷数据所组成的消费信用数据开展了对比实验研究,结果表明基于小数据的消费信贷违约风险预测方法比基准方法具有较高的AUC性能得分和敏感度指标评分,并且能够很好的解决小数据问题。(3)基于集成深度学习的P2P借贷违约风险预测研究。分析了P2P借贷信用数据呈现高维特征对违约风险预测造成维数灾难的情况,提出了一种能够应对高维特征问题的集成深度学习框架;构建了基于深度神经网络算法的P2P借贷违约风险预测分类器,采用了随机搜索策略对超参数进行优化,以此设计并配置完成了网络的内部结构;同时,研究了信用数据中的非均衡样本现象,提出了深度神经网络模型的Bagging集成策略;在此基础上,构建了面向高维特征的P2P借贷违约风险预测方法。使用包括15,000组样本、1,138维特征的P2P借贷信用数据开展了对比实验研究,结果显示面向高维特征的P2P借贷违约风险预测方法与对比模型相比较,可以正确区分违约客户,并且能够很好的解决高维特征问题。综上所述,当前我国消费金融领域整体风险水平可控,但是作为新兴的消费金融形式其经营时间较短,风控建模水平有限,坏账控制能力还有待时间验证;并且多头借贷、恶意骗贷等信用风险和欺诈风险始终是消费金融领域面临的挑战,风险控制仍将是消费金融企业未来不变的主题。鉴于此,全文以数据风控作为消费金融风控体系的基础,融入“数据+算法+风控模型”的思想,能够真正有效的将风控系统量化衡量,打造真正的智能金融减少人工干预降低风险减少损失。对于从管理视角丰富和发展消费金融违约风险预测的方法体系,推动消费金融领域信用风险管理水平的提升,具有重要的理论意义和应用价值。新一代人工智能技术正在成为引领金融科技革命和产业变革的战略性技术,需要构建满足跨界融合、人机协同、群智开放等特征的新型风险预警机制,进一步推动信用卡、消费信贷、P2P借贷等消费金融服务产品创新。与此同时,随着互联网应用的不断深入以及人工智能技术的不断进步,文本、图像、音视频、社交关系等多类型数据即将成为构建客户画像的重要依据,对消费金融违约风险预测模型的多模态跨媒体感知、融合与推理能力提出新的更高要求。 还原
关键词:
违约风险预测;消费金融;非均衡样本;集成学习;小数据;迁移学习;高维特征;深度学习;
- 专辑:
经济与管理科学
- 专题:
贸易经济;金融
- DOI:
10.27101/d.cnki.ghfgu.2019.000509
- 分类号:
F832.4;F724.6
导师:
杨善林
学科专业:
工商管理
博士电子期刊出版信息:
年期:2020年第03期 网络出版时间:2020-02-16—2020-03-15
文章目录
-
致谢
-
摘要
-
abstract
-
第一章 绪论
-
1.1 研究背景和意义
-
1.1.1 研究背景
-
1.1.2 研究意义
-
1.2 研究目标和思路
-
1.2.1 研究目标
-
1.2.2 研究思路
-
1.3 研究内容和结构
-
1.3.1 研究内容
-
1.3.2 结构安排
-
第二章 相关理论基础与文献综述
-
2.1 相关理论基础
-
2.1.1 消费金融的内涵与特征
-
2.1.2 违约风险的内涵与特征
-
2.2 违约风险预测方法的相关文献综述
-
2.2.1 基于统计学的违约风险预测方法
-
2.2.2 基于集成学习的违约风险预测方法
-
2.2.3 基于深度学习的违约风险预测方法
-
2.3 本章小结
-
第三章 基于异质集成学习的信用卡违约风险预测
-
3.1 问题描述
-
3.2 基于异质集成学习的信用卡违约风险预测方法
-
3.2.1 考虑类别非均衡的异质集成学习框架
-
3.2.2 违约风险预测分类器构建
-
3.2.3 违约风险预测分类器训练
-
3.2.4 违约风险预测分类器集成
-
3.3 基于非均衡样本的信用卡违约风险预测方法
-
3.3.1 基于非均衡样本的渐进式异质集成学习框架
-
3.3.2 基于非均衡样本的信用卡违约风险预测分类器
-
3.3.3 基于非均衡样本的违约风险预测分类器集成
-
3.4 实例研究
-
3.4.1 信用卡信用数据描述
-
3.4.2 数据预处理与特征工程
-
3.4.3 预测结果与分析
-
3.5 本章小结
-
第四章 基于特征迁移学习的消费信贷违约风险预测
-
4.1 问题描述
-
4.2 基于特征迁移学习的消费信贷违约风险预测方法
-
4.2.1 面向特征的消费信贷违约风险预测迁移学习框架
-
4.2.2 违约风险预测分类器构建
-
4.2.3 违约风险预测分类器训练
-
4.2.4 违约风险预测分类器集成
-
4.3 基于小数据的消费信贷违约风险预测方法
-
4.3.1 基于小数据的特征迁移学习框架
-
4.3.2 面向特征和样本的信用数据迁移
-
4.3.3 基于小数据的消费信贷违约风险预测分类器
-
4.3.4 基于小数据的违约风险预测分类器集成
-
4.4 实例研究
-
4.4.1 消费信贷信用数据描述
-
4.4.2 数据预处理与特征工程
-
4.4.3 预测结果与分析
-
4.5 本章小结
-
第五章 基于集成深度学习的P2P借贷违约风险预测
-
5.1 问题描述
-
5.2 基于深度学习的P2P借贷违约风险预测方法
-
5.2.1 考虑维数灾难的深度学习框架
-
5.2.2 违约风险预测分类器构建
-
5.2.3 违约风险预测分类器训练
-
5.3 面向高维特征的P2P借贷违约风险预测方法
-
5.3.1 面向高维特征的集成深度学习框架
-
5.3.2 基于Bagging策略的数据抽样
-
5.3.3 面向高维特征的P2P借贷违约风险预测分类器
-
5.3.4 面向高维特征的违约风险预测分类器训练
-
5.3.5 面向高维特征的违约风险预测分类器集成
-
5.4 实例研究
-
5.4.1 P2P借贷信用数据描述
-
5.4.2 数据预处理与特征工程
-
5.4.3 预测结果与分析
-
5.5 本章小结
-
第六章 总结与展望
-
6.1 研究总结
-
6.2 研究展望
-
参考文献
-
读博士学位期间的学术活动及成果情况
04
基于大数据的个人信用风险评估模型研究

基于大数据的个人信用风险评估模型研究
张万军
对外经济贸易大学
摘要:“互联网+”已经被提升为中国国家战略高度。以淘宝、京东等为代表的电子商务网站,以微信APP、QQ为代表的社交平台以及支付宝、微信支付为代表的在线支付工具已经深入到我们每个人的日常生活,互联网支付、众筹融资、P2P借贷、在线理财、网络贷款等各种形式的互联网金融服务在我国呈现出生机勃勃的发展景象,互联网和大数据已经对国民经济的很多领域以及商业模式产生了深远的影响。如何全面和准确地评估个人信用风险状况,并在此基础上开展个性化的授信金融服务,既是商业银行、小额贷款公司等传统金融机构风险控制的核心环节,也是P2P等新兴互联网金融机构业务经营过程中的痛点,持续攀升的不良贷款率更是倒逼这些金融机构不断提升风险管理水平。各类金融机构在个人信用风险评估环节中,过于倚重央行的个人征信系统,该系统收录的自然人数达8.6亿多,但其中仅有3亿多人有信贷记录,且信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在短板。大数据为个人信用风险评估提供了一种新的方法。通过将用户在互联网上网购、交易、社交等平台的商誉和行为数据进行整合和分析,将分散在不同网络平台和信贷机构的局部信息加工融合成为具有完整视图效果的全局信息。深度挖掘互联网大数据信息,将用户商誉和行为信息转化为信贷评级依据,开发大数据风控模型,弥补央行个人征信信息的不足,解决交易过程中的信息不对称的问题,既可以对互联网金融平台、小额贷款公司等金融机构提供一个有力的风险抓手,也可以为央行征信系统信贷数据缺失或者信用记录不好的用户提供一个获取信用类服务的机会。无论是线上还是线下的用户消费、社交数据,都有着不同于传统征信信息的独有特征,使得传统个人信用风险评估模型和方法在大数据环境下无法取得满意效果:(1)数据的稀疏性强。用户线上线下的行为散布广泛,极难全量收集和覆盖;用户行为偏好亦各有不同,在不同门类的行为差异很大。(2)数据覆盖面广。信息覆盖面广泛,支付宝或微信都有超4亿活跃用户,用户行为覆盖服装、书籍、租房、休闲、娱乐等各方面,单指标维度超过1000个。(3)单变量风险区分能力弱。不同于传统风险模型采用的历史履约情况、个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量。传统信用风险评估模型在业务逻辑架构下,利用数据驱动或专家经验开发模型模板,最终结合逻辑回归、判别分析等统计分析模型得到精准的计量结果。然而在新的数据画像和业务情景下,原有的业务逻辑框架和传统统计分析模型的应用都受到严重限制。近几年,以决策树、神经网络等为代表的机器学习技术得到飞速发展,在信息识别、推荐引擎等领域都取得了出色的应用效果。如何结合传统风险评估模型体系和机器学习技术,在保证业务逻辑和评分广泛应用的前提下,更加精准的评估风险是一个值得研究的课题,本文的研究内容在这方面是一个有益的尝试。鉴于此,本文针对基于大数据的个人信用风险评估模型体系,重点研究下述关键内容:(1)通过对模型的数据基础、表现定义及逻辑、样本分类和抽样方案等建模基础信息进行详细分析,提出大数据环境下的个人信用风险评估模型——creditnet研究框架,将creditnet模型划分为三个研究阶段,逐步限定技术要点,开展模型构建研究。(2)针对creditnet模型研究框架的第一个阶段,本文将用户画像的概念引入个人信用风险评估领域,从六大维度构建用户信用画像,解决了大数据环境下个人信息的有效收集和组织问题,并通过变量衍生的方法增强单变量的风险区分能力。在此基础上,从数据收集、数据核对和数据清洗等方面对大数据的预处理方法进行了阐述,结合对单变量分析和多变量分析方法,为大数据环境下个人信用风险评估模型的研究奠定了数据基础。(3)针对creditnet模型研究框架的第二个阶段,本文将机器学习理论中的随机森林模型与logisitc回归模型进行结合,构建rf-l核模型,生成了一系列具有风险评估能力的子模型。在进行统计建模前,利用随机森林中的chaid决策树进行分析,并生成二元决策树变量,然后将随机森林模型的输出结果导入logistic回归模型中进行统计建模,为大数据信息转变为风险评估依据奠定了模型基础。(4)针对creditnet模型研究框架的第三个阶段,本文提出将机器学习理论中的adaboost集成学习算法应用到对rf-l核模型生成的一系列评估子模型的集成研究中,通过对不同评估能力的子模型进行集成,增强了最终模型的评估效果。(5)基于上述研究,进一步验证CreditNet模型的效果。本文从CreditNet模型的区分能力、稳定性等方面进行了测试,将CreditNet模型与其他模型的评估效果进行了对比分析,并在某股份制商业银行和某P2P公司的业务中对CreditNet模型进行了实证分析,对CreditNet模型的应用场景进行了展望。 还原
关键词:
大数据;个人信用风险;评估模型;随机森林;
- 专辑:
经济与管理科学
- 专题:
金融
- 分类号:
F832.4
导师:
林汉川
学科专业:
产业经济学
博士电子期刊出版信息:
年期:2017年第06期 网络出版时间:2017-05-16—2017-06-15
文章目录
-
摘要
-
Abstract
-
第1章 绪论
-
1.1 选题背景与研究意义
-
1.1.1 研究背景
-
1.1.2 研究意义
-
1.2 研究框架、研究内容与论文结构
-
1.2.1 总体研究框架
-
1.2.2 主要研究内容
-
1.2.3 论文结构框架
-
1.3 研究思路、方法与技术路线
-
1.3.1 研究思路
-
1.3.2 研究方法
-
1.3.3 技术路线
-
1.4 研究重点和难点
-
1.5 论文可能的创新点与不足之处
-
第2章 相关研究文献综述
-
2.1 互联网金融风险研究
-
2.2 大数据与金融研究
-
2.3 信用风险及评估模型研究
-
2.4 个人信用评分系统研究
-
2.5 国内外研究现状述评
-
2.5.1 研究现状述评
-
2.5.2 有待进一步研究的问题
-
第3章 大数据环境下个人信用风险评估模型研究框架
-
3.1 引言
-
3.2 数据基础
-
3.3 表现定义及逻辑
-
3.4 样本分类和抽样方案
-
3.5 CreditNet模型的逻辑架构
-
3.6 CreditNet模型的研究架构
-
第4章 基于大数据的用户画像与数据预处理方法
-
4.1 引言
-
4.2 用户画像及其构建方法
-
4.2.1 用户画像的概念
-
4.2.2 用户画像的构建
-
4.3 构建用户信用画像
-
4.4 变量衍生
-
4.5 大数据预处理
-
4.5.1 数据收集
-
4.5.2 数据核对
-
4.5.3 数据清洗
-
4.6 单变量分析
-
4.7 多变量分析
-
4.8 大数据的处理流程
-
第5章 个人信用风险评估RF-L核模型
-
5.1 引言
-
5.2 Bootstrap抽样
-
5.3 决策树模型
-
5.3.1 决策树概述
-
5.3.2 决策树节点纯度的度量
-
5.3.3 决策树节点分裂算法
-
5.3.4 决策树的剪枝
-
5.3.5 决策树模型的不足之处
-
5.4 随机森林模型
-
5.4.1 随机森林概述
-
5.4.2 随机森林相关理论
-
5.4.3 随机森林的构建
-
5.4.4 随机森林的随机性分析
-
5.5 Logistic回归模型
-
5.6 构建RF-L核模型
-
第6章 大数据环境下的集成学习算法
-
6.1 引言
-
6.2 分类器集成
-
6.3 AdaBoost集成学习算法
-
6.4 分类子模型的集成
-
第7章 测试结果、实证效果与应用展望
-
7.1 测试结果分析
-
7.1.1 重要变量区分能力分析
-
7.1.2 交互型变量区分能力分析
-
7.1.3 模型区分能力及稳定性分析
-
7.1.4 模型结果对比分析
-
7.2 CreditNet模型实际测试结果
-
7.2.1 某股份制商业银行测试结果
-
7.2.2 某P2P公司测试结果
-
7.3 应用场景展望
-
7.3.1 授信审批自动化
-
7.3.2 征信多元化
-
7.3.3 风险监控与预警及时化
-
第8章 结论
-
8.1 模型优点总结
-
8.2 下一步研究方向
-
参考文献
-
致谢
-
个人简历 在读期间发表的学术论文与研究
05
博士毕业论文难度很大
1.金融博士的培养周期相对固定,毕业门槛明确,尤其是在学术期刊发表方面有硬性要求,整体挑战不小。多数院校要求在核心刊物(如SSCI、CSSCI)上发表1篇,或在普通审稿期刊上发表2篇论文。这是申请答辩的前置条件。
2.国内高校对博士论文质量有多重监管环节,包括开题、中期检查、预答辩、学术不端检测、隐名评阅和正式答辩。
3.全国博士论文抽检数据显示,经济学门类的合格率低于平均水平,反映出该领域博士学位论文的挑战性较大。全国博士学位论文抽检数据揭示了宏观层面的情况。经济学博士论文的合格率在主要学科门类中相对靠后。专家评阅意见指出,“分析论证”、“对学科现状的了解”和“研究方法” 是经济学门类不合格论文最集中的问题领域。这意味着你的论文不仅要有严谨的逻辑和深度,还必须建立在扎实的文献基础和科学的研究方法之上。
4.不同学校有具体规定。例如,澳门城市大学金融学院要求发表论文须与毕业论文相关,并明确了署名单位。湖南大学金融与统计学院则对期刊级别和论文数量有进一步要求。
06
给博士用户建议
1.尽早熟悉规则:入学后,第一时间详细了解所在学院的具体毕业要求,包括学分、讲座次数、期刊发表标准和论文流程。
2.与导师建立良好沟通:导师的指导至关重要。尽快确定导师,并在研究选题、论文写作和期刊投稿上积极寻求帮助。Toby老师在多年经验总结出,毕业论文光靠能力是不够的,如果和导师关系紧张,也可能被鸡蛋里挑骨头,处境艰难。
3.将发表纳入时间表:不要将期刊发表任务留到最后。从博士阶段早期就开始积累研究想法,尝试写作,并了解目标期刊的风格。博士毕业论文前提是先发期刊论文,而很多期刊论文目前排队较长,因此要提前规划。
4.高度重视论文质量:在论文写作中,要特别关注文献综述的深度、研究方法的科学性以及分析论证的严谨性,这些都是避免在抽检和答辩中出问题的关键。博士毕业论文都是盲审,盲审通过率远低于非盲审。因此论文质量是通过的基础。
5.如果不清楚期刊选择和写作,可以参考我们汇总的文章《金融风控期刊论文投稿和写作指南汇总》
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
更多推荐

所有评论(0)