消费金融风控岗位的发展如何?
---高分回答---
金融风控岗位非常重要,收入也很高,有策略,模型,数据分析,审批,反欺诈,反洗钱等重要岗位。下面介绍一下风控常用术语,收藏后对工作有帮助
1、风控系统部分
1.Blaze
blaze是FICO公司产品,用于规则管理,是模型ABC卡开发的前身。信贷公司开始放贷时,数据量少,申请用户少,难以建立模型。因此前期一般会用到专家经验判断好坏客户,然后通过风控决策管理系统进行高效作业,其中blaze就是一款应用多年,效率较高风控决策管理系统。但blaze属于商业产品,一般多应用于大银行,捷信等大型消费金融公司,收费可高于100万RMB每年,如果需要更多定制业务,收费更高。
1.1 A card
释义:Application scorecard 申请评分卡,对授信阶段提交的资料赋值的规则。
举例:“进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再满足于简单的if、else逻辑,而是希望对各个资料赋予权重和分值,根据用户最后综合得分判断风险,通过划定分数线调整风险容忍度,评分卡应运而生。评分卡是逻辑回归算法的一种衍生。
1.2 B card
释义:Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则。
举例:与
A
卡类似,B卡也是一套评分规则,在贷款发放后,通过收集用户拿到钱后的行为数据,推测用户是否会逾期,是否可以继续给该用户借款。例如用户在某银行贷款后,又去其他多家银行申请了贷款,那可以认为此人资金短缺,可能还不上钱,如果再申请银行贷款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客户模型,找出价值较高客户,增加贷款额度模型等等。
1.3 C card
释义:Collection Scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则。举例:催收评分卡是行为评分卡的衍生应用,其作用是预判对逾期用户的催收力度。对于信誉较好的用户,不催收或轻量催收即可回款。对于有长时间逾期倾向的用户,需要从逾期开始就重点催收。逾期天数越多,催收难度越大。
催收一般分为多个坐席,M1,M2,M3等不同坐席员工经验和业务能力相差甚大。AI人工智能常用于前期自动化催收。
申请评分卡、行为评分卡和催收评分卡常合并称为“ABC卡”,应用在贷前、贷中和贷后管理。。。。。。。。

2、风控指标部分
- 1 Aging Analysis
释义:账龄分析。显示各期至观察点为止的延滞率,其特点为结算终点一致,把分散于各个月的放贷合并到一个观察时间点合并计算逾期比率。
- 2 Vintage Analysis
释义:统计每个月新增放款在之后各月的逾期情况,同样也是账龄分析。与aging analysis不同,vintage以贷款的账龄为基础,观察贷后N个月的逾期比率。也可用于分析各时期的放贷后续质量,观察进件规则调整对债权质量的影响。举例:Deliquency Vintage 30+:表现月逾期30+剩余本金/对应账单生成月发放贷款金额。风控中英文术语手册(银行_消费金融信贷业务)_v4_术语手册
- 3 C 、M
释义:C和M是描述逾期期数bucket的专有名词。M0为正常资产,Mx为逾期 x 期,Mx+为逾x期(含)以上。无逾期正常还款的bucket为M0,即C,M1即逾1期(1-29天) 。M2+即逾2期及以上(30+) 。M2和M4是两个重要的观察节点,一般认为M1为前期,M2-M3为中期,M4以上为后期,大于M6的转呆账。
- 4 Delinquency
释义:逾期率/延滞率。评价资产质量的指标,可分为Coincident和Lagged两种观察方式。
- 5 Coincident
释义:即期指标。用于分析当期所有应收账款的质量,计算延滞率。计算方式是以当期各bucket延滞金额除以本期应收账款(AR)总额。Coincident是在当前观察点总览整体,所以容易受到当期应收账款的高低导致波动,这适合业务总量波动不大的情况下观察资产质量。举例:常看的一个指标Coincident DPD 30+
- 6 Lagged
释义:递延指标。与coincident相同也是计算延滞率的一个指标,区别是lagged的分母为产生逾期金额的那一期的应收账款。Lagged观察的是放贷当期所产生的逾期比率,所以不受本期应收账款的起伏所影响。举例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6
月末资产余额M1(1-29天): 统计月份月末资产中满足 1≤当前逾期天数≤29 的订单剩余本金总和,当前逾期天数为订单当前最大逾期天数,不包含坏账订单。Lagged M1 =月末M1的贷款余额/上个月底的贷款余额(M0~M6)
风控中英文术语手册(银行_消费金融信贷业务)_v4_风控_02
- 7.0 PD(Past Due)
例如FPD1,SPD7,TPD30...前面的字母,F:first,表示第一期逾期,同理 S,T,Q分别表示二 三 四, 后面会用数字表示。如5PD30。后面的数字, 指逾期天数,如果一个客户身上有FPD30的标记,那必然有FPD1 FPD7等小于30的标记。dpd(days past due)逾期天数,贷放型产品自缴款截止日(通常为次一关账日)后一天算起。4期中,任意一期逾期天数超过30天就算坏客户
需注意的一点,PD类指标通常互斥,也就是说一个人如果有了FPD标志就不会有SPD标志,SPD表示第一期正常还款但是第二期才出现逾期的客户。
- 7 DPD
释义:Days Past Due 逾期天数,自还款日次日起到实还日期间的天数。举例:DPD7+/30+,大于7天和30天的历史逾期。业内比较严格的逾期率计算公式为:在给定时间点,当前已经逾期90天以上的借款账户的未还剩余本金总额除以可能产生90+逾期的累计合同总额。其分子的概念是,只要已经产生90天以上逾期,那么未还合同剩余本金总额都视为有逾期可能,而分母则将一些借款账龄时间很短的,绝对不可能产生90+逾期的合同金额剔除在外(比如只在2天前借款,无论如何都不可能产生90天以上逾期)。
- 8 FPD
释义:First Payment Deliquency,首次还款逾期。用户授信通过后,首笔需要还款的账单,在最后还款日后7天内未还款且未办理延期的客户比例即为FPD 7,分子为观察周期里下单且已发生7日以上逾期的用户数,分母为当期所有首笔下单且满足还款日后7天,在观察周期里的用户数。常用的FPD指标还有FPD 30。举例:假设用户在10.1日授信通过,在10.5日通过分期借款产生了首笔分3期的借款,且设置每月8日为还款日。则11.08是第一笔账单的还款日,出账日后,还款日结束前还款则不算逾期。如11.16仍未还款,则算入10.1-10.30周期的
风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_03
FPD7的分子内。通常逾期几天的用户可能是忘了还款或一时手头紧张,但FPD 7 指标可以用户来评价授信人群的信用风险,对未来资产的健康度进行预估。与FPD 7 类似,FPD 30也是对用户首笔待还账单逾期情况进行观察的指标。对于逾期30天内的用户,可以通过加大催收力度挽回一些损失,对于逾期30天以上的用户,催收回款的几率就大幅下降了,可能进行委外催收。如果一段时间内的用户FPD 7较高,且较少催收回款大多落入了FPD 30 内,则证明这批用户群的non-starter比例高,借款时压根就没想还,反之则说明用户群的信用风险更严重。
- 9 Cpd30mob4
cpd用于催收模型,是催收指标,还款表现第四个月月末时点逾期是否超过30天,不包括历史
- 0 maxdpd30_mob4
四个观察期(月)内,逾期是否超过30天,包括历史
- 1 MOB在账月份
放款后的月份举例:MOB0,放款日至当月月底
MOB1,放款后第二个完整月份
MOB2,放款后第三个完整月份
mob3-3个月为短观察期,mob6-6个月为长观察期
- 2 Flow Rate
释义:迁徙率。观察前期逾期金额经过催收后,仍未缴款而继续落入下一期的几率。举例:M0-M1=M月月末资产余额M1 / 上月末M0的在贷余额
8月M0-M1 :8月进入M1的贷款余额 / 8月月初即7月月末M0的在贷余额
补充信息:宏观经济中
短期风险可以使用FDP,SPD,TPD进行衡量;中期风险可以使用30+@MOB4;长期风险使用90+@MOB6等
To measure the short-term risk, FPD,SPD,TPD could be used; To measure the middle-term risk, 30+@MOB4 could be used; To measure the long-term risk, 90+@MOB6 could be used;
不同产品应用不同指标
Fpd30(现金贷产品)
maxdpd30_mob4 (存量客户)
Cpd30mob4(催收客户)
汽车贷坏客户定义(仅做参考)
风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_04
说明:由于场景细分,不同场景差异化较大,以上指标说明仅做参考。
3.3 RPC:Right Public Concact,能有效的联系人,通过电话催收可以找到的客户本人或直属亲属。
3.4 PDP: Promise To Pay,承诺在某个前线内归还一定金额的欠款。
3.5 inptp :是否在承诺还款期限内,以最新一次覆盖为准。
3.6 入催:特指进入待催任务列表,不一定与逾期天数逾期金额相关,如宽限队列,强制入催。
3.7 出催:特征退出待催任务列表,退出条件与入催原因相关。
3.8 降期:指归还部分逾期欠款,满足逾期天数最高的账单或合同金额,降至下一级逾期阶段,如M3降至M2,在多账单多产品合同产品中常见。
3.9 队列:催收分案专用名词,比如内催队列、委外队列、宽限队列、外访队列,对应相应的催收手段。
4.0贷后员工效能指标
4.0.1运营指标
覆盖率:档期完成跟进客户数/当日需跟进客户数
投诉率:定性为有效投诉的客户数/在催客户数
PTP率(下P率):获得承诺还款客户数/在催客户数
跟P率:P期结束当天有跟进记录客户数/承诺应还款客户数(也可选择统计P期期间有跟进记录的为分子)
KPTP率:兑现承诺次数/承诺诺还款次数
人均在案:待催客户数/催收员数量
4.0.2呼叫指标
外呼电话通数/外呼电话时长
工时利用率:外呼电话时长/在线时长(工作时长)
接通率:外呼接听次数/ 外呼次数
有效通话时长:外呼通常接听动作后时长
平均通话时长:总通话时长/出勤日数量
呼损率:呼通但接听失败的通数/外呼电话通数
5.贷后监控指标
失联率:三种定义方向,外呼结果、催收表示、规则定义
短信成功率:短信发送成功数量/短信发送数量
批扣成功率:批扣成功数量/批扣客户数
新增逾期率:逾期客户数/到期客户数(剔除已提前结清)
留存率:T+N日仍在催客户数(金额)/T日入催客户数(金额)
恶意拖欠率:放款后90天以上无任何还款记录人数/放款人数(金额)
3、风控模型部分
3.1 Benchmark释义:基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对。
3.2 IV释义:information
value 信息值,也称VOI,value of
information,取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。金融风控筛选变量阈值为0.02。如果变量的iv低于0.02,那么变量就会被踢除。我作为模型专家提醒大家,iv值不能死记硬背,需要根据自己场景数据分布特点来定制阈值。不同场景变量iv值分布差异可能较大,例如放贷,车贷和现金贷。

3.3 K-S value释义:K-S指klmogrov-smirnov,这是一个区隔力指标。所谓区隔力,是指模型对于好坏客户的区分能力。K-S值从0-1,越大越好,越小越差。真实场景中风控领域的模型ks能超过0.4的很少。

3.4 PSI
释义:population
stability
index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。PSI越接近0,模型稳定性越好。当PSI小于0.1时表示模型比较稳定,当psi在0.1和0.25之间时模型稳定性出现波动,需要检查模型,如果必要,需要重新开发模型。

3.6 Logloss
释义:对数损失函数
当预测概率接近1时,对数损失缓慢下降。但随着预测概率的降低,对数损失迅速增加。对数损失值越大时,模型精确度越差,反之亦然。

3.7 Training Sample
释义:建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有off-time sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。
3.8 WOE释义:weight
of
ecidence,证据权重,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强。评分卡模型的数据需要把原始数据转换为woe数据,从而减少变量的方差,使其平滑。IV值也是由woe值转换而来。由于woe在评估变量时有一定缺陷,因此一般用iv值评估变量重要性。

3.9 Bad Capture Rate
释义:坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。举例:Top 10% Bad Capture Rate是指模型评估出的最坏用户中的前10%用户,在样本中为坏用户的比率。
3.10 Population释义:All Population,全体样本用户,包含建模样本与验证样本。
3.11 Variable释义:变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。建模前变量是需要筛选的。大数据模型中,百分之90%以上变量是噪音变量。真正有用变量是其中极少部分。
3.12 CORR释义:相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。相关系数计算要看数据分布,如果数据呈现正太分布,用皮尔森方法准确率较高;反之用斯皮尔曼方法更合适。
3.13 混淆矩阵confusion matrix
sensitivity:真阳性条件下,测试也是阳性
specificity:真阴性条件下,测试也是阴性
FALSE positive:真阴性条件下,测试却是阳性
FALSE negative:真阳性条件下,测试却是阴性

3.14 模型算法
逻辑回归(logistic regression)
logistic回归是一种广义线性回归(generalized
linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有
w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y
=w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p
与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。

评分卡模型(scorecard model)评分卡模型是逻辑回归算法的一个衍生算法。应用woe分箱和分数拉伸技术,把逻辑回归概率分转换为标准分。标准分类似FICO分数或芝麻信用分数,范围从300分-900分。下图为评分卡计分模式

评分卡相关教程入口1(推荐)
https://ke.qq.com/course/3063615?tuin=dcbf0ba
评分卡相关教程入口2
https://study.163.com/course/courseMain.htm?courseId=1005214003&share=2&shareId=400000000398149
支持向量机(Support Vector Machine, SVM)
支持向量机(Support
Vector Machine, SVM)是一类按监督学习(supervised
learning)方式对数据进行二元分类的广义线性分类器(generalized linear
classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin
hyperplane)。SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern
recognition)问题中有得到应用。支持向量机算法在小样本数据效果较好,训练大数据时耗时较长。

神经网络( Neural network )
逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生的想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布存储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。
注意:计算机神经网络和人脑生物神经网络运作原理是不同的。
有点:处理大数据高效,可处理复杂和多维数据,灵活快速
缺点:数据需要预处理

xgboost
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在
Gradient Boosting
框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。xgboost是集成树算法,由陈天奇发明,该算法在kaggle竞赛多次夺冠

lightgbm
Light Gradient Boosted Machine,简称LightGBM,是一个开源库,提供了梯度提升算法的高效实现,微软公司开发算法,综合性能优于xgboost。
LightGBM 通过添加一种自动特征选择以及专注于具有更大梯度的提升示例来扩展梯度提升算法。这可以显着加快训练速度并提高预测性能。
与其他 boosting 相关框架相比,它具有以下优势——
- 在不影响效率的情况下更快地训练速度。
- 内存使用率也很低。
- 它提供了更好的准确性。
- 它支持并行和GPU两种学习方式。
- 它具有处理大规模数据的能力。

catboost
俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。
catboost特点:
少量或无需调参,默认参数效果非常好
支持分类变量
支持GPU


Ngboost
斯坦福 ML Group最近在他们的论文 Duan et al., 2019 中发表了一种新算法,其实现称为 NGBoost。该算法通过使用自然梯度将不确定性估计包括在梯度提升中。

NGBoost 是一种新的提升算法,它使用自然梯度提升,一种用于概率预测的模块化提升算法。该算法由基学习器、参数概率分布和评分规则组成。


xgboost,catboost,lightgbm,ngboost相关教程入口1(推荐)
入口2
4、风控基础词汇部分
4.1 APR
释义:Annual percentage rate,年度百分率,一年一次复利计息的利率。nominal APR名义利率,effective APR实际利率。
4.2 AR
释义:accounts receivable,当期应收账款。
4.3 Application fraud
释义:伪冒申请
4.4 Transaction fraud
释义:欺诈交易
4.5 Balance Transfer
释义:余额代偿,即信用卡还款业务。
4.6 Collection
释义: 催收。根据用户入催时间由短到长,分为Early collection(早期催收)、Front end(前段催收)、Middle
range(中段催收)、Hot core(后段催收)Recovery(呆账后催收/坏账收入)这几个阶段,对应不同的催收手段和频率。
4.7 DBR
释义:debit burden ratio,负债比。通常债务人的在各渠道的总体无担保负债不宜超过其月均收入的22倍。
4.8 Installment
释义:分期付款
4.9 IIP
释义: 计提的坏账准备
4.10 PIP释义:资产减值损失
4.11 NCL
释义:net credit loss,净损失率。当期转呆账金额减去当期呆账回收即为净损失金额。
4.12 Loan Amount
释义:在贷总额
4.13 MOB
释义:month on book 账龄
举例:MOB0,放款日至当月月底。MOB1,放款后第二个完整月份
4.14 Non-starter
释义:恶意逾期客户
4.15 Payday Loan释义:发薪日贷款。无抵押的信用贷款,放款速度快,额度低,期限短但利率高。额度低和高利率是该模式的必要条件。
4.16 Revolving释义:循环信用。提钱乐信用钱包给用户的就是循环额度,相对应的还有医美、教育类的专项额度。
4.17 WO释义:Write-off ,转呆账,通常逾期6期以上转呆账。
4.18 AR
AR授信通过率=SUM(贷款申请通过账户)/SUM(申请账户)
4.19 DR
DR违约率=SUM(发生违约账户)/SUM(使用授信账户)
4.20 EAD
EAD授信敞口=SUM(C0+M1+M2+...+M6+)
4.21授信转化率
授信转化率=SUM(使用授信账户)/SUM(申请账户)
4.22延滞率/递延率(flow through%)
计算可分为coincidental及lagged两种方式,除了各bucket延滞率之外,也会观察特定bucket以上的延滞率。如M2+lagged%及M4+lagged%等指标,以M2+lagged%为例,分母为两个月前应收账款,分子为本月M2(含)以上尚未转呆账的逾期金额。在消费金融风险管理上,M2及M4是两个重要的观测点,原因是客户可能因为太忙或者忘记造成的账款逾期,但是经过M1催收后依旧落入M2以上,可确认为无力缴款或蓄意拖欠。

4.23不良率(bad%)
bad的应用除了一般的风险分析外,信用评分模型的建置也需要实现确定bad定义。
一般bad的定义除了逾期户、高风险账户等,当前以逾期户为主。
4.24转呆账率(write-off%)
简写为wo%,当月转呆账金额/逾期开始月的应收账款。经过年化之后,月转呆账率转换为年损失率。
4.25净损失率(NCL)
其定义为:当期转呆账金额-当期呆账回收,亦即为净损概念。就整体风险管理绩效观点来看,呆账后回收亦为以重要一环,所以NCL%与WO%常常一并显示。
4.26拨贷率
又称拨贷比,是指拨备占总贷款的比例,拨贷率越高,说明该银行的防御坏帐风险能力越强。计算公式为:拨备余额/贷款总额=拨备覆盖率*不良贷款率。
4.27拨备覆盖率
也称拨备充足率,实际上是银行贷款可能发生的呆、坏帐准备金的使用比例,拨备覆盖率是实际计提贷款损失准备对不良贷款的比率,该比率最佳为100%。计算公式为:贷款损失准备金/不良贷款余额。
4.28不良贷款率
指金融机构不良贷款占总额贷款余额的比重。不良贷款指在预估隐含贷款质量时,把贷款按风险基础分为正常、关注、次级、可疑和损失5类,其中后3类合称为不良贷款。计算公式:不良贷款率=(次级类贷款+可疑类贷款+损失类贷款)/各项贷款*100%=贷款拨备率/拨备覆盖率*100%。贷款拨备率和不良贷款率、拨备覆盖率是商业银行业资产质量的三个基本指标。
4.29负债比(DBR)
负债比(debit burden ratio,DBR)是银行关注的主要指标衡。量借款人还款压力的常用指标,总无担保债务归户后的总余额(信用卡、现金卡、信用贷款)/平均月收入。
4.30 恶意延滞率(non-starter%)
原始定义为“贷后从未缴款客户”,主要目的为找出恶性欺诈的案件。
4.31命中率(hit%)
用于信用卡的中途授信及早期预警报表,所谓命中率意指控管后一定期间内客户发生延滞的几率。命中率过低可能表示浮滥或风险判断方向有误。
4.32 可用余额(OTB)
常与命中率指标一同出现,计算方式为先找出证实控管命中的客户,再会整这些客户遭控管时的信用卡可用余额,此数字可视为银行因控管而减少的损失。
4.33呆账回收率
本期呆账回收率=本期呆账回收/本期转呆账金额
本期总呆账回收率=本期呆账回收/前期呆账总余额
本年呆账回收率=本年度呆账总回收金额/本年度平均呆账余额
近12期呆账回收率=近12期呆账回收总金额/近12期平均呆账余额
转呆账后12期回收率=转呆账后12期总回收金额/转呆账后12期平均呆账
余额

5.数据字典
client_no:客户账户
apply_time:申请时间
gender:性别
age:年龄
income_range:收入范围
education:教育程度;
carreer:工作;
credit_score:信用分数;
credit_score_range:信用分数范围;
if_approved:是否通过;
prob_df:可能违约概率;
if_due:是否逾期;
used_time:贷款使用次数;
credit_approved:授信通过金额
5.金融风控建模实战经典教学案例
5.1 德国银行信用数据集(German credit)
5.2 kaggle模型竞赛give me some credit数据集
5.3江苏城投企业信用评级
5.1-5.3相关教程入口1(推荐)
5.1-5.3相关教程入口2
5.4 美国金融科技公司lendingclub信贷数据集
5.5 消费者人群画像—信用智能评分
举办单位福建省数字福建建设领导小组办公室 & 福建省工业和信息化厅 & 福州市人民政府 & 中国电子信息产业发展研究院 & 数字中国研究院 & 中国互联网投资基金
5.4-5.5相关教程入口1(推荐)
5.4-5.5相关教程入口2
6、金融信息收集网站
6.1tradingeconomics
官网https://tradingeconomics.com/,包含世界各国数百个经济指标,包括GDP,CPI,PPI,负债率,大宗商品价格指数等等。
6.2 FRED economic data
官网https://fred.stlouisfed.org/,金融数据查询
6.3 日本银行
https://www.boj.or.jp/
6.4 wind数据库
官网:https://www.wind.com.cn/Default.html,中金公司金融行业数据库
6.5 纸黄金
黄金价格和交易量查询,有具体数据下载http://www.zhijinwang.com/etf/
6.6股票/债券市场舆情分析和预警相关网站
万得(https://www.wind.com.cn/)
东方财富网(https://www.eastmoney.com/)
和讯数据(http://data.hexun.com/)
彭博(https://www.bloomberg.net/)
6.7反洗钱调查
FATFhttp://www.fatf-gafi.org/
反洗钱金融行动特别工作组
。西方七国为专门研究洗钱的危害、预防洗钱并协调反洗钱国际行动而于1989年在巴黎成立的政府间国际组织,是目前世界上最具影响力的国际反洗钱和反恐融资领域最具权威性的国际组织之一。目前包括36个成员管辖区和2个区域组织,代表全球各地的大多数主要金融中心。其制定的反洗钱四十项建议和反恐融资九项特别建议(简称
FATF 40+9项建议),是世界上反洗钱和反恐融资的最权威文件
6.8企业理财公告信息智能提取,助力银行客户经理营销
巨潮资讯网(http://www.cninfo.com.cn/new/index)
银行家年鉴(https://accuity.com/)
道琼斯(https://www.dowjones.com/)
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
没有找到相关结果
5 个回复
一盏粗茶
谢邀。需要看你风控具体是做什么工作。如果是风控模型建设的话可能你学的有用。但是消费金融公司风控一般就是信审,主要就是审批客户的贷款。好处就是能具体看客户资料,对于什么样的客服能批多少钱有一个了解和把握,对于公司产品了解的也很多。但是坏处就是了解而已,精通,不知道市场。一般跳出来的话去小贷公司做风控,风控听起来很高上大,实际上做的事情很靠经验,经验丰富就值钱。看你的岗位到底是管理岗还是审批岗了,如果能到管理岗,制定风控政策的层面会好很多。一般不能跳进券商,完全不一样的行业。
手机码子,有帮助就点个赞吧哈哈。
萧萧慕雨
消费金融和银行之类的差别有点儿大,说起来有一部分工作有点儿像金融衍生品,只是有点儿哈。
国内的消费金融的风控分两个板块,一个是信审、一个是模型。
因为消费金融的放款额度往往比较小,所以要求业务量大才能赚钱,这就意味着不能再风控上花太多人力。所以消费金融的风控把大部分风控措施都放在网络数据采集和风控模型的建立上,做到让系统自动审核,而人工管理的,主要是一些系统无法区分的信息,还有部分身份识别的工作(以及确认客户业务的真实性,避免被针对性的骗贷)
这种情况下,负责信审的岗位往往就是个简单的识别工作,识别人脸(现在有人在搞人脸自动识别,效果嘛不太清楚),识别合同的真实性,核对一些文字化的信息等等。给的工资也比较低,我调查的在深圳的几千块钱一个月,在北京的有才给4000的。
另一端是做风控模型,另外模型建好了,得有数据啊,有些是直接和一些征信公司对接的,据说现在还没收费,但征信信息收费估计也快了。也有自己和政府机关、电信等对接,自己扒数据的,这个难度有点儿高。因为这端的风控一般是一个懂风控系统的人带着一堆程序员和数据分析的人在做,所以有些公司把这个叫“策略”,而非风控,不过我觉得还是该算风控吧。这个部门的工资比较高,在北京和深圳,高的两三万,低的一万多。上海的消费金融公司我没去调查过,不知道他们的工资水平,但估计也和北京深圳差不多。
当然,这个高只是和公司内的人相比,看知乎上的程序员,估计程序员在其他新兴公司应该都能达到这个水平吧。那个风控主管就不好说了, 在成都能做出一个风控体系来,带出一个风控部门来的人,工资应该在年薪20万以上,但相应的岗位很少,北上深至少应该在40万以上,同等职位,北京深圳的工资大概在成都2~3倍的样子。但同样的,即使在北京深圳,风控主管的岗位也很少,能意识到这个岗位价值的老板,一般都是银行出来的,但一般都会带着兄弟出来创业,不缺这么个岗位。反过来,给不懂行的老板做风控,比较苦逼,你给他说做不得,他觉得是小case,没问题。
风控最高级别的就是大银行的总部风控了,好像是中行吧,原来花80万聘了一个华尔街出来的老外当风控总监,后来银行系统降薪,人家就走了,走了后网上还有一群人骂,说给80万给高了。所以风控岗位的天花板挺低的,担的责任却不低。而且风控的底层业务,和风控总监级别的管的那个风控系统,专业思路完全不一样,从一般的风控员,跳到风控总监,不仅仅是缺少岗位的问题,自身所需要掌握的知识和技能也差异很大。
至于说消费金融的风控,想转券商或基金,不是说不可能,而是你在消费金融学的风控相关内容在券商和基金用不上,和你直接进券商、基金的难度差不多,这个跳槽就显得多余了。
除开学历光环不考虑,如果想去基金的话,如果是投资产业的基金,建议你先从中小企业贷款做起;如果是纯做资本运作的基金,建议你先从银行的资金业务做起,或者从资管公司做起。直接去基金的意义也不是很大,我见过名校毕业直接进基金的,如果没有家庭背景可以依靠,很容易就毁了,人做的很飘,但却老是接触不到资金端口,又看不懂企业运作,设计交易结构的时候只能帮忙做做算数,整理一下文字,做来做去都是打杂的。
------------------------------------------------------------------------------------------------------------------------------
关于风控建模的问题
先说数学模型吧,很多做数学建模的,都是直接去拟合数据,我比较反对这种做法。应该是先对专业领域有一定的了解,再根据逻辑来做模型,最后通过数据来验证、调整参数,但模型本身是先就设立好了的。
很多相关的书籍里面喜欢用数据拟合,因为这种方式教学起来容易。但现实里经常出现两种情况,一种是数据少,不够做拟合,另一种是根本没现成的数据,需要根据你假设的模型去收集需要的数据。即使是有足够的数据的情况下,根据数据去设计模型,也经常出现计算复杂,甚至做模型的人自己都无法解释为什么会出现某些项的情况。所以以前我读大学时,做模型都是不到迫不得已,不会直接用数据拟合。
2006年全国大学生数学建模竞赛,其中一个题目是艾滋病药效的评估,用的国外某实验室的真实数据,数据本身就比较少,如果直接用什么数据拟合,有些病人的检测报告才7次,根本达不到比二次方程更复杂的函数需要的数据量。2005年的全国建模竞赛,里面有个题目是长江水污染治理的,也是国内和国外一个研究所合作的项目,数据量也很少,但其中水污染降解是有现成的研究成果的,可以直接套用公式,如果比照着数据去做模型,也会出现数据不够用的情况。这些都是只有根据相关研究成果,先做模型,再用数据去验证的,就是属于有了模型等数据的情况。
再说说风控的模型,我参与过两个风控系统的建立,一个是中小企业贷款的,一个是汽车金融的。汽车金融的那个风控前期甚至是我主导的,模型也是我做的。后来我调查过两个消费金融公司,也都是先有模型,再用数据去验证,其中一家还好,建立之前拿到了银行里好几年的数据,而另一家则完全是白手起家,先把模型设计好了,跑了一年来收集数据,关键是现在还没出过风险,所以也没法根据数据来调整风控,只能不断放宽标准,直到风险暴露后再修改他们的风控。
风控模型和数学模型是两回事,只是为了表达方便,我们才把这些称为风控模型,实际上往往包括了整个风控体系的建立,特别是消费金融里,新东西太多,根本无法像教科书那样直接抛几个公式出来解决问题。风控的很多要点甚至是无法用数学来表达的,比如最简单的,如何验证身份,如何验证业务的真实性。
做一个风控系统的时候,要考虑到哪些数据是可能采集到的,哪些是采集不到的,哪些是现成的,哪些需要通过何种渠道收集;还要考虑风控的环节,人工环节有多少(特别是消费金融这种,单笔业务小,业务总量多的),成本是多少,时间是多少,风控人员的素质能达到什么程度。这些决定了哪些信息是可以被你利用的,哪些没法利用,然后根据这些条件去做模型,模型上能得出一个结果来,再去收集信息,反过来验证模型是否正确。建立这种模型,需要的是对行业有足够深的理解,而不是处理数据的能力有多强,否则以前没计算机的时候,银行总行怎么建立风控系统的?
而且这些模型并不只是针对数据的, 还针对很多非数据的信息,有些就是文字信息,比如借款人的家庭情况、借款人的学历,等等,当然你可以把这些做成打分卡,有些也可以做成一票否决的形式,但当你这样做的时候,是先有了一套模型,再考虑怎么处理这些信息的,你根据数据调整的,不过是模型的细节而已。
现在有些金融业务里,测算风险照着套公式,只需要修改系数常数之类的就行了,但那不是建模型,那只是套用别人建好了的模型。不相信的话,你可以再自己脑海里想象一下,你自己要开一个新业务,没有任何做过此类业务,没有任何历史数据可供参考,你打算怎么起步?初始的数据按什么标准收集?从哪儿收集?你设定这些标准和途径的过程就是建模,数据只不过是后来用来修正而已。而且你也不知道自己采集的数据是否有用,万一验证失败,你还得从头再来。
现实里并不像书上的习题,只要题目里有的数据都有用。现实里你拥有的数据,没经过验证,你根本不知道哪些是有效的,哪些是无效的,如果没有在对行业理解的基础上先建立一个模型,你都无法确定哪些数据该用,哪些数据不该用。
--------------------------------------------------------------------------------------------------------------------------------------
PS:这也是最近几年,消费信贷业务兴,另一方面可能是大家对金融衍生品的风控有些了解后,才借用了数学建模的概念,逐渐有了风控模型这一说法。以前银行里只有总行的风控才涉及这些问题,一般叫合规或者贷款指引,或者直接就说风控,保险公司里的产品设计里和这个相似的更多,但他们好像也没提“风控模型”这种说法,总之以前信贷业务里除了总行,一般很少用到比较复杂的数学,自然“风控模型”的说法也很少见,这几年才多起来的。
--------------------------------------------------------------------------------------------------------------------------------------
忘了说个事,现在比较好的消费金融,往往并不是那套模型设计得有多好,不是违约率能算的多准,不是数据采集得有多好,而是业务方案设计得巧妙。
逆光飞翔i
首先明确下,消费金融业务主要指消费信贷类业务。
在目前国家整体供给侧改革的大背景下,消费金融市场是具备长期繁荣的趋势的。而作为消费信贷业务的核心职能——风险管理,该职业的发展和成长性是长期看好的。同时,风险管理总体上是一个随着时间阅历积累更加升值的职业。因此在更广义的金融信贷领域,风险管理是非常值得作为一生职业探索的。
以下我会基于风险管理职业发展,从顶端反向探讨入行初期的路径与积累要求。
在大的银行中,标准的风险管理岗位顶端即CRO(首席风险官)。
但在银行体系中,CRO的专业水平、能力要求是极高的。不仅是信贷领域的信用风险管理,包括市场风险、操作风险、流动性风险,甚至国别风险等从宏观到微观领域的全视角风险均要有驾驭能力。可以作为一个很高的目标,用来鞭策和提升自己。
而市场上常见的消费金融,也有很多的CRO,或者称为风险总监。实质上的职能为:掌管消费金融公司或小贷公司的信贷业务的风险管理。
根据公司的市场规模、业务复杂度,该职位的要求差别比较大。但基本上,主要工作包括但不限于:
进行信贷业务的整体信用风险把控;
欺诈风险体系建设;
资产组合管理;
同时从风险角度提供业务发展方向建议,发挥风险内驱力的作用。
达到这个级别应该算是风控岗位的一个阶段性成功了。
至于待遇方面,相对发展好的消费金融公司或互金小贷平台,百万级别年薪是很正常的水平。
不过先别急,为了达到这个目标,我们需要从以下几点逐步完善积累:
1. 数据分析能力
这是当代风险管理岗位所需的最基础的能力。
如果不具备数据分析能力,通常只能从人工信审或机构审核角度入手。不容易接触到零售消费信贷的核心风险策略体系设计,会有短板。
当然,如果业务感觉足够好(后面会讲到这块儿的概念),也有继续成长的路径机会。
数据分析能力包括:常用数据处理工具的熟练应用能力,比如hive sql, SAS, python, R等。
更重要的是,注意培养数据分析的感觉。即能够明确理解业务问题点并抽象成数据分析的思路。
比如某产品逾期率过高。
数据分析不是单纯跑出这个结果(这只达到了最基本的监控要求),进一步的思路是:寻找原因 → 在不同获客渠道、不同客群(年龄、学历、区域等)维度组合框架下定位具体的逾期原因 → 形成完整的分析思路 → 得出结论。比如定位到具体哪类细客群是该问题最主要的点。
2. 风险策略设计能力
风险策略简单说就是对客群进行差异化,找到足够细分的风险差异化识别路径。
通过这种路径完成准入、授信、风险预警、调额、风险定价等决策。
这需要很强的数据分析能力作为基础,确保自己的想法能够得到有效验证及持续探索。同时要深入理解产品形态和业务背景。
比如,小额高定价现金贷产品,必然会吸引来次级用户;大额低定价产品通过增加信息采集,更满足常规好用户需求。
这两种情况下对于策略设计的要求会更有差异。前者重点考虑通过高定价覆盖高风险,关键做好反欺诈工作;后者更需要较重的产品流程增加强信息厚度,以明确将好用户的门槛提高,挡住坏用户。
3. 模型工具理解能力
当前计量模型工具已经成为风险管理的常用工具。
在风险管理职业规划中有一种路径是:在模型算法角度进行深入探索,以算法工程师作为职业规划。
即使没有深入的模型开发功底,也应该至少理解模型基本假设与业务实际的关联关系,确保模型应用的有效性。
例如,模型开发样本时点业务与应用时点的客群是否有极大偏差;模型样本中是否已排除策略中明确拒绝的高风险客群,避免应用时对客群的识别有偏差等。
4. 业务模式风险点理解
上述3点均为切入消费金融风险管理的常见路径职能。
但真正决定你是否可以进一步向上有更大空间,考验的是你对于各种业务模式风险点的理解,即对信贷业务的风险本质的理解。
例如,同一产品不同产品流程,在风险管理上的信息差异性、客户选择差异性会有极大差别;场景分期类业务和现金贷业务,前者更偏重于对合作场景机构的风险管理,后者更偏重于客群量化分层的管理等。
这种需要风险管理从业者更主动的跳出单纯的数据与策略结构,从全流程视角审视业务全局,预判业务各种可能走势,从而前瞻性的进行各种风险管理工具的准备、组合、监控和控管。
5. 其他风险管理相关专职岗位
人工信审、催收作业、贷后稽核、机构审核等。
这些岗位功能性更强,因此发展路径相对固定,暂不展开。
说完上述的职能与工作描述,落到一些实际的建议:
从专业和资格认证方面,如果愿意考CFA或FRM之类的证书,从理论层面会对风险管理职业更有帮助,对自己的职业履历也有明显提升;
从技能角度,上面已说明了数据分析解读和模型基本理解的重要作用。
而在风险管理深入研究下去后,实际很多金融相关领域的风险管理都具备一定相通性,仅需注意在业务专业性上持续拓展即可。
南海凝心
金融风控岗位非常重要,收入也很高,有策略,模型,数据分析,审批,反欺诈,反洗钱等重要岗位。下面介绍一下风控常用术语,收藏后对工作有帮助
1、风控系统部分
1.Blaze
blaze是FICO公司产品,用于规则管理,是模型ABC卡开发的前身。信贷公司开始放贷时,数据量少,申请用户少,难以建立模型。因此前期一般会用到专家经验判断好坏客户,然后通过风控决策管理系统进行高效作业,其中blaze就是一款应用多年,效率较高风控决策管理系统。但blaze属于商业产品,一般多应用于大银行,捷信等大型消费金融公司,收费可高于100万RMB每年,如果需要更多定制业务,收费更高。
1.1 A card
释义:Application scorecard 申请评分卡,对授信阶段提交的资料赋值的规则。
举例:“进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再满足于简单的if、else逻辑,而是希望对各个资料赋予权重和分值,根据用户最后综合得分判断风险,通过划定分数线调整风险容忍度,评分卡应运而生。评分卡是逻辑回归算法的一种衍生。
1.2 B card
释义:Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则。
举例:与
A
卡类似,B卡也是一套评分规则,在贷款发放后,通过收集用户拿到钱后的行为数据,推测用户是否会逾期,是否可以继续给该用户借款。例如用户在某银行贷款后,又去其他多家银行申请了贷款,那可以认为此人资金短缺,可能还不上钱,如果再申请银行贷款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客户模型,找出价值较高客户,增加贷款额度模型等等。
1.3 C card
释义:Collection Scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则。举例:催收评分卡是行为评分卡的衍生应用,其作用是预判对逾期用户的催收力度。对于信誉较好的用户,不催收或轻量催收即可回款。对于有长时间逾期倾向的用户,需要从逾期开始就重点催收。逾期天数越多,催收难度越大。
催收一般分为多个坐席,M1,M2,M3等不同坐席员工经验和业务能力相差甚大。AI人工智能常用于前期自动化催收。
申请评分卡、行为评分卡和催收评分卡常合并称为“ABC卡”,应用在贷前、贷中和贷后管理。。。。。。。。
2、风控指标部分
释义:账龄分析。显示各期至观察点为止的延滞率,其特点为结算终点一致,把分散于各个月的放贷合并到一个观察时间点合并计算逾期比率。
释义:统计每个月新增放款在之后各月的逾期情况,同样也是账龄分析。与aging analysis不同,vintage以贷款的账龄为基础,观察贷后N个月的逾期比率。也可用于分析各时期的放贷后续质量,观察进件规则调整对债权质量的影响。举例:Deliquency Vintage 30+:表现月逾期30+剩余本金/对应账单生成月发放贷款金额。风控中英文术语手册(银行_消费金融信贷业务)_v4_术语手册
释义:C和M是描述逾期期数bucket的专有名词。M0为正常资产,Mx为逾期 x 期,Mx+为逾x期(含)以上。无逾期正常还款的bucket为M0,即C,M1即逾1期(1-29天) 。M2+即逾2期及以上(30+) 。M2和M4是两个重要的观察节点,一般认为M1为前期,M2-M3为中期,M4以上为后期,大于M6的转呆账。
释义:逾期率/延滞率。评价资产质量的指标,可分为Coincident和Lagged两种观察方式。
释义:即期指标。用于分析当期所有应收账款的质量,计算延滞率。计算方式是以当期各bucket延滞金额除以本期应收账款(AR)总额。Coincident是在当前观察点总览整体,所以容易受到当期应收账款的高低导致波动,这适合业务总量波动不大的情况下观察资产质量。举例:常看的一个指标Coincident DPD 30+
释义:递延指标。与coincident相同也是计算延滞率的一个指标,区别是lagged的分母为产生逾期金额的那一期的应收账款。Lagged观察的是放贷当期所产生的逾期比率,所以不受本期应收账款的起伏所影响。举例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6
月末资产余额M1(1-29天): 统计月份月末资产中满足 1≤当前逾期天数≤29 的订单剩余本金总和,当前逾期天数为订单当前最大逾期天数,不包含坏账订单。Lagged M1 =月末M1的贷款余额/上个月底的贷款余额(M0~M6)
风控中英文术语手册(银行_消费金融信贷业务)_v4_风控_02
例如FPD1,SPD7,TPD30...前面的字母,F:first,表示第一期逾期,同理 S,T,Q分别表示二 三 四, 后面会用数字表示。如5PD30。后面的数字, 指逾期天数,如果一个客户身上有FPD30的标记,那必然有FPD1 FPD7等小于30的标记。dpd(days past due)逾期天数,贷放型产品自缴款截止日(通常为次一关账日)后一天算起。4期中,任意一期逾期天数超过30天就算坏客户
需注意的一点,PD类指标通常互斥,也就是说一个人如果有了FPD标志就不会有SPD标志,SPD表示第一期正常还款但是第二期才出现逾期的客户。
释义:Days Past Due 逾期天数,自还款日次日起到实还日期间的天数。举例:DPD7+/30+,大于7天和30天的历史逾期。业内比较严格的逾期率计算公式为:在给定时间点,当前已经逾期90天以上的借款账户的未还剩余本金总额除以可能产生90+逾期的累计合同总额。其分子的概念是,只要已经产生90天以上逾期,那么未还合同剩余本金总额都视为有逾期可能,而分母则将一些借款账龄时间很短的,绝对不可能产生90+逾期的合同金额剔除在外(比如只在2天前借款,无论如何都不可能产生90天以上逾期)。
释义:First Payment Deliquency,首次还款逾期。用户授信通过后,首笔需要还款的账单,在最后还款日后7天内未还款且未办理延期的客户比例即为FPD 7,分子为观察周期里下单且已发生7日以上逾期的用户数,分母为当期所有首笔下单且满足还款日后7天,在观察周期里的用户数。常用的FPD指标还有FPD 30。举例:假设用户在10.1日授信通过,在10.5日通过分期借款产生了首笔分3期的借款,且设置每月8日为还款日。则11.08是第一笔账单的还款日,出账日后,还款日结束前还款则不算逾期。如11.16仍未还款,则算入10.1-10.30周期的
风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_03
FPD7的分子内。通常逾期几天的用户可能是忘了还款或一时手头紧张,但FPD 7 指标可以用户来评价授信人群的信用风险,对未来资产的健康度进行预估。与FPD 7 类似,FPD 30也是对用户首笔待还账单逾期情况进行观察的指标。对于逾期30天内的用户,可以通过加大催收力度挽回一些损失,对于逾期30天以上的用户,催收回款的几率就大幅下降了,可能进行委外催收。如果一段时间内的用户FPD 7较高,且较少催收回款大多落入了FPD 30 内,则证明这批用户群的non-starter比例高,借款时压根就没想还,反之则说明用户群的信用风险更严重。
cpd用于催收模型,是催收指标,还款表现第四个月月末时点逾期是否超过30天,不包括历史
四个观察期(月)内,逾期是否超过30天,包括历史
放款后的月份举例:MOB0,放款日至当月月底
MOB1,放款后第二个完整月份
MOB2,放款后第三个完整月份
mob3-3个月为短观察期,mob6-6个月为长观察期
释义:迁徙率。观察前期逾期金额经过催收后,仍未缴款而继续落入下一期的几率。举例:M0-M1=M月月末资产余额M1 / 上月末M0的在贷余额
8月M0-M1 :8月进入M1的贷款余额 / 8月月初即7月月末M0的在贷余额
补充信息:宏观经济中
短期风险可以使用FDP,SPD,TPD进行衡量;中期风险可以使用30+@MOB4;长期风险使用90+@MOB6等
To measure the short-term risk, FPD,SPD,TPD could be used; To measure the middle-term risk, 30+@MOB4 could be used; To measure the long-term risk, 90+@MOB6 could be used;
不同产品应用不同指标
Fpd30(现金贷产品)
maxdpd30_mob4 (存量客户)
Cpd30mob4(催收客户)
汽车贷坏客户定义(仅做参考)
风控中英文术语手册(银行_消费金融信贷业务)_v4_银行_04
说明:由于场景细分,不同场景差异化较大,以上指标说明仅做参考。
3.3 RPC:Right Public Concact,能有效的联系人,通过电话催收可以找到的客户本人或直属亲属。
3.4 PDP: Promise To Pay,承诺在某个前线内归还一定金额的欠款。
3.5 inptp :是否在承诺还款期限内,以最新一次覆盖为准。
3.6 入催:特指进入待催任务列表,不一定与逾期天数逾期金额相关,如宽限队列,强制入催。
3.7 出催:特征退出待催任务列表,退出条件与入催原因相关。
3.8 降期:指归还部分逾期欠款,满足逾期天数最高的账单或合同金额,降至下一级逾期阶段,如M3降至M2,在多账单多产品合同产品中常见。
3.9 队列:催收分案专用名词,比如内催队列、委外队列、宽限队列、外访队列,对应相应的催收手段。
4.0贷后员工效能指标
4.0.1运营指标
覆盖率:档期完成跟进客户数/当日需跟进客户数
投诉率:定性为有效投诉的客户数/在催客户数
PTP率(下P率):获得承诺还款客户数/在催客户数
跟P率:P期结束当天有跟进记录客户数/承诺应还款客户数(也可选择统计P期期间有跟进记录的为分子)
KPTP率:兑现承诺次数/承诺诺还款次数
人均在案:待催客户数/催收员数量
4.0.2呼叫指标
外呼电话通数/外呼电话时长
工时利用率:外呼电话时长/在线时长(工作时长)
接通率:外呼接听次数/ 外呼次数
有效通话时长:外呼通常接听动作后时长
平均通话时长:总通话时长/出勤日数量
呼损率:呼通但接听失败的通数/外呼电话通数
5.贷后监控指标
失联率:三种定义方向,外呼结果、催收表示、规则定义
短信成功率:短信发送成功数量/短信发送数量
批扣成功率:批扣成功数量/批扣客户数
新增逾期率:逾期客户数/到期客户数(剔除已提前结清)
留存率:T+N日仍在催客户数(金额)/T日入催客户数(金额)
恶意拖欠率:放款后90天以上无任何还款记录人数/放款人数(金额)
3、风控模型部分
3.1 Benchmark释义:基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对。
3.2 IV释义:information
value 信息值,也称VOI,value of
information,取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。金融风控筛选变量阈值为0.02。如果变量的iv低于0.02,那么变量就会被踢除。我作为模型专家提醒大家,iv值不能死记硬背,需要根据自己场景数据分布特点来定制阈值。不同场景变量iv值分布差异可能较大,例如放贷,车贷和现金贷。
3.3 K-S value释义:K-S指klmogrov-smirnov,这是一个区隔力指标。所谓区隔力,是指模型对于好坏客户的区分能力。K-S值从0-1,越大越好,越小越差。真实场景中风控领域的模型ks能超过0.4的很少。
3.4 PSI
释义:population
stability
index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。PSI越接近0,模型稳定性越好。当PSI小于0.1时表示模型比较稳定,当psi在0.1和0.25之间时模型稳定性出现波动,需要检查模型,如果必要,需要重新开发模型。
3.6 Logloss
释义:对数损失函数
当预测概率接近1时,对数损失缓慢下降。但随着预测概率的降低,对数损失迅速增加。对数损失值越大时,模型精确度越差,反之亦然。
3.7 Training Sample
释义:建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有off-time sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。
3.8 WOE释义:weight
of
ecidence,证据权重,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强。评分卡模型的数据需要把原始数据转换为woe数据,从而减少变量的方差,使其平滑。IV值也是由woe值转换而来。由于woe在评估变量时有一定缺陷,因此一般用iv值评估变量重要性。
3.9 Bad Capture Rate
释义:坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。举例:Top 10% Bad Capture Rate是指模型评估出的最坏用户中的前10%用户,在样本中为坏用户的比率。
3.10 Population释义:All Population,全体样本用户,包含建模样本与验证样本。
3.11 Variable释义:变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。建模前变量是需要筛选的。大数据模型中,百分之90%以上变量是噪音变量。真正有用变量是其中极少部分。
3.12 CORR释义:相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。相关系数计算要看数据分布,如果数据呈现正太分布,用皮尔森方法准确率较高;反之用斯皮尔曼方法更合适。
3.13 混淆矩阵confusion matrix
sensitivity:真阳性条件下,测试也是阳性
specificity:真阴性条件下,测试也是阴性
FALSE positive:真阴性条件下,测试却是阳性
FALSE negative:真阳性条件下,测试却是阴性
3.14 模型算法
逻辑回归(logistic regression)
logistic回归是一种广义线性回归(generalized
linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有
w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y
=w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p
与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
评分卡模型(scorecard model)评分卡模型是逻辑回归算法的一个衍生算法。应用woe分箱和分数拉伸技术,把逻辑回归概率分转换为标准分。标准分类似FICO分数或芝麻信用分数,范围从300分-900分。下图为评分卡计分模式
评分卡相关教程入口1(推荐)
https://ke.qq.com/course/3063615?tuin=dcbf0ba
评分卡相关教程入口2
https://study.163.com/course/courseMain.htm?courseId=1005214003&share=2&shareId=400000000398149
支持向量机(Support Vector Machine, SVM)
支持向量机(Support
Vector Machine, SVM)是一类按监督学习(supervised
learning)方式对数据进行二元分类的广义线性分类器(generalized linear
classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin
hyperplane)。SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern
recognition)问题中有得到应用。支持向量机算法在小样本数据效果较好,训练大数据时耗时较长。
神经网络( Neural network )
逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生的想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布存储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。
注意:计算机神经网络和人脑生物神经网络运作原理是不同的。
有点:处理大数据高效,可处理复杂和多维数据,灵活快速
缺点:数据需要预处理
xgboost
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在
Gradient Boosting
框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。xgboost是集成树算法,由陈天奇发明,该算法在kaggle竞赛多次夺冠
lightgbm
Light Gradient Boosted Machine,简称LightGBM,是一个开源库,提供了梯度提升算法的高效实现,微软公司开发算法,综合性能优于xgboost。
LightGBM 通过添加一种自动特征选择以及专注于具有更大梯度的提升示例来扩展梯度提升算法。这可以显着加快训练速度并提高预测性能。
与其他 boosting 相关框架相比,它具有以下优势——
catboost
俄罗斯搜索巨头Yandex宣布,将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候,CatBoost也能根据事务型数据或历史数据进行操作。
catboost特点:
少量或无需调参,默认参数效果非常好
支持分类变量
支持GPU
Ngboost
斯坦福 ML Group最近在他们的论文 Duan et al., 2019 中发表了一种新算法,其实现称为 NGBoost。该算法通过使用自然梯度将不确定性估计包括在梯度提升中。
NGBoost 是一种新的提升算法,它使用自然梯度提升,一种用于概率预测的模块化提升算法。该算法由基学习器、参数概率分布和评分规则组成。
xgboost,catboost,lightgbm,ngboost相关教程入口1(推荐)
入口2
4、风控基础词汇部分
4.1 APR
释义:Annual percentage rate,年度百分率,一年一次复利计息的利率。nominal APR名义利率,effective APR实际利率。
4.2 AR
释义:accounts receivable,当期应收账款。
4.3 Application fraud
释义:伪冒申请
4.4 Transaction fraud
释义:欺诈交易
4.5 Balance Transfer
释义:余额代偿,即信用卡还款业务。
4.6 Collection
释义: 催收。根据用户入催时间由短到长,分为Early collection(早期催收)、Front end(前段催收)、Middle
range(中段催收)、Hot core(后段催收)Recovery(呆账后催收/坏账收入)这几个阶段,对应不同的催收手段和频率。
4.7 DBR
释义:debit burden ratio,负债比。通常债务人的在各渠道的总体无担保负债不宜超过其月均收入的22倍。
4.8 Installment
释义:分期付款
4.9 IIP
释义: 计提的坏账准备
4.10 PIP释义:资产减值损失
4.11 NCL
释义:net credit loss,净损失率。当期转呆账金额减去当期呆账回收即为净损失金额。
4.12 Loan Amount
释义:在贷总额
4.13 MOB
释义:month on book 账龄
举例:MOB0,放款日至当月月底。MOB1,放款后第二个完整月份
4.14 Non-starter
释义:恶意逾期客户
4.15 Payday Loan释义:发薪日贷款。无抵押的信用贷款,放款速度快,额度低,期限短但利率高。额度低和高利率是该模式的必要条件。
4.16 Revolving释义:循环信用。提钱乐信用钱包给用户的就是循环额度,相对应的还有医美、教育类的专项额度。
4.17 WO释义:Write-off ,转呆账,通常逾期6期以上转呆账。
4.18 AR
AR授信通过率=SUM(贷款申请通过账户)/SUM(申请账户)
4.19 DR
DR违约率=SUM(发生违约账户)/SUM(使用授信账户)
4.20 EAD
EAD授信敞口=SUM(C0+M1+M2+...+M6+)
4.21授信转化率
授信转化率=SUM(使用授信账户)/SUM(申请账户)
4.22延滞率/递延率(flow through%)
计算可分为coincidental及lagged两种方式,除了各bucket延滞率之外,也会观察特定bucket以上的延滞率。如M2+lagged%及M4+lagged%等指标,以M2+lagged%为例,分母为两个月前应收账款,分子为本月M2(含)以上尚未转呆账的逾期金额。在消费金融风险管理上,M2及M4是两个重要的观测点,原因是客户可能因为太忙或者忘记造成的账款逾期,但是经过M1催收后依旧落入M2以上,可确认为无力缴款或蓄意拖欠。
4.23不良率(bad%)
bad的应用除了一般的风险分析外,信用评分模型的建置也需要实现确定bad定义。
一般bad的定义除了逾期户、高风险账户等,当前以逾期户为主。
4.24转呆账率(write-off%)
简写为wo%,当月转呆账金额/逾期开始月的应收账款。经过年化之后,月转呆账率转换为年损失率。
4.25净损失率(NCL)
其定义为:当期转呆账金额-当期呆账回收,亦即为净损概念。就整体风险管理绩效观点来看,呆账后回收亦为以重要一环,所以NCL%与WO%常常一并显示。
4.26拨贷率
又称拨贷比,是指拨备占总贷款的比例,拨贷率越高,说明该银行的防御坏帐风险能力越强。计算公式为:拨备余额/贷款总额=拨备覆盖率*不良贷款率。
4.27拨备覆盖率
也称拨备充足率,实际上是银行贷款可能发生的呆、坏帐准备金的使用比例,拨备覆盖率是实际计提贷款损失准备对不良贷款的比率,该比率最佳为100%。计算公式为:贷款损失准备金/不良贷款余额。
4.28不良贷款率
指金融机构不良贷款占总额贷款余额的比重。不良贷款指在预估隐含贷款质量时,把贷款按风险基础分为正常、关注、次级、可疑和损失5类,其中后3类合称为不良贷款。计算公式:不良贷款率=(次级类贷款+可疑类贷款+损失类贷款)/各项贷款*100%=贷款拨备率/拨备覆盖率*100%。贷款拨备率和不良贷款率、拨备覆盖率是商业银行业资产质量的三个基本指标。
4.29负债比(DBR)
负债比(debit burden ratio,DBR)是银行关注的主要指标衡。量借款人还款压力的常用指标,总无担保债务归户后的总余额(信用卡、现金卡、信用贷款)/平均月收入。
4.30 恶意延滞率(non-starter%)
原始定义为“贷后从未缴款客户”,主要目的为找出恶性欺诈的案件。
4.31命中率(hit%)
用于信用卡的中途授信及早期预警报表,所谓命中率意指控管后一定期间内客户发生延滞的几率。命中率过低可能表示浮滥或风险判断方向有误。
4.32 可用余额(OTB)
常与命中率指标一同出现,计算方式为先找出证实控管命中的客户,再会整这些客户遭控管时的信用卡可用余额,此数字可视为银行因控管而减少的损失。
4.33呆账回收率
本期呆账回收率=本期呆账回收/本期转呆账金额
本期总呆账回收率=本期呆账回收/前期呆账总余额
本年呆账回收率=本年度呆账总回收金额/本年度平均呆账余额
近12期呆账回收率=近12期呆账回收总金额/近12期平均呆账余额
转呆账后12期回收率=转呆账后12期总回收金额/转呆账后12期平均呆账
余额
5.数据字典
client_no:客户账户
apply_time:申请时间
gender:性别
age:年龄
income_range:收入范围
education:教育程度;
carreer:工作;
credit_score:信用分数;
credit_score_range:信用分数范围;
if_approved:是否通过;
prob_df:可能违约概率;
if_due:是否逾期;
used_time:贷款使用次数;
credit_approved:授信通过金额
5.金融风控建模实战经典教学案例
5.1 德国银行信用数据集(German credit)
5.2 kaggle模型竞赛give me some credit数据集
5.3江苏城投企业信用评级
5.1-5.3相关教程入口1(推荐)
5.1-5.3相关教程入口2
5.4 美国金融科技公司lendingclub信贷数据集
5.5 消费者人群画像—信用智能评分
举办单位福建省数字福建建设领导小组办公室 & 福建省工业和信息化厅 & 福州市人民政府 & 中国电子信息产业发展研究院 & 数字中国研究院 & 中国互联网投资基金
5.4-5.5相关教程入口1(推荐)
5.4-5.5相关教程入口2
6、金融信息收集网站
6.1tradingeconomics
官网https://tradingeconomics.com/,包含世界各国数百个经济指标,包括GDP,CPI,PPI,负债率,大宗商品价格指数等等。
6.2 FRED economic data
官网https://fred.stlouisfed.org/,金融数据查询
6.3 日本银行
https://www.boj.or.jp/
6.4 wind数据库
官网:https://www.wind.com.cn/Default.html,中金公司金融行业数据库
6.5 纸黄金
黄金价格和交易量查询,有具体数据下载http://www.zhijinwang.com/etf/
6.6股票/债券市场舆情分析和预警相关网站
万得(https://www.wind.com.cn/)
东方财富网(https://www.eastmoney.com/)
和讯数据(http://data.hexun.com/)
彭博(https://www.bloomberg.net/)
6.7反洗钱调查
FATFhttp://www.fatf-gafi.org/
反洗钱金融行动特别工作组
。西方七国为专门研究洗钱的危害、预防洗钱并协调反洗钱国际行动而于1989年在巴黎成立的政府间国际组织,是目前世界上最具影响力的国际反洗钱和反恐融资领域最具权威性的国际组织之一。目前包括36个成员管辖区和2个区域组织,代表全球各地的大多数主要金融中心。其制定的反洗钱四十项建议和反恐融资九项特别建议(简称
FATF 40+9项建议),是世界上反洗钱和反恐融资的最权威文件
6.8企业理财公告信息智能提取,助力银行客户经理营销
巨潮资讯网(http://www.cninfo.com.cn/new/index)
银行家年鉴(https://accuity.com/)
道琼斯(https://www.dowjones.com/)
版权声明:文章来自公众号(python风控模型),未经许可,不得抄袭。遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
沁水百合
为什么需要进行损益分析?
信贷业务是商业银行最重要的资产业务,其基本的盈利模式就是通过放款收回本金和利息,扣除资金、风险等成本后获得利润。
银行业的本质就是对风险的经营,而经营风险的本意并不是最大程度消除或者压降风险,而是将风险作为我们业务利润组成中的一个成本项。因此,我们经营信贷业务的目标应该是获得合理的利润,推动有利润的业务增长、提供卓越的客户体验,并避免意外风险。
了解信贷产品的利润是如何产生的,分析利润的组成,把账算清楚,可以帮助我们在业务发展的各个阶段做出更好的决策,并通过不断地测试、优化和迭代来增加利润。
如何进行消费信贷产品的损益分析?
第一,我们需要弄明白发放一笔贷款的基本的收入和成本结构。需要把所有影响利润的收入和成本因素进行归纳总结,收入项可能包括应还本金、利息收入、罚息收入、应还手续费等,成本项可能有资金成本、风险成本、催收成本、获客成本、征信成本、交易成本、税费、客服成本、财务成本等等。另外,提前还款、拨备计提也是影响现金流的重要因素。
第二,损益分析的关键是确定不同产品或客群的现金在全账期的流入和流出。这就涉及到怎么样进行客户分群了。
可以参考这两篇文章:
基于交叉表(列联表)的风控规则生成方法
决策树算法原理以及决策树规则生成方法
假设有一款消费信贷产品的放款件均为1万元,期限为12期,还款方式为等额本息,利率为IRR24%。该产品每一个账期的收入和支出现金流入下表所示(表中数据均为虚拟):
上表是消费信贷产品非常典型的P&L分析模型,不同的产品其分析框架略有不同。
还款和催收会导致现金流入,逾期会导致现金流出。资金成本、利息税费、催收成本、拨备计提等每期的现金流会因提前还款、逾期、回款等行为而有所变动。数据成本、获客成本、客服成本等被作为一次性支出。对于不同产品、客群、风险区间,我们都可以计算整个账期的现金流出来。
看一张表或者一串数字来比较异同,可能并不那么容易。那如何对不同产品或客群的损益情况进行比较呢?
第三,我们需要在获得现金流的基础上,把它们总结为一个指标,并基于这个指标做出损益评估、判断和决策。在投资决策时,我们最常用的两个指标是IRR和NPV。如何理解IRR和NPV请参考:
投资决策中的净现值(NPV)和内部收益率(IRR)——基于R语言实现
第四,我们在损益分析的基础上要对不同客群的收益情况,也就是价值进行预测,从而制定不同的策略,来优化客群(通过准入策略)或者优化产品(通过额度、定价、期限、还款方式、结清方式等权益策略),增加利润。
第五,在策略实施过程中,要不断监控,对于发生不符合预期的情况,要及时优化和调整。要进行不断地测试,以积累数据支撑我们新的迭代和决策,从而让产品和客群不断得到优化,利润不断增长。
测试方法请参考:
风险客群下探的设计实施与数据分析方法
如何使用NPV和IRR进行业务决策?
那我们到底使用IRR还是NPV呢?可以说,这两个指标各有优劣。
IRR比较容易理解,如上表所示,如果说该产品每一笔贷款的收益率为1.59%比每笔贷款将带来82元的收益(折现率为0)更直观,但IRR是一个相对数值,不同产品或客群可能不具有可比性,因为不同产品和客群其放款金额、现金回流节奏、生命周期可能具有很大的差异,导致其IRR差异大。IRR较低,不意味着没有较大的收益,可能因其规模较大导致收益较高。
因此使用NPV可以对多个项目、产品、风险客群进行评估,只要折现率相同,NPV越大,那么收益就越好。
实际业务决策中,汉森老师倾向于使用NPV来比较不同产品、不同风险客群的损益,但需要参考IRR来设定盈利底线。如果你的IRR低于1%,那么随着市场波动,你的盈利底线极有可能被击穿,从而造成亏损,导致你的规模越大,亏损越多。
请顺手点个赞。
历史文章:
信贷风控策略的常见分析方法和实施手段
消费信贷产品的风险定价策略:风险定价的基本逻辑
消费金融贷前风险准入策略工作流详解
熟练掌握风控策略的换入换出(Swap Out & Swap In)分析
汉森定理( hansenmode )公众号是我的个人公众号,会定期分 享风控策略、数据分析、风控建模的相关知识,欢迎关注。