KS(Kolmogorov-Smirnov)是一种用于评估模型风险区分能力的指标。它衡量好坏样本累计分布之间的差值,差值越大,模型的区分能力越强。
KS(Kolmogorov-Smirnov)指标
一、简介
KS(Kolmogorov-Smirnov)指标由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出,是一种常用于评估模型区分度的统计量,在风控、信贷审批、欺诈检测等场景中,KS指标被广泛用于衡量模型对好坏样本的区分能力,其值越大,表明模型的风险排序能力越强。
二、计算方法
(一)数据准备
需要有预测值和真实标签的数据,预测值通常是模型输出的概率或分数,表示样本为正样本的可能性;真实标签是已知的实际结果,一般为0或1,分别代表好用户和坏用户。
(二)分箱操作
将数据按照预测值的大小进行分组,可以选择等频、等距等方式进行分箱,等频分箱是指每个箱子里的样本数基本相同;等距分箱则是按照固定的区间长度进行划分。
(三)计算各箱的累计比例
对于每个分箱,分别计算好样本和坏样本在该箱内的累计比例,好样本的累计比例是指在该箱及之前所有箱中好样本的数量占总好样本数量的比例;坏样本的累计比例是指在该箱及之前所有箱中坏样本的数量占总坏样本数量的比例。
(四)计算KS值
计算每个分箱中坏样本累计比例与好样本累计比例的差值,然后取这些差值中的最大值作为KS值,KS值的取值范围是[0, 1],一般习惯乘以100%来表示。
假设有一个简单的数据集如下:
预测值 | 真实标签 |
0.1 | |
0.4 | 1 |
0.6 | 1 |
0.8 | 1 |
0.9 |
按照预测值进行等距分箱后,计算得到各箱的好样本和坏样本累计比例,进而计算出KS值为0.6。
三、物理意义
KS指标反映了模型对正负样本的区分能力,当KS值较大时,说明正负样本的分布差异较大,模型能够较好地区分好坏样本;反之,当KS值较小时,说明正负样本的分布较为接近,模型的区分能力较弱,可以想象成一双手将正负样本的分布向两边拉开,KS值越大,这双手的力量越大,两个概率分布间隔就越远,模型的区分性就越好。
四、优缺点
(一)优点
直观易懂:KS指标的计算过程相对简单,结果易于理解和解释,能够直观地反映模型的区分能力。
对样本不均衡不敏感:在正负样本比例差异较大的情况下,仍然可以有效地评估模型的性能,而准确率等指标在样本不均衡时可能会失真。
稳定可靠:只要模型的预测结果是合理的概率值,KS指标就能够稳定地评估模型的区分能力,不会因为个别异常值或噪声数据而产生较大波动。
(二)缺点
只考虑了累积分布差异:KS指标主要关注正负样本的累积分布差异,没有考虑到其他因素,如样本的特征分布、数据的离散程度等,在某些情况下,即使KS值较高,模型的实际性能可能并不理想。
对阈值选择敏感:不同的阈值划分方式可能会导致不同的KS值,因此在计算KS值时需要选择合适的阈值划分方法。
无法直接反映业务目标:KS指标只是一个统计量,不能直接反映业务上的损失或收益,在实际业务中,需要结合具体的业务目标来评估模型的性能。
五、应用场景
风险评估:在金融领域,可用于评估客户的信用风险、违约风险等,帮助金融机构决定是否批准贷款申请、设定利率等。
客户细分:根据客户的预测风险值进行分箱,通过KS指标评估不同客户群体的风险特征差异,从而制定个性化的营销策略和服务方案。
模型监控与优化:在模型的开发和迭代过程中,通过计算KS指标来监测模型的区分能力变化,及时发现模型性能的下降或提升,并针对性地进行优化和调整。