本项目基于IBM电信客户流失数据集,通过生存分析方法,量化评估不同用户特征对客户留存时长的影响,并最终完成客户生命周期价值(LTV)的测算,为电信企业的用户运营、获客成本管控、增值服务推广提供数据支撑。
生存分析是一类专门处理「时间-事件」型数据的统计方法,核心优势是可以处理截尾数据(即分析时仍未流失的在网用户),精准刻画用户随时间变化的流失风险,相比传统的分类模型更适配留存与LTV分析场景。
本项目的核心分析目标:
本项目基于IBM Telco Customer Churn数据集,为聚焦核心分析场景,我们对样本进行了精准筛选:
核心分析字段说明:
Kaplan-Meier(KM)是生存分析中最常用的非参数方法,无需假设数据分布,即可有效处理截尾数据,绘制用户生存曲线,直观展示随时间变化的留存概率。
全量用户的生存分析结果显示:
生存曲线呈现「前期下降较快、中后期逐渐平缓稳定」的趋势,说明新用户前几个月存在流失高风险期,留存时间长的的用户流失概率会降低。
通过对数秩检验(Log-Rank Test)对比不同特征组的生存曲线差异,以Gender和OnlineSecurity两个变量为例进行分析展示:
Cox比例风险模型是生存分析中最常用的半参数多变量回归模型,无需假设生存时间的分布,即可量化多个协变量对用户流失风险的影响,核心输出为风险比(Hazard Ratio, HR)。
我们纳入4个核心协变量拟合Cox模型,结果如下:
从结果可以看出,4个变量均为用户留存的显著保护因素,保护效应从强到弱排序为:在线备份 > 技术支持 > 有家属 > DSL宽带。
Cox模型的核心适用前提是比例风险(Proportional Hazards, PH)假设:即协变量的风险比HR不随时间发生变化。若该假设不满足,模型输出的固定HR会存在偏倚,解读结果会出现误导。
本项目通过两种方法完成PH假设检验:Schoenfeld残差检验、对数-对数生存曲线平行性检验。
Schoenfeld残差是Cox模型专属的诊断方法,核心逻辑:若PH假设成立,残差随时间变化无系统性趋势,拟合线应水平围绕0线波动;若拟合线有明显倾斜/弯曲,说明HR随时间变化,违反PH假设。
检验结果如下:
| 协变量 | 检验方法 | 检验统计量 | p值 | PH假设检验结论 |
|---|---|---|---|---|
| dependents_Yes | km变换 | 1.48 | 0.22 | ✅ 满足PH假设 |
| rank变换 | 0.81 | 0.37 | ||
| internetService_DSL | km变换 | 20.98 | <0.005 | ❌ 不满足PH假设 |
| rank变换 | 26.71 | <0.005 | ||
| onlineBackup_Yes | km变换 | 17.80 | <0.005 | ❌ 不满足PH假设 |
| rank变换 | 17.47 | <0.005 | ||
| techSupport_Yes | km变换 | 8.09 | <0.005 | ❌ 不满足PH假设 |
| rank变换 | 13.76 | <0.005 |
dependents_Yes满足PH假设,其余3个增值服务相关变量均不严格满足PH假设,说明这些变量的保护效应并非固定不变,而是随时间发生变化。
本项目中,DSL宽带、在线备份、技术支持均不严格满足PH假设,标准Cox模型输出的固定HR仅能作为整个周期的「时间加权平均风险比」,可能无法精准刻画效应的时间动态变化。
为解决Cox模型PH假设不满足的问题,我们引入全参数的加速失效时间(Accelerated Failure Time, AFT)模型,该模型无需满足PH假设,直接建模用户生存时间,输出变量对用户生命周期的拉伸/缩短倍数。对数分布下,系数 > 0代表该因素会延长客户的留存时间(即“减慢”了失效的过程),系数 < 0代表该因素会缩短留存时间。
本项目采用适配用户流失长尾分布的Log-Logistic分布拟合AFT模型,核心结果如下:
模型诊断结果:以onlineSecurity和techSupport两个特征为例,绘制该模型组别间的对数几率曲线 (Log-Odds Plots)。发现数据整体符合Log-Logistic分布的线性要求(Log-Odds Plots大致呈现直线),但亦存在轻微的分布偏离;两组直线也不完全平行,也未能严格满足AFT恒定加速的假设。
基于Cox生存模型输出的用户留存概率,将统计结果转化为可落地的商业指标——客户生命周期价值(LTV,即累计净现值NPV),为企业获客成本、运营投入提供盈亏平衡基准。
后续可通过引入时间依存协变量Cox模型、拆分时间窗分阶段建模,进一步精准刻画变量效应的时间动态变化;同时可纳入更多用户行为特征,提升模型的预测精度与业务价值。