电信客户生存分析与LTV测算

电信客户留存与生命周期价值(LTV)生存分析

yinzh | 2026年4月25日

文章目录

1. 项目背景与分析目标

本项目基于IBM电信客户流失数据集,通过生存分析方法,量化评估不同用户特征对客户留存时长的影响,并最终完成客户生命周期价值(LTV)的测算,为电信企业的用户运营、获客成本管控、增值服务推广提供数据支撑。

生存分析是一类专门处理「时间-事件」型数据的统计方法,核心优势是可以处理截尾数据(即分析时仍未流失的在网用户),精准刻画用户随时间变化的流失风险,相比传统的分类模型更适配留存与LTV分析场景。

本项目的核心分析目标:

2. 数据预处理与样本筛选

本项目基于IBM Telco Customer Churn数据集,为聚焦核心分析场景,我们对样本进行了精准筛选:

  1. 仅保留按月付费(Month-to-month)的用户,排除长期合约用户的干扰
  2. 仅保留开通互联网服务的用户,聚焦增值服务对留存的影响
  3. 完成缺失值清洗、特征标准化与独热编码,最终纳入分析的有效样本量为3351名用户

核心分析字段说明:

3. Kaplan-Meier 非参数生存评估

Kaplan-Meier(KM)是生存分析中最常用的非参数方法,无需假设数据分布,即可有效处理截尾数据,绘制用户生存曲线,直观展示随时间变化的留存概率。

3.1 总体用户生存情况

全量用户的生存分析结果显示:

生存曲线呈现「前期下降较快、中后期逐渐平缓稳定」的趋势,说明新用户前几个月存在流失高风险期,留存时间长的的用户流失概率会降低。

总体用户KM生存曲线

3.2 单变量组间差异检验

通过对数秩检验(Log-Rank Test)对比不同特征组的生存曲线差异,以Gender和OnlineSecurity两个变量为例进行分析展示:

Gender生存曲线
OnlineSecurity生存曲线
关键结论:KM分析验证了增值服务、家庭属性等特征对用户留存的显著影响,但仅能完成单变量分析,无法控制多变量的交互影响,因此需要引入多变量回归模型。

4. Cox 比例风险模型多变量分析

Cox比例风险模型是生存分析中最常用的半参数多变量回归模型,无需假设生存时间的分布,即可量化多个协变量对用户流失风险的影响,核心输出为风险比(Hazard Ratio, HR)

4.1 模型拟合结果

我们纳入4个核心协变量拟合Cox模型,结果如下:

Cox模型拟合结果

从结果可以看出,4个变量均为用户留存的显著保护因素,保护效应从强到弱排序为:在线备份 > 技术支持 > 有家属 > DSL宽带

5. 比例风险(PH)假设检验与模型诊断

Cox模型的核心适用前提是比例风险(Proportional Hazards, PH)假设:即协变量的风险比HR不随时间发生变化。若该假设不满足,模型输出的固定HR会存在偏倚,解读结果会出现误导。

本项目通过两种方法完成PH假设检验:Schoenfeld残差检验、对数-对数生存曲线平行性检验。

5.1 PH假设检验

Schoenfeld残差是Cox模型专属的诊断方法,核心逻辑:若PH假设成立,残差随时间变化无系统性趋势,拟合线应水平围绕0线波动;若拟合线有明显倾斜/弯曲,说明HR随时间变化,违反PH假设。

检验结果如下:

协变量 检验方法 检验统计量 p值 PH假设检验结论
dependents_Yes km变换 1.48 0.22 ✅ 满足PH假设
rank变换 0.81 0.37
internetService_DSL km变换 20.98 <0.005 ❌ 不满足PH假设
rank变换 26.71 <0.005
onlineBackup_Yes km变换 17.80 <0.005 ❌ 不满足PH假设
rank变换 17.47 <0.005
techSupport_Yes km变换 8.09 <0.005 ❌ 不满足PH假设
rank变换 13.76 <0.005
残差图-Dependents
残差图-DSL
残差图-OnlineBackup
残差图-TechSupport

5.2 检验结果解读

核心结论:dependents_Yes满足PH假设,其余3个增值服务相关变量均不严格满足PH假设,说明这些变量的保护效应并非固定不变,而是随时间发生变化。

本项目中,DSL宽带、在线备份、技术支持均不严格满足PH假设,标准Cox模型输出的固定HR仅能作为整个周期的「时间加权平均风险比」,可能无法精准刻画效应的时间动态变化。

6. 加速失效时间(AFT)模型方案

为解决Cox模型PH假设不满足的问题,我们引入全参数的加速失效时间(Accelerated Failure Time, AFT)模型,该模型无需满足PH假设,直接建模用户生存时间,输出变量对用户生命周期的拉伸/缩短倍数。对数分布下,系数 > 0代表该因素会延长客户的留存时间(即“减慢”了失效的过程),系数 < 0代表该因素会缩短留存时间。

6.1 模型拟合与诊断

本项目采用适配用户流失长尾分布的Log-Logistic分布拟合AFT模型,核心结果如下:

AFT模型拟合结果
核心结论:AFT 直接衡量变量对客户生存时间的“加速或减速”乘数效应。本环节纳入了支付方式、多线网络、是否有伴侣等 9 个虚拟变量。结果所有变量都在 0 的右侧。在对数分布下,这意味着这些因素全都能显著延长客户的寿命。AFT模型预测的全量用户中位生存时间约为21个月

模型诊断结果:以onlineSecurity和techSupport两个特征为例,绘制该模型组别间的对数几率曲线 (Log-Odds Plots)。发现数据整体符合Log-Logistic分布的线性要求(Log-Odds Plots大致呈现直线),但亦存在轻微的分布偏离;两组直线也不完全平行,也未能严格满足AFT恒定加速的假设。

Log-Odds Plot-OnlineSecurity
Log-Odds Plot-TechSupport

7. 客户生命周期价值(LTV)量化测算

基于Cox生存模型输出的用户留存概率,将统计结果转化为可落地的商业指标——客户生命周期价值(LTV,即累计净现值NPV),为企业获客成本、运营投入提供盈亏平衡基准。

7.1 测算假设

7.2 测算结果

LTV测算结果
核心商业洞察:用户留存时长与LTV呈强正相关。增值服务不仅直接带来收入,更通过拉长用户生命周期,带来可观的LTV增量。高价值用户群组的生存时间中位数超过6年,全生命周期累计LTV超过1600美元,为企业的获客成本划定了清晰的盈亏平衡点。

8. 项目总结

8.1 分析结论

  1. 增值服务(在线备份、技术支持)是提升用户留存的核心抓手,可将用户生命周期大幅延长,是具很高性价比的运营手段
  2. 新用户需重点推广在线备份、技术支持等增值服务,降低首年流失高风险

8.2 模型优化方向

后续可通过引入时间依存协变量Cox模型、拆分时间窗分阶段建模,进一步精准刻画变量效应的时间动态变化;同时可纳入更多用户行为特征,提升模型的预测精度与业务价值。