網(wǎng)絡流量用戶流失預警分析

發(fā)布時間：2022 年 12 月 1 日，作者M社營銷

閱讀 1493

本文所涉及到的分析框架和方法論等具有較強的通用性，可供有需要的同學了解參考。

一、分析背景

“根據(jù)美國貝恩公司的調(diào)查，在商業(yè)社會中5％的客戶留存率增長意味著公司利潤30％的增長，而把產(chǎn)品賣給老客戶的概率是賣給新客戶的3倍。所以在‘增長黑客’圈內(nèi)有一句名言：留住已有的用戶勝過拓展新的客戶，也就是俗稱的‘一鳥在手，勝過雙鳥在林’?！?/p>

——引用自《增長黑客》

用戶留存和用戶流失是一組相對的概念。諸如獲得一個新客戶的成本是保持一個老客戶的5倍等經(jīng)過眾多商業(yè)實踐總結(jié)出來的數(shù)據(jù)都證明了一個事實——提升用戶留存率，減少用戶流失，對于任何一家企業(yè)來說都是非常重要。

而隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的高速發(fā)展，傳統(tǒng)模式下的很多發(fā)展瓶頸得到了重大突破，成本結(jié)構(gòu)也發(fā)生了顯著變化。但對于企業(yè)來說，用戶留存依然是反映企業(yè)及產(chǎn)品核心競爭力的關(guān)鍵要素。

在用戶生命周期管理（CLM）的分析框架下，不同的用戶生命周期階段我們需要考慮不同的問題，制定不同的用戶管理策略，不斷改善用戶體驗的同時，實現(xiàn)用戶生命周期價值（CLV）的**化。

不同用戶所處的階段可能是不一樣的，且每一個階段的時間跨度和展現(xiàn)形式可能也有所不同。針對用戶衰退階段，構(gòu)建高危流失用戶的預警機制，制定面向高危用戶挽留策略，是延長用戶生命周期、提升用戶留存的重要舉措，這也是本文將要重點闡述的研究內(nèi)容。

網(wǎng)絡流量用戶流失預警分析

圖1：用戶生命周期

關(guān)于對用戶數(shù)據(jù)如何開展分析挖掘，目前業(yè)界已有不少成熟的方法論，而我們的分析流程也是在這些方法論的指導下有序開展的。當前業(yè)界主要的兩大方法論分別是SEMMA方法論和CRISP-DM方法論。其中SAS公司提出的SEMMA方法論，即抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)、評估(Assess)，強調(diào)的是這5個核心環(huán)節(jié)的有機循環(huán)。

而SPSS公司提出的CRISP-DM是英文縮寫，全稱為跨行業(yè)數(shù)據(jù)挖掘標準流程(Cross-Industry Standard Process for Data Mining)，突出業(yè)務理解、數(shù)據(jù)理解、數(shù)據(jù)準備、建模、評價和發(fā)布這幾個環(huán)節(jié)，強調(diào)將數(shù)據(jù)挖掘目標和商務目標進行充分結(jié)合。

在具體實踐中，CRISP-DM強調(diào)上層的商務目標的實現(xiàn)，SEMMA則更側(cè)重在具體數(shù)據(jù)挖掘技術(shù)的實現(xiàn)上。只有將兩種方法緊密聯(lián)系在一起，才能達到更好地達成數(shù)據(jù)分析挖掘的效果。

網(wǎng)絡流量用戶流失預警分析

圖2：數(shù)據(jù)分析挖掘方法論

二、流失預警模型構(gòu)建

基于上述方法論，下面結(jié)合具體的業(yè)務場景，詳細介紹用戶流失預警的分析思路及模型建設(shè)過程。

2.1 業(yè)務理解

針對某業(yè)務用戶活躍度下降、沉默用戶比例較高的業(yè)務現(xiàn)狀，著手建立高潛流失用戶預警及挽留機制，以期提升用戶留存，拉動活躍，“防患于未然”。而落腳點則是建立一套流失預警的分類模型，預測用戶的流失概率。

基于上述需求，首先我們要明確“用戶流失”的定義，使得分析的目標更符合業(yè)務理解及分析要求。

2.1.1 用戶流失行為定義

這里羅列了流失分析可能需要考慮的三個維度：動因、程度和去向。不同業(yè)務場景下流失分析可能需要綜合考慮多個維度，以制定**為合理的分析目標。

1）流失動因

客戶主動流失（VOLUNTARY CHURN）——客戶主動銷戶或者改變當前的服務模式；
客戶被動流失（INVOLUNTARY CHURN）——客戶因為違規(guī)或欺詐等行為被停止服務及強行關(guān)閉賬戶等行為。

2）流失程度

完全流失——客戶發(fā)生關(guān)閉所有與企業(yè)服務相關(guān)賬戶和交易等不可恢復或者很難恢復的行為；
部分流失（PARTIAL CHURN）——客戶并未關(guān)閉賬戶但是交易水平突減到一定水平之下，例如在產(chǎn)品使用場景下用戶使用頻率突降了50%等等。

3）流失去向

外部——客戶關(guān)閉或減少了在當前機構(gòu)的業(yè)務而轉(zhuǎn)向了其它競爭對手；
內(nèi)部——客戶關(guān)閉或減少了在當前機構(gòu)的部分業(yè)務而轉(zhuǎn)向了當前機構(gòu)的其它業(yè)務。

可見，對于流失的理解可以是多方位的，需要結(jié)合具體的場景和需求。這里我們只簡化考慮用戶在某項業(yè)務主動部分流失的情況。

2.1.2 Roll-rate分析

針對流失的目標定義，我們鎖定一批用戶，觀察其在后續(xù)業(yè)務使用方面的持續(xù)沉默天數(shù)，滾動考察用戶回流比例。我們發(fā)現(xiàn)，當QQ某業(yè)務用戶沉默天數(shù)超過兩周后，回流率環(huán)比已經(jīng)低于10%且后續(xù)趨勢平穩(wěn)，因此我們將本次該業(yè)務流失分析的目標定義為：用戶該業(yè)務使用出現(xiàn)連續(xù)沉默14天及以上?；谠摱x著手構(gòu)建建模分析樣本。

網(wǎng)絡流量用戶流失預警分析

圖3：Roll-rate分析

2.2 數(shù)據(jù)理解

針對用戶流失預警這一分析目標，我們重點考察用戶活躍類指標，構(gòu)建流失預警分析建模指標體系：

網(wǎng)絡流量用戶流失預警分析

圖4：建模指標體系

2.3 數(shù)據(jù)準備

2.3.1 樣本構(gòu)造

流失預警分析樣本數(shù)據(jù)選?。?/p>

1）鎖定某日業(yè)務使用活躍用戶，統(tǒng)計其在后續(xù)14天的活躍情況；

2）由連續(xù)14天沉默賬號和14天有活躍賬號構(gòu)成樣本，并打上相應標簽；

3）統(tǒng)計樣本賬號在觀察點前8周的行為特征，按周匯總輸出，同時加入包括基礎(chǔ)畫像的特征屬性。

網(wǎng)絡流量用戶流失預警分析

圖5：建模樣本構(gòu)造

2.3.2 數(shù)據(jù)質(zhì)量檢驗

這項工作的重要性不言而喻，正所謂“垃圾進，垃圾出”，基礎(chǔ)數(shù)據(jù)如果無法保證良好的數(shù)據(jù)質(zhì)量，分析研究工作便會舉步維艱甚至是徒勞，分析得出的結(jié)論也是無效或者是錯誤的。因此，我們需要建立一套完整有效的數(shù)據(jù)質(zhì)量檢驗流程，這里暫且不就這部分內(nèi)容展開介紹了。

2.4 建模分析

根據(jù)SEMMA的數(shù)據(jù)挖掘方法論，建模分析過程主要包括抽樣(Sample)、探索(Explore)、修改(Modify)、建模(Model)和評估(Assess)這五個關(guān)鍵環(huán)節(jié)。而下面就這五個環(huán)節(jié)的技術(shù)實現(xiàn)過程中涉及到的一些關(guān)鍵點進行簡要闡述：

2.4.1 粒度的選擇

根據(jù)分析目標，選擇合適的分析粒度。不同的粒度意味著需要對數(shù)據(jù)需要做不同方式的處理以及應用。比如說我們是基于賬號還是自然人，這個問題需要在模型建設(shè)初期就明確下來。目前流失預警分析以QQ用戶賬號為分析單元。

2.4.2 抽樣與過抽樣

抽樣就是從原始數(shù)據(jù)中，抽取一定量的記錄構(gòu)成新的數(shù)據(jù)。對于原始數(shù)據(jù)規(guī)模非常大的場景來說，抽樣往往是必要的，可以大大提升模型訓練的速度。當然，隨著分布式計算等大規(guī)模數(shù)據(jù)處理及分析能力的引入，使用完整的、大量的數(shù)據(jù)樣本進行模型訓練的可能性也越來越高。

而過抽樣則可以理解為多抽取稀有的標簽，而少取常見的標簽，這種抽樣方法在建模過程中相當常見。比如本次流失分析的場景下，流失用戶作為目標樣本，相比整體大盤來說肯定是屬于稀有的標簽。為保證模型的有效性，我們需要按照一定配比，建立由流失和非流失用戶構(gòu)成的建模樣本，并分別打上‘1’和‘0’的狀態(tài)標簽。兩類樣本的比例關(guān)系并沒有固定標準。一般情況下，目標標簽樣本占建模數(shù)據(jù)集的比例在20%-30%，會產(chǎn)生較好的模型效果。

另外，也可以通過樣本加權(quán)的方式進行過抽樣，實現(xiàn)增加建模數(shù)據(jù)集密度的同時而不減少其規(guī)模。具體操作上一般將**的權(quán)重設(shè)為1，而其他所有權(quán)重都取小于1的值，以此減少模型過擬合的風險。

2.4.3 數(shù)據(jù)探索與修改

數(shù)據(jù)探索即對數(shù)據(jù)開展初步分析，包括考察預測變量的統(tǒng)計特性及分布、缺失及異常值發(fā)現(xiàn)及處理、變量關(guān)聯(lián)性及相關(guān)性分析等單變量或多變量交叉分析。

1）變量離散化

在對建模數(shù)據(jù)進行單變量分析及預處理的過程，對變量進行分組，目的在于觀察變量與目標事件的對應趨勢，判斷是否與實際業(yè)務理解相符，從而決定變量是否適用。同時通過變量分組，減少變量屬性個數(shù)，有助于避免異常值對模型的影響，提升模型的預測和泛化能力。

具體做法是對變量按照一定規(guī)則進行劃分，比如對于連續(xù)型的數(shù)值變量，按照分位點對變量取值進行等高劃分為大約10個區(qū)間，具體如下：

網(wǎng)絡流量用戶流失預警分析

圖6：單變量分布

2）WOE（Weights of Evidence）值計算

在變量分組的基礎(chǔ)上，我們這里使用證據(jù)權(quán)重WOE對變量取值的編碼轉(zhuǎn)換，作為**后模型的輸入。WOE的計算公式如下：

WOEattribute= log(p_non-eventattribute/p_eventattribute)

其中：

p_non-eventattribute= #non-eventattribute/#non-event（模型變量各特征分段下非事件響應用戶數(shù)占總體非事件響應用戶數(shù)的比例）

p_eventattribute= #eventattribute/#event（模型變量各特征分段下事件響應用戶數(shù)占總體事件響應用戶數(shù)的比例）

從這個公式中可以看到，WOE表示的實際上是“當前分組中非響應用戶占所有非響應用戶的比例”和“當前分組中響應的用戶占所有響應的用戶的比例”的差異。WOE越大，這種差異越大，這個分組里的樣本響應的可能性就越小，即用戶流失風險越小。

將字符型和數(shù)據(jù)型變量分組后的WOE值，可以作為回歸模型訓練的輸入。

3）變量選擇

關(guān)于模型待選變量的選擇標準主要從四個方面加以考慮：變量的預測能力、變量的穩(wěn)定性、變量與業(yè)務的趨勢一致性、變量間的相關(guān)性、變量的預測能力。

變量的預測能力：

在變量預測力方面，選擇計算信息值IV(Information Value)來量度。IV值一方面可以用于選擇預測變量，另一方面也可以作為分組是否合適的判斷依據(jù)。

IV的定義和熵（平均信息量）的定義很相似：

IV =∑((p_non-eventattribute- p_eventattribute) * woeattribute)

一般情況下，IV的衡量標準如下：

網(wǎng)絡流量用戶流失預警分析

表1：IV衡量標準

變量的穩(wěn)定性：

變量的穩(wěn)定性主要是跨時點考察特征分段樣本分布是否存在明顯異動。對波動性較強的變量則需要考慮是否需要結(jié)合時間序列做衍生處理，又或者被剔除。穩(wěn)定性指標通過PSI（Population Stability Index）來度量。具體計算公式如下：

Index=∑（（比較時點分段樣本百分比-基準時點分段樣本百分比）*ln（比較時點分段樣本百分比/基準時點分段樣本百分比）

一般情況下，PSI的衡量標準如下：

網(wǎng)絡流量用戶流失預警分析

表2：PSI衡量標準

變量與業(yè)務的趨勢一致性：

這個標準可以結(jié)合業(yè)務知識、特征分布及WOE進行綜合判斷。

變量間相關(guān)性：

計算變量間的相關(guān)系數(shù)，當評分模型變量間的相關(guān)性過高，會產(chǎn)生共線性(collinearity)的問題，導致使模型的預測能力下降，甚至出現(xiàn)與預測結(jié)果相反無法解釋的現(xiàn)象。為避免變量間的高度相關(guān)削弱模型預測能力，對相關(guān)系數(shù)較高的變量集合可通過IV擇優(yōu)選取。

2.4.4 建模

前面我們通過大量的特征分析工作圈定了有效模型入選變量，接下來通過模型算法的選擇調(diào)用**終輸出模型結(jié)果，給每個用戶單元計算流失概率。作為一個分類問題，目前我們有比較多的模型算法可以嘗試，比如說邏輯回歸和決策樹。通過模型比較，我們**終選擇邏輯回歸進行建模。由于邏輯回歸是業(yè)務已經(jīng)比較成熟的分類算法，大多數(shù)分析同學應該都比較了解，這里就不再贅述其原理。

2.5 模型評價

對于一個模型是否達標，我們一般會從以下幾個方面去考量：

1）是否達到符合應用要求的準確性水平

這里我們可以通過Lift Charts（又叫 gains chart）、ROC Charts、KS等評價指標來對模型性能進行評估比較。

2）是否具有較高的穩(wěn)定性

同樣的，我們可以借鑒變量分析里面的穩(wěn)定性系數(shù)PSI來衡量及監(jiān)控模型的穩(wěn)定性。

3）是否簡單

這個標準主要是從模型部署的角度考慮，模型如果足夠簡單，將更有利于模型的IT部署應用。

4）是否有意義

即在模型變量及其預測結(jié)果方面具有較強的可解釋性。這對于某些場景來說要非?？粗氐闹笜耍热缯f在銀行信貸的信用評分模型的應用上。它是技術(shù)與業(yè)務有效連接的重要橋梁，有利于業(yè)務方更好理解模型并有效指導業(yè)務開展。當然，隨著機器學習領(lǐng)域一些高級算法的研究使用，可解釋性要求在某些場景下已經(jīng)不屬于必要條件。

2.6 模型應用

關(guān)于模型應用，我們主要聚焦在以下兩個方面：

1）用預測模型得到影響流失的重要因素

通過單變量分析找出對業(yè)務有突出影響的一系列“Magic Number”。為什么叫“Magic Number”？顧名思義，這個數(shù)字能給業(yè)務增長帶來魔力般的神奇促進效果。通過對關(guān)鍵影響指標的量化分析，可以幫助業(yè)務有效制定運營目標。

網(wǎng)絡流量用戶流失預警分析

圖7：Magic Number

如上圖所示，在流失預警的分析中，我們發(fā)現(xiàn)若干對用戶流失顯著相關(guān)的特征指標，比如好友數(shù)。好友數(shù)量達到50個及以上的用戶流失率只有好友數(shù)50個以下用戶的30%左右，可見好友數(shù)指標對于用戶留存存在正向作用，再次驗證我們大力開展好友推薦、優(yōu)化QQ用戶好友關(guān)系結(jié)構(gòu)的必要性。

2）用預測模型預測客戶流失的可能性

利用模型輸出的概率結(jié)果，對流失概率**的一部分用戶，可以開展針對性的運營管理，比如設(shè)計有效的喚醒機制、好友推薦、個性化推薦以及合作產(chǎn)品引導等，挖掘用戶的應用需求點和興趣點。同時建立分析-應用-反饋的閉環(huán)流程，持續(xù)對用戶留存流失進行監(jiān)控管理，及時發(fā)現(xiàn)問題，以指導模型優(yōu)化及策略更新。

三、優(yōu)化研究方向

可以嘗試從以下兩個方面開展優(yōu)化分析：

3.1 用戶群體細分

針對不同類型的用戶分別搭建流失預警模型。

3.2 用戶行為分析

分析用戶產(chǎn)品使用行為及內(nèi)容偏好，挖掘用戶使用習慣及興趣點，實現(xiàn)個性化推薦，拉動用戶活躍。

四、結(jié)語

在用戶流失預警這個分析案例中，我們結(jié)合業(yè)務現(xiàn)狀，在用戶生命周期管理的大框架下，采用業(yè)界較為成熟的數(shù)據(jù)分析挖掘方法論，開展數(shù)據(jù)分析工作。這里面重點介紹了特征分析的方法，這是我們在做用戶數(shù)據(jù)分析過程非常重要且必不可少的部分。

而在特征分析過程中，我們可以更加深入地了解業(yè)務特性，輸出更多的數(shù)據(jù)價值。這也是本文所希望傳達重要信息。由于知識和篇幅所限，有很多細節(jié)沒能闡述得特別深入，有些方法也許不是**的做法，歡迎對BI有興趣的同學加強交流，共同進步，更好地將數(shù)據(jù)價值應用到實際業(yè)務中。

http://aodeao.cn/14030.html

免責聲明：文章圖片未做標注，均來源于網(wǎng)絡，如有侵權(quán)，請聯(lián)系刪除！

抖音剪輯音樂怎么賺錢？賺錢的方式有哪些？ ? ? ? ? 抖音音頻怎么提取出來？抖音短視頻怎么選配樂？

點擊下方立即獲取您的行業(yè)調(diào)查背景及免費運營方案

立即聯(lián)系JRMarketing專業(yè)團隊