全國 [城市選擇] [會員登錄] [講師注冊] [機構注冊] [助教注冊]  
中國企業(yè)培訓講師

決策樹:構造決策樹,實現(xiàn)分類預測

 
講師:傅一航 瀏覽次數(shù):2361
   分類,就是確定某個對象屬于哪個預定義的目標類的過程。   在機器學習中,分類法有很多種,比如決策樹分類法、基于規(guī)則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法,等等。   而決策樹是最常見的一種簡單卻廣泛使用的分類技術。   決策樹,是一種樹形結構,其中每個節(jié)點表示一個屬性

  分類,就是確定某個對象屬于哪個預定義的目標類的過程。

  在機器學習中,分類法有很多種,比如決策樹分類法、基于規(guī)則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法,等等。

  而決策樹是最常見的一種簡單卻廣泛使用的分類技術。

  決策樹,是一種樹形結構,其中每個節(jié)點表示一個屬性,每個分支代表屬性的取值,每個葉節(jié)點代表一種類別。

  第一步:選擇一個屬性,構造根節(jié)點

  比如選擇“月收入”構造根節(jié)點,其中“月收入”有三個取舍{低、中、高},因此根節(jié)點有三個分支,這樣,形成3個子結點(也就是有3個子類別)。

  如下圖所示,根節(jié)點中的數(shù)據(jù)表示,總共有14個人,其中違約用戶5個,按照“月收入”進行分類,可以分成3個子類別,其中“收入低”的類別共有5個人,其中違約用戶3個;“收入中”的用戶共有4人,沒有人違約。

  第二步:對于不純的子節(jié)點,選擇一個屬性繼續(xù)生長

  對于“收入中”子節(jié)點,只有一種用戶(非違約用戶),因此子節(jié)點是純的節(jié)點,不需要繼續(xù)生長了。

  對于“收入低”子節(jié)點,違約用戶和非違約用戶都有,屬于不純節(jié)點,因此還需要繼續(xù)生長。

  在“收入低”子節(jié)點中,選擇一個屬性“性別 ”繼續(xù)生長,性別有2個取值{男、女},因此子結點可以分解為2個子節(jié)點。“收入低、男性”子節(jié)點中共有3個人,全部是違約用戶;“收入低、女性”子節(jié)點共有2個人,全部都不是違約用戶。

  類似地,對于“收入高“的子節(jié)點,選擇“行業(yè)”屬性進行生長,也得到2個子節(jié)點。

  決策樹:構造決策樹,實現(xiàn)分類預測

  第三步:停止決策樹的生長

  如上圖所示,當所有的子結點都滿足了停止生長的條件(比如所有子結點都是純的),決策樹就算完成了。

  此時,所有的葉結點就是決策樹的分類類別。

  第四步:評估分類質量

  決策樹構造好之后,需要評估模型的好壞(質量)。

  一般采用查準率和查全率來衡量模型的好壞,如上例所示。

  查準率:總共有14個人,模型分類正確的有14個人,即查準率為100%。

  查全率:總共有5個人違約,模型查出來的也是5個人,即查全率為100%。

  查準率和查全率都比較高,說明模型比較好,可用。

  第五步:提取“違約用戶”的特征

  我們將有違約用戶的葉結點用背景色標識出來,可以發(fā)現(xiàn)那些違約用戶的特征:

  1) 月收入低,且性別為男;

  2) 月收入高,且在皮具行業(yè)工作。

  第六步:預測新用戶預測

  當決策樹模型構造好以后,就可以用來進行預測。

  當一個新的申請貨款的用戶來貨款時,可以根據(jù)決策樹模型,來評估用戶最有可能屬于哪一個節(jié)點,如果新用戶所屬葉節(jié)點的違約風險極高,則應該拒絕給新用戶貨款;否則可以進行放貨。

  決策樹的構造,理解起來是很簡單的。而且,容易生成或提取可識別的類別特征。

  當然,其背后的實現(xiàn)算法還有很多需要思考的,比如應該選擇哪個屬性來進行生長?屬性的分支取值如何確定?決策樹生長的停止條件如何確定?這些內容對于開發(fā)者和算法設計者很重要,請關注我后續(xù)的文章。



轉載:http://malashangbang.com/zixun_detail/111850.html
傅一航
[僅限會員]