亚洲AV色香蕉一区二区,高清无码在线观看,男人的天堂va在线无码

決策樹：構造決策樹，實現(xiàn)分類預測

講師：傅一航瀏覽次數(shù)：2361

　　　分類，就是確定某個對象屬于哪個預定義的目標類的過程。　　在機器學習中，分類法有很多種，比如決策樹分類法、基于規(guī)則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法，等等。　　而決策樹是最常見的一種簡單卻廣泛使用的分類技術。　　決策樹，是一種樹形結構，其中每個節(jié)點表示一個屬性

　　分類，就是確定某個對象屬于哪個預定義的目標類的過程。

　　在機器學習中，分類法有很多種，比如決策樹分類法、基于規(guī)則的分類法、神經網絡、支持向量機和樸素貝葉斯分類法，等等。

　　而決策樹是最常見的一種簡單卻廣泛使用的分類技術。

　　決策樹，是一種樹形結構，其中每個節(jié)點表示一個屬性，每個分支代表屬性的取值，每個葉節(jié)點代表一種類別。

　　第一步：選擇一個屬性，構造根節(jié)點

　　比如選擇“月收入”構造根節(jié)點，其中“月收入”有三個取舍{低、中、高}，因此根節(jié)點有三個分支，這樣，形成3個子結點（也就是有3個子類別）。

　　如下圖所示，根節(jié)點中的數(shù)據(jù)表示，總共有14個人，其中違約用戶5個，按照“月收入”進行分類，可以分成3個子類別，其中“收入低”的類別共有5個人，其中違約用戶3個；“收入中”的用戶共有4人，沒有人違約。

　　第二步：對于不純的子節(jié)點，選擇一個屬性繼續(xù)生長

　　對于“收入中”子節(jié)點，只有一種用戶（非違約用戶），因此子節(jié)點是純的節(jié)點，不需要繼續(xù)生長了。

　　對于“收入低”子節(jié)點，違約用戶和非違約用戶都有，屬于不純節(jié)點，因此還需要繼續(xù)生長。

　　在“收入低”子節(jié)點中，選擇一個屬性“性別 ”繼續(xù)生長，性別有2個取值{男、女}，因此子結點可以分解為2個子節(jié)點。“收入低、男性”子節(jié)點中共有3個人，全部是違約用戶；“收入低、女性”子節(jié)點共有2個人，全部都不是違約用戶。

　　類似地，對于“收入高“的子節(jié)點，選擇“行業(yè)”屬性進行生長，也得到2個子節(jié)點。

　　決策樹：構造決策樹，實現(xiàn)分類預測

　　第三步：停止決策樹的生長

　　如上圖所示，當所有的子結點都滿足了停止生長的條件（比如所有子結點都是純的），決策樹就算完成了。

　　此時，所有的葉結點就是決策樹的分類類別。

　　第四步：評估分類質量

　　決策樹構造好之后，需要評估模型的好壞（質量）。

　　一般采用查準率和查全率來衡量模型的好壞，如上例所示。

　　查準率：總共有14個人，模型分類正確的有14個人，即查準率為100%。

　　查全率：總共有5個人違約，模型查出來的也是5個人，即查全率為100%。

　　查準率和查全率都比較高，說明模型比較好，可用。

　　第五步：提取“違約用戶”的特征

　　我們將有違約用戶的葉結點用背景色標識出來，可以發(fā)現(xiàn)那些違約用戶的特征：

　　1）月收入低，且性別為男；

　　2）月收入高，且在皮具行業(yè)工作。

　　第六步：預測新用戶預測

　　當決策樹模型構造好以后，就可以用來進行預測。

　　當一個新的申請貨款的用戶來貨款時，可以根據(jù)決策樹模型，來評估用戶最有可能屬于哪一個節(jié)點，如果新用戶所屬葉節(jié)點的違約風險極高，則應該拒絕給新用戶貨款；否則可以進行放貨。

　　決策樹的構造，理解起來是很簡單的。而且，容易生成或提取可識別的類別特征。

　　當然，其背后的實現(xiàn)算法還有很多需要思考的，比如應該選擇哪個屬性來進行生長？屬性的分支取值如何確定？決策樹生長的停止條件如何確定？這些內容對于開發(fā)者和算法設計者很重要，請關注我后續(xù)的文章。

轉載：http://malashangbang.com/zixun_detail/111850.html