R軟體在決策樹的實務應用

ISBN13：9789571191492
出版社：五南圖書出版
作者：吳明隆; 張毓仁
裝訂／頁數：平裝／640頁
規格：25.7cm*19cm*3cm (高/寬/厚)
版次：1
出版日：2017/05/01
關鍵字： R軟體在決策樹的實務應用、軟體、決策、實務、應用、統計電子資料處理、統計電腦資料處理、五南圖書出版、吳明隆、張毓仁、財經企管、行銷企管、統計、統計資料之處理、教科考用、教科用書、財經學群、統計軟體、統計電子資料處理；統計電腦資料處理、

教科考用：教科用書財經學群統計統計軟體

中文圖書分類：統計電子資料處理；統計電腦資料處理

定價：NT$ 760 元

優惠價：95 折 722 元

領券後再享88折

領

團購優惠券A

8本以上且滿1500元
再享89折，單本省下79元

領

無庫存，下單後進貨(採購期約4~10個工作天)

可得紅利積點：21 點

相關商品

商品簡介

作者簡介

書摘/試閱

商品簡介

●從使用者觀點出發，實務的角度論述，有系統地介紹R軟體在資料探勘預測分類的實務應用。
●內容詳細介紹不同套件函數在決策樹的使用方法、模型效度檢定法，決策樹與複迴歸分析、邏輯斯分析與區別分析的綜合應用。
●搭配範例解說，讓學習更能事半功倍。
●書籍內容適合大專院校學生、研究生，更適合對R軟體統計分析有興趣的研究者。

本書特色：

－－－－－－－－－－
《R軟體在決策樹的實務應用》為R軟體統計分析系列叢書之三，其內容接續《R軟體統計應用分析實務》、《R軟體統計進階分析實務》二本專書。書籍內容以使用者為導向的論述表達，詳細介紹R軟體在迴歸樹與預測分類的實務應用，內容兼顧理論與實務、函數與語法說明、統計方法使用與結果解析。內容所述可讓讀者快速熟悉R軟體在資料探勘之決策樹的使用，熟悉R軟體套件函數在預測分類的實務應用與知悉R軟體相關函數的功能。本書可作為統計相關課程的參考用書或資料處理的工具書。

作者簡介

吳明隆
現職
　高雄師範大學師資培育中心教授
學歷
　高雄師範大學教育學博士

張毓仁
現職
　屏東縣國小主任
學歷
　中央大學課程與教學所博士

Chapter 03　迴歸樹
　壹、迴歸樹模型建構
一、函數rpart ( )—建構迴歸樹模型
二、葉節點參數估計值
三、函數printcp ( )—輸出複雜度參數
四、函數post ( )—繪製迴歸樹圖形
五、函數rpart ( )引數參數的範例
六、函數labels ( )與函數path.rpart ( )的應用
七、函數rsq.rpart ( )—繪製差異分支漸進R平方圖
　貳、適配迴歸樹模型殘差
　參、套件{ggplot2}函數ggplot ( )的繪圖應用
　肆、迴歸樹的修剪
　伍、解釋變數為因子變數

Chapter 04　分類樹
　壹、反應變數為三分類別變數
一、建構分類樹模型
二、繪製分類樹圖形
三、分類樹的殘差值
四、分類樹的分類路徑
五、分類樹的剪裁
六、分類樹的預測
　貳、反應變數為二分類別變數
一、分類樹模型建構
二、分類樹分割路徑
三、分類樹圖形
四、分類樹殘差值
五、不同引數界定的分類樹

Chapter 05　決策樹的圖形繪製
　壹、函數rpart.plot ( )
　貳、函數prp ( )
一、繪製圖形基本引數
二、節點標記調整的引數
三、控制分支標記的引數
四、調整樹分支線的引數
　參、繪圖函數應用
　肆、解釋變數為因子變數的決策樹圖形繪製
　伍、圖形決策樹的修剪
　陸、套件{plotmo}函數plotmo ( )的應用

Chapter 06　複核效度驗證
　壹、預測分類函數
　貳、資料檔的分割預測
一、系統抽樣切割資料檔
二、隨機抽樣切割資料檔
三、分層隨機抽樣切割資料檔
　參、反應變數為三分類別變數
一、單一效度檢定
二、平均效度檢定
　肆、分層隨機抽樣函數

Chapter 07　k疊交互驗證法
　壹、六疊效度驗證法
一、採用系統抽樣法
二、採用隨機抽樣法
　貳、連續變數之分類樹的應用
一、分類樹模型建構
二、分類樹模型效度檢定
　參、十疊交互驗證法

Chapter 08　套件{evtree}的函數應用
　壹、函數evtree ( )語法
　貳、函數應用
一、迴歸樹
二、分類樹
三、反應變數為多分類別變數
　參、套件{evtree}函數predict ( )
一、分層隨機抽樣
二、系統抽樣 (有排序)
三、系統抽樣 (未排序)
四、大樣本決策樹的應用

Chapter 09　套件{partykit}的函數應用
　壹、ctree ( )函數
　貳、函數應用—迴歸樹
一、決策樹模型建構
二、分類準則設定
三、葉節點的差異比較
　參、繪製決策樹圖函數plot ( )
　肆、函數lmtree ( )與glmtree ( )
一、函數lmtree ( )的應用
二、函數glmtree ( )的應用
　伍、分類樹的應用
一、適配分類樹模型I建構
二、繪製適配分類樹圖
三、適配分類樹模型II建構與繪製
　陸、大樣本的應用
一、適配迴歸樹模型
二、適配分類樹模型
　柒、預測函數predict ( )

Chapter 10　套件{RWeka}與套件{tree}的函數應用
　壹、套件{RWeka}函數J48 ( )函數
一、函數J48 ( )語法
二、函數應用
三、效度檢定
　貳、套件{tree}函數tree ( )
　參、顯著性與決策樹關係
一、相關與迴歸樹
二、差異與分類樹

Chapter 11　複迴歸與迴歸樹
　壹、基本套件lm ( )的函數應用
　貳、套件{Blossom}函數ols ( )與lad ( )的應用
一、函數ols ( )
二、函數lad ( )
　參、套件{psych}函數setCor ( )的應用
　肆、套件{rms}函數ols ( )的應用
　伍、迴歸樹
一、套件{GGally}相關矩陣圖函數
二、迴歸樹模型
三、解釋變數重要性檢核
四、迴歸樹預測效度

Chapter 12　邏輯斯迴歸分析與分類樹
　壹、邏輯斯迴歸分析
一、資料框架物件解析
二、套件{radiant}函數logistic ( )的應用
三、套件{rms}函數lrm ( )的應用
　貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
　參、套件{C50}函數C5.0 ( )的應用
　肆、拔靴法分類樹
　伍、套件{rpartScore}函數rpartScore ( )的應用

Chapter 13　區別分析與分類樹
　壹、區別分析
一、套件{DiscriMiner}函數應用
二、套件{mda}函數fda ( )
三、套件{MASS}函數lda ( )
四、區別分析效度檢定
　貳、分類樹
一、套件{rpart}函數rpart ( )
二、套件{partykit}函數ctree ( )
三、套件{evtree}函數evtree ( )
四、套件{Rweka}函數J48 ( )
五、套件{C50}函數C5.0 ( )

Chapter 14　函數與流程控制
　壹、自訂函數
　貳、迴圈(loop)
　參、邏輯條件判別
　肆、統計分析的應用
一、相關矩陣
二、t檢定的應用
三、單因子變異數分析的應用
　伍、決策樹的應用
　陸、決策樹向度變數

Chapter 15　RStudio整合發展環境
　壹、RStudio整合開發環境界面與專案
　貳、智慧型自動完成指令
　參、編輯器語法指令的執行
　肆、各種選項的設定
　伍、套件安裝與載入
　陸、外部資料檔匯入

書摘/試閱

分類 (classification) 為資料探勘 (data miniing) 領域的一個範疇，與區別分析、邏輯斯 (logistic) 迴歸分析的功能類似。預測分類的統計程序常見的方法有集群分析、迴歸分析、區別分析、邏輯斯迴歸、決策樹 (decision tree) 等。決策樹的功能在於分類與預測，演算程序從總樣本觀察值中，找到一個最佳的分割變數，將觀察值進行分組，次則從分組後的子資料集中，再找出最佳的分割變數將子資料集分成小資料集，此種程序的演算程序類似樹的成長，分割的次數愈多，樹的成長愈繁雜，樹的起始處稱為根節點 (root node)、樹的結束處稱為葉節點 (leaf node) 或終點節點 (terminal node)。
分類中的決策樹 (decision tree) 依效標變數 (依變數/反應變數) 變數尺度不同，分成迴歸樹 (regression tree) 與分類樹 (classification tree)，效標變數 (反應變數) 如為等距變數或比率變數 (計量變數)，決策樹稱為迴歸樹，預測分類的結果為觀察值在效標變數的平均數；效標變數如為名義變數或次序變數 (間斷變數)，決策樹稱為分類樹，預測分類的結果為觀察值在效標變數的水準群組或類別。書籍中的決策樹的依變數多以「反應變數」(response variable) 表示，預測變數以「解釋變數」(explanatory variables) 表示，依變數如為計量變數，則稱為「連續反應變數」(continuous-response variable)，反應變數為二個水準群組的因子變數，稱為「二元反應變數」(binary response variable)。與複迴歸程序相同，決策樹程序中的解釋變數如為間斷變數要轉換化為虛擬變數 (dummy variable)。
不同反應變數之變數屬性對應的預測分類統計程序如下表：

（表格）

常見的決策樹演算法有二種，卡方自動交互偵測法 (Chi-square Automatic Interaction Detection; [CHAID])、分類迴歸樹法(Classification and Regression Tree; [CART]/[CRT])，其他決策樹演算法還有 AID 法、FACT 法、QUEST 法、C4.5 法、Ctree 法等。SPSS 統計軟體之決策樹成長方法主要為 CHAID 法、CRT(CART) 法、QUEST 法等幾種。R 軟體決策樹演算法多數採用 CART 法，CART是一種二元分類法，父節點分支為二個子節點，分割準則為左節點與右節點二個子節點 (child node) 的差異值最大，而子節點內樣本觀察值差異性最小 (相似性最大)，分割前與分割後的不純度 (impurity) 量測值為最大，起始節點稱為根節點(root node)、結束節點稱為葉節點，根節點與葉節點間的節點稱為子節點 (childnode) 或分支節點，子節點負責連結根節點 (樹根) 與葉節點 (樹葉)，又稱為分割點 (branching point)，根節點與分支節點在決策樹模型中皆稱為內部節點。
CART 決策樹 (classification and regression tree) 其實是一種二元樹狀結構(binary tree structured classifiers)，分支條件的變數為解釋變數中的最重要變數(或最具預測力的變數)，從分支條件的變數可以看出那一個解釋變數對反應變數有顯著的預測分類力。CART 分類演算法主要包括分類準則與不純度量測值(impurity measure)，分類準則與集群分析相同，分割的左子節點與右子節點間的異質性最大 (左子節點與右子節點間的同質性最小)，各子節點內觀察值的異質性最小 (同質性最高)；反應變數若為類別變數，不純度量測值常見的方法為 Gini 指標法，反應變數為計量變數，不純度量測值為最小平方誤差法 (least squares deviation)，一般判別指標值為離均差平方和 (sum of square of deviation from the mean; [SS])。至於解釋變數的重要性，可以從主要分割變數之改進值(improvement measure)(或稱改善值) 進行評定。