2016.10.17
資料集內容:a, b, c, d, G
其中 a~d 均為隨機1~10之資料
G為待預測或待決策變數,實際來源為(a mod 4 -> 鼠/牛/虎/兔)
設定預測公式為「G ~ a+b+c+d」(G ~ .)
此類資料可能不適用決策樹套件,
其預測結果會單純就訓練集中選出機率最大者當答案,
亦即、若是「牛」在訓練集中佔最多,其答案永遠是「牛」…
總之、在這個實驗中,party決策樹就是不堪使用…
更正:實驗之後發現、之前僅用100筆資料、故資料不足、無法正確預測,
改為1000筆即可正常預測…
此套件就這個測試集而言、表現良好,
而且有importance函數可以評比給定參數的重要性,
很明顯有找出a為最重要!!
但此方法似乎不能顯示計算後的決策森林為何?
只能丟別的資料進入測試…
這個套件的好處是會很詳盡地把決策樹畫出來,
但畫出來的東東哩,只能說是不忍卒睹啊,不知道有什麼結論說的…
資料集內容:a, b, c, d, G
其中 a~d 均為隨機1~10之資料
G為待預測或待決策變數,實際來源為(a mod 4 -> 鼠/牛/虎/兔)
設定預測公式為「G ~ a+b+c+d」(G ~ .)
1.party套件:產生決策樹之用
此類資料可能不適用決策樹套件,
其預測結果會單純就訓練集中選出機率最大者當答案,
亦即、若是「牛」在訓練集中佔最多,其答案永遠是「牛」…
總之、在這個實驗中,party決策樹就是不堪使用…
更正:實驗之後發現、之前僅用100筆資料、故資料不足、無法正確預測,
改為1000筆即可正常預測…
2.randomForest套件:隨機森林預測
此套件就這個測試集而言、表現良好,
而且有importance函數可以評比給定參數的重要性,
很明顯有找出a為最重要!!
但此方法似乎不能顯示計算後的決策森林為何?
只能丟別的資料進入測試…
3.rpart套件:也是決策樹
這個套件的好處是會很詳盡地把決策樹畫出來,
但畫出來的東東哩,只能說是不忍卒睹啊,不知道有什麼結論說的…
發表回應
( 共計529閱讀人次 )
| permalink
| ( 3 / 574 )