設計說明
- 請撰寫程式讀取寶可夢資料集pokemon.csv,並進行分類及預測。
- 寶可夢的某些欄位可能有遺漏值(missing value),請直接刪除這些欄位有遺漏之寶可夢。
- 針對各數值欄位進行標準化。–標準化定義為「將資料X轉換為Z = (X-μ) /σ」,其中μ為資料平均數,σ為資料之變異數。此轉換可使用StandardScaler完成。
- 利用線性支援向量分類器(Support Vector Classifier, SVC)針對Type1為Normal, Fighting, Ghost三種寶可夢的欄位進行分類。
- 計算錯誤分類的個數、分類的準確度(Accuracy)以及有加權的F1-score。
- 請選定用哪三個(包含'Attack', 'Defense')欄位可使錯誤分類的個數為最小。
請依序回答下列問題
- 請選定使用哪三個(包含'Attack', 'Defense')欄位可使錯誤分類的個數為最小?
- 填入此時錯誤分類的個數?
- 請填入此時分類結果的準確度Accuracy(四捨五入取至小數點後第四位)?
- 請填入此時分類結果的平均F1-score (weighted)(四捨五入取至小數點後第四位)?
請參考範例2-5-2寶可夢屬性分類_104.ipynb作答
成品(程式碼於本行下方,使用colab雲端開啟)
雲端連結(請點我)
- 由於資料預處理後,Type2欄位遺失值佔將近半數,故不移除也不納入討論。
- 結果整理如表:
- 選定 'Total' 欄位,即使用 'Attack'、'Defense' 以及 'Total' 欄位可使錯誤分類的個數最小。