設計說明
- 請使用線性迴歸預測方式撰寫程式,讀取NBApoints.csv,此資料收集了NBA球員的資訊。
- NBApoints.csv其中每一行都包含用逗號分隔的字串格式等共30個欄位,資料集的欄位詳細說明如下
- 請將Pos欄位及Tm欄位等非數值資料轉換為數值,以利進行後續處理。某些欄位可能有遺漏值(missing value),請直接刪除這些欄位有遺漏之資料。
- 接著建立機器學習模型並預測三分球命中次數(3P),以全部欄位(3P,3PA, 3P%三個欄位除外)進行訓練。
- 運用sklearn.linear_model.score,計算出R-squared與P-value。
請依序回答下列問題
- 請填入此時R-squared 之值的模型解釋力(四捨五入取至小數點後第四位)?
- 檢定變數的顯著性,以該欄位的P-value (P值)是否小於0.05(信心水準95%)來判定。請問有哪些欄位的P值顯著?
- 若將新機器學習模型的特徵欄位改為前題所得的顯著欄位中最小的5個欄位以預測三分球命中次數(3P),請填入此時R-squared 之值的模型解釋力(四捨五入取至小數點後第四位)?
請參考範例2-10-2NBA資料集線性迴歸.ipynb作答
作業成果
【雲端連結(請點我)https://colab.resear...D_eNCJ6f?usp=sharing】