設計說明
請撰寫程式讀取sklearn.datasets的手寫數字資料集,此資料集有1,797筆資料,每筆資料是大小為8×8的影像,共64個數值特徵欄位。
針對數值欄位進行標準化(Standardization)。
對資料集進行PCA,取前i(i=1~10)個主成分再進行 K-Means(以k-means++ 做初始化)。
分別計算上述模型的輪廓係數(Silhouette coefficient)。分別計算上述模型的分類準確率(Accuracy)。
請依序回答下列問題
請填入n_components參數是多少時模型的輪廓係數為最大?請填入此時模型的輪廓係數(四捨五入取至小數點後第四位)?
請填入n_components參數是多少時模型的準確率為最大?請填入此時模型的準確率(四捨五入取至小數點後第四位)?
請參考範例3-6手寫數字分群_204.ipynb作答
作品成果
【雲端連結(請點我)】
結論
n_components 參數是 9 時模型的輪廓係數為最大,此時模型的輪廓係數為 0.1458
n_components 參數是 10 時模型的準確率為最大,此時模型的準確率為 0.2165
透過上述模型訓練,發現輪廓係數皆不到兩成,準確率最高僅兩成出頭,表示模型訓練效果不佳,仍有很大改進空間