操作實例的目的:建立一個管道進行文件特徵提取,並且運用網格搜尋的超參數最佳化方式,評估出最佳的參數組合
處理的資料型態:本操作實例中使用的是20個新聞組資料集中2個類別資料
處理流程:
載入套件
設定在標準輸出上顯示進度日誌
下載2個類別資料
定義結合文件特徵提取器和簡單分類器的管道
定義處理參數(取消註釋更多參數將提供更好的探索能力,但將以組合方式增加處理時間)
為加快處理速度,採多處理機平行進行
利用GridSearchCV超參數方式,找出特徵提取和分類器的最佳參數
導入需要套件
SGDClassifier中的各參數
CountVectorizer中的各參數
在標準輸出上顯示進度日誌(此程式很吃電腦資源,請儘量選高效能電腦,或讓本程式用colab執行)