作業1-1「資料前處理」

設計說明

著名的鐵達尼號乘客資料是一份公開資訊，我們使用羅吉斯迴歸進行鐵達尼號的生存預測。
請撰寫程式，讀取titanic.csv；其中年齡（Age）欄位的NA值，請以年齡的中位數代入。
使用乘客等級（PClass）、年齡（Age）二個欄位的資料來訓練羅吉斯迴歸預測模型。

請依序回答下列問題

請填入年齡的中位數（取至整數）？
請填入乘客艙等(PClass)編碼後各艙等對應數值？

請參考範例2-4鐵達尼號生存預測.ipynb作答

2_4鐵達尼號生存預測_102.html

結論

根據執行結果，年齡（Age）的中位數為8歲，並填入NA值中。
由於乘客等級（PClass）為類別變數，透過 sklearn套件中標籤編碼（LabelEncoder），將「*」編碼成0，「1st」編碼成1，「2nd」編碼成2，「3rd」編碼成3。
藉由使用乘客等級（PClass）、年齡（Age）二個欄位的資料來訓練羅吉斯迴歸預測模型，得到準確度為72.20%。

# 導入需要套件
import sklearn
import pandas as pd

from sklearn.preprocessing import LabelEncoder
from sklearn.linear_model import LogisticRegression
from sklearn import linear_model

# 取得房價資料
titanic = pd.read_csv("/content/drive/MyDrive/titanic.csv")
print(titanic.head())
print()

# 查看是否有遺失值(大筆數資料)
print(titanic.isnull().any())
print()

# 以中位數補值
median = titanic['Age'].median()
print('中位數: ', median)
print()
titanic['Age'] = titanic['Age'].fillna(titanic['Age'].median())

# 查看是否有遺失值(大筆數資料)
print(titanic.isnull().any())
print()

# 將PClass欄位編碼成數值，以便處理
X_temp = titanic.loc[:, ['PClass']].values
y = titanic.loc[:, 'Survived']
le = LabelEncoder()
X_temp = le.fit_transform(X_temp)
print(le.classes_)
print()

# 合併X所需表格
X_temp = pd.DataFrame(X_temp, columns=['PClass'])
X = pd.concat([pd.DataFrame(X_temp), titanic['Age']], axis=1)
print(X.head())
print()

# 建立與訓練模型
logistic = linear_model.LogisticRegression()
logistic.fit(X, y)

# 求混淆矩陣(Confusion Matrix)，計算準確度
print('Confusion Matrix')
preds = logistic.predict(X)
print(pd.crosstab(preds, titanic['Survived']))
print(logistic.score(X, y))