2021-09-03

ハイパーパラメータとは

python 機械学習

ja.wikipedia.org

2021-09-03

予測精度の改善（特に、特徴量の選択について）

python

予測精度の改善するには、大きく分けて以下の３つが知られている。
（１）データ量を増やす
（２）アルゴリズムのチューニング
（３）特徴量の増減

（３）には、以下のような方法がある。
　　　　①フィルター法：相関係数等によって、関連のある変数を投入する。
　　　　②ラッパー法（前進法・後退法）
　　　　　　前進法：変数を１つづ投入して予測の精度を評価
　　　　　　後退法：全ての変数を入れた状態から１づつ削除し、評価。
　　　　　　統計の回帰分析で行われる変数増加法、変数減少法に似ている。
　　　　③組込み法：モデルを用いる方法。
　　　　　　　　　　決定木やランダムフォレスト等が良く知られている。

2021-09-03

回帰分析

python

# 必須インポート
import numpy as np
# MSEを求めるために必要（MMSEは直接計算できない）
from sklearn.metrics import mean_squared_error as MSE

# 説明変数を指定
select_columns = ["変数A","変数B","変数C","変数D","変数E"]

# ダミー変数化(k個のカテゴリーをダミー化する場合、k-1個のダミー変数があればよいが、get_dummies()関数ではデフォルトでk個のダミー変数に変換される。 引数drop_first=Trueとするとすれば、最初のカテゴリーが除外されk-1個のダミー変数に変換される。)
dummy_data = pd.get_dummies(data[select_columns],drop_first=True)

# データを、学習用データと評価用データに分割
X_train,X_test,y_train,y_test = train_test_split(dummy_data, data["y"], random_state = 123)

# 回帰分析の実施
lr = LinearRegression()
lr.fit(X_train, y_train)


# 学習用データから y の予測値を算出
y_pred_train = lr.predict(X_train)
# 評価用データから y の予測値を算出
y_pred_test = lr.predict(X_test)


# 学習用データのRMSEを求める
rmse_train = np.sqrt(MSE(y_train, y_pred_train))
# 評価用データのRMSEを求める
rmse_test = np.sqrt(MSE(y_test, y_pred_test))

  ## MMSEは直接求めることができないため、MSEを算出し、その平方根をとることでを算出。


# 学習用データ及び評価データのRMSEを表示
print(rmse_train)
print(rmse_test)