statepipyの日記

興味のある分野(統計、疫学、機械学習、品質管理、手料理)と、PCスキルの維持を目的に書き続けます!

欠損の処理

3つのアプローチ ~kaggleより~

1) 欠損値のある列や行を削除する
最も単純な方法は、値が欠落している列や行を削除することですが、この方法では、多くの情報の欠落やバイアスを生じます。

2) 代入する(Imputation)
Imputationは、欠損値を何らかの数値で埋めます。例えば、各列の平均値を埋めることができます。 ほとんどの場合、入力された値は正確ではありませんが、通常、列を完全に削除した場合よりも正確なモデルになります。

3) Imputationの拡張
Imputationされた値は、実際の値よりも系統的に高いまたは低い場合があります。このような場合、どの値が元々欠落していたかを考慮することで、モデルはより良い予測を行うことができます。元のデータセットの中でエントリが欠損している各列に対して、入力されたエントリの位置を示す新しい列を追加します。これにより,結果が大きく改善される場合もあれば,そうでない場合もあります。