欠損の処理
3つのアプローチ ~kaggleより~
1) 欠損値のある列や行を削除する
最も単純な方法は、値が欠落している列や行を削除することですが、この方法では、多くの情報の欠落やバイアスを生じます。
2) 代入する(Imputation)
Imputationは、欠損値を何らかの数値で埋めます。例えば、各列の平均値を埋めることができます。 ほとんどの場合、入力された値は正確ではありませんが、通常、列を完全に削除した場合よりも正確なモデルになります。
3) Imputationの拡張
Imputationされた値は、実際の値よりも系統的に高いまたは低い場合があります。このような場合、どの値が元々欠落していたかを考慮することで、モデルはより良い予測を行うことができます。元のデータセットの中でエントリが欠損している各列に対して、入力されたエントリの位置を示す新しい列を追加します。これにより,結果が大きく改善される場合もあれば,そうでない場合もあります。