とある新卒SEの備忘録

正規化と標準化の使い分ける一般的な考え方

python Kaggle

一般的には標準化を使用する。正規化の場合、外れ値が大きく影響するためである。 ※画像データの場合は学習コストを下げるため、[0,1]の範囲に収まるよう255.0で割ることで正規化するのが一般的

正規化

使用ケース: - 画像（RGBの強さ[0,255]） - sigmoid, tanhなどの活性化関数を用いる、NNのいくつかのモデル

標準化

使用ケース: - ロジスティック回帰、SVM、NNなど勾配法を用いたモデル - kNN, k-meansなどの距離を用いるモデル - PCA, LDA(潜在的ディリクレ配分法), kernel PCA などのfeature extractionの手法

どちらも使用しないケース:

決定木、ランダムフォレスト

参照