Google ColabでKaggle! 【STEP2:データ前処理とか】
前提
まず前提として言語はpythonでpandasを使用しています.
データのダウンロード
これは参加するコンペのdatasetダウンロードするだけです.
#ダウンロード可能なコンペ一覧 !kaggle competitions list #ダウンロード !kaggle competitions download -c titanic
データの把握
どんなデータなのかを把握することがまず第一歩です.
import pandas as pd import numpy as np train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") print(train.head())
次に欠損値(null)が何個あるのか,どの項目にあるのか見てみます.
## 値がnullの項目数を数える train.isnull().sum() ############### PassengerId 0 Survived 0 Pclass 0 Name 0 Sex 0 Age 177 SibSp 0 Parch 0 Ticket 0 Fare 0 Cabin 687 Embarked 2 dtype: int64 ################
以上からデータセット内の全体を把握します.
次回は下記の内容です
データの前処理(必要な場合)
提供されているデータを取り扱うために前処理を行う必要があります。 前処理は沢山種類がありますがここでは2種類を紹介しておきます。
欠損データの補完
この欠損値をどう処理することがベターなのかを議論することはとても重要ですが簡単な方法だけとりあえずまとめます.
Ageの補完
今回のAgeはmean(平均値)とmedian(中央値)とmode(最頻値)の3つの例を示します.
#case of mean train["Age"] = train["Age"].fillna(train["Age"].mean()) #case of median train["Age"] = train["Age"].fillna(train["Age"].median()) #case of mode train["Age"] = train["Age"].fillna(train["Age"].mode())