Google ColabでKaggle! 【STEP2:データ前処理とか】

前提

まず前提として言語はpythonでpandasを使用しています.

データのダウンロード

これは参加するコンペのdatasetダウンロードするだけです.

#ダウンロード可能なコンペ一覧
!kaggle competitions list
#ダウンロード
!kaggle competitions download -c titanic

データの把握

どんなデータなのかを把握することがまず第一歩です.

import pandas as pd
import numpy as np
 
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

print(train.head())

f:id:kobakenkken:20181117153451p:plain

次に欠損値(null)が何個あるのか,どの項目にあるのか見てみます.

## 値がnullの項目数を数える
train.isnull().sum()
###############
PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64
################

以上からデータセット内の全体を把握します.

次回は下記の内容です

データの前処理(必要な場合)

提供されているデータを取り扱うために前処理を行う必要があります。 前処理は沢山種類がありますがここでは2種類を紹介しておきます。

欠損データの補完

この欠損値をどう処理することがベターなのかを議論することはとても重要ですが簡単な方法だけとりあえずまとめます.

Ageの補完

今回のAgeはmean(平均値)とmedian(中央値)とmode(最頻値)の3つの例を示します.

#case of mean
train["Age"] = train["Age"].fillna(train["Age"].mean())
#case of median
train["Age"] = train["Age"].fillna(train["Age"].median())
#case of mode
train["Age"] = train["Age"].fillna(train["Age"].mode())

文字列データを数値データ形式へ変換

#