Kaggle用Python

Pythonの知識の復習

ifの時は:が要る。returnではいらない。

Pythonの関数定義でデフォルト引数を設定すると、関数呼び出し時に引数を省略した場合にデフォルト値が使用されるようになる。—> 前処理関数に使うと実験しやすいっぽい。

def fill_age(df, method="mean"):
if method == "mean":
df["Age"] = df["Age"].fillna(df["Age"].mean())
elif method == "median":
df["Age"] = df["Age"].fillna(df["Age"].median())
else:
df["Age"] = df["Age"].fillna(0)
return df

年齢(Age)に欠損があるから、とりあえず平均で埋めたい。
でも後で 中央値 とか 0 とかも試したい。

A.csvの最初5行目を見たい時は、

A.head()

https://note.nkmk.me/python-pandas-len-shape-size/

pandasのcsv–>DataFrameでできたオブジェクトの属性として, df_train.shapeで(行数, 列数) のタプルを返す。

目的 使うもの
中身の例を見る head()
行×列のサイズ shape
欠損・型・概要 info()

Kaggle

英語タブ日本語訳説明
Overview概要コンペの目的・課題内容・評価指標・提出期限など全体の説明が書かれているメインページ。最初に読むべき場所。
Dataデータ学習用・テスト用データの配布ページ。データの説明(カラム定義やファイル構造)や利用規約もここに記載。
Notebooks (Code(旧 Kernels))コード他の参加者が共有したノートブック(Python/R)を見ることができる。分析や学習の参考になる。自分のコード公開も可能。
Discussionディスカッション参加者同士の掲示板。質問、情報共有、アプローチのヒント、勉強会の告知など幅広く使われる。
Leaderboardリーダーボード提出結果のスコアが表示されるランキング表。公開順位(Public)と最終順位(Private)の2種類がある。
Rulesルールコンペの参加規約や禁止事項が記載されている。違反すると失格になるため必ず確認すべき。
Submit Predictions予測を提出学習したモデルの予測結果(CSV形式など)をアップロードして採点を受けるためのページ。
My Submissions自分の提出結果過去に提出した予測ファイルとそのスコア(Public Leaderboardの順位含む)が確認できるページ。
Teamチームチーム参加が許可されている場合、メンバー管理やチーム結成ができる。
Timelineタイムラインコンペの開始・締切・提出期間などのスケジュールを一覧化したページ。

## 参考

Kaggleのチュートリアル“Titanic – Machine Learning from Disaster”に挑戦する

タイタニック チュートリアル【titanic official】(日本語訳)

## 特徴量探索(feature engineering)