Kaggle

Pythonの知識の復習

ifの時は:が要る。returnではいらない。

Pythonの関数定義でデフォルト引数を設定すると、関数呼び出し時に引数を省略した場合にデフォルト値が使用されるようになる。—> 前処理関数に使うと実験しやすいっぽい。

def fill_age(df, method="mean"):
if method == "mean":
df["Age"] = df["Age"].fillna(df["Age"].mean())
elif method == "median":
df["Age"] = df["Age"].fillna(df["Age"].median())
else:
df["Age"] = df["Age"].fillna(0)
return df

年齢（Age）に欠損があるから、とりあえず平均で埋めたい。
でも後で 中央値 とか 0 とかも試したい。

A.csvの最初5行目を見たい時は、

A.head()

https://note.nkmk.me/python-pandas-len-shape-size/

pandasのcsv–>DataFrameでできたオブジェクトの属性として, df_train.shapeで(行数, 列数) のタプルを返す。

目的	使うもの
中身の例を見る	`head()`
行×列のサイズ	`shape`
欠損・型・概要	`info()`

<class 'pandas.core.series.Series'>
RangeIndex: 891 entries, 0 to 890
Series name: Pclass
Non-Null Count  Dtype 
--------------  ----- 
891 non-null    object
dtypes: object(1)
memory usage: 7.1+ KB
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Pclass  891 non-null    object
dtypes: object(1)
memory usage: 7.1+ KB

df_train[“Pclass”].info()
df_train[[“Pclass”]].info()
は違うらしい。

df_train.isnull() をすると、df_train(表)の欠損部分がある場合がTrueとして表に出てくる。それを.sum()で足してどの列にどのくらいnullがあるかを確かめる。
目的変数が2値の場合は, y_train.mean()で1の割合が出せる。

y_train["Survived"].mean() 
np.float64(0.3838383838383838)

train_test_split は学習用と検証用を分ける関数。
- StratifiedKFold
  
  はクロスバリデーションに使う。

英語タブ	日本語訳	説明
Overview	概要	コンペの目的・課題内容・評価指標・提出期限など全体の説明が書かれているメインページ。最初に読むべき場所。
Data	データ	学習用・テスト用データの配布ページ。データの説明（カラム定義やファイル構造）や利用規約もここに記載。
Notebooks (Code（旧 Kernels）)	コード	他の参加者が共有したノートブック（Python/R）を見ることができる。分析や学習の参考になる。自分のコード公開も可能。
Discussion	ディスカッション	参加者同士の掲示板。質問、情報共有、アプローチのヒント、勉強会の告知など幅広く使われる。
Leaderboard	リーダーボード	提出結果のスコアが表示されるランキング表。公開順位（Public）と最終順位（Private）の2種類がある。
Rules	ルール	コンペの参加規約や禁止事項が記載されている。違反すると失格になるため必ず確認すべき。
Submit Predictions	予測を提出	学習したモデルの予測結果（CSV形式など）をアップロードして採点を受けるためのページ。
My Submissions	自分の提出結果	過去に提出した予測ファイルとそのスコア（Public Leaderboardの順位含む）が確認できるページ。
Team	チーム	チーム参加が許可されている場合、メンバー管理やチーム結成ができる。
Timeline	タイムライン	コンペの開始・締切・提出期間などのスケジュールを一覧化したページ。

英語タブ

日本語訳

説明

Overview

概要

コンペの目的・課題内容・評価指標・提出期限など全体の説明が書かれているメインページ。最初に読むべき場所。

Data

データ

学習用・テスト用データの配布ページ。データの説明（カラム定義やファイル構造）や利用規約もここに記載。

Notebooks (Code（旧 Kernels）)

コード

他の参加者が共有したノートブック（Python/R）を見ることができる。分析や学習の参考になる。自分のコード公開も可能。

Discussion

ディスカッション

参加者同士の掲示板。質問、情報共有、アプローチのヒント、勉強会の告知など幅広く使われる。

Leaderboard

リーダーボード

提出結果のスコアが表示されるランキング表。公開順位（Public）と最終順位（Private）の2種類がある。

Rules

ルール

コンペの参加規約や禁止事項が記載されている。違反すると失格になるため必ず確認すべき。

Submit Predictions

予測を提出

学習したモデルの予測結果（CSV形式など）をアップロードして採点を受けるためのページ。

My Submissions

自分の提出結果

過去に提出した予測ファイルとそのスコア（Public Leaderboardの順位含む）が確認できるページ。

Team

チーム

チーム参加が許可されている場合、メンバー管理やチーム結成ができる。

Timeline

タイムライン

コンペの開始・締切・提出期間などのスケジュールを一覧化したページ。

カテゴリー: Kaggle

Kaggle用Python

StratifiedKFold