BEST

/

Certificate (Data Science)

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします！理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。

（4.9）受講レビュー 780件

受講生 5,187名

難易度入門

受講期間 12か月

roadmap

Engineer Big Data Analysis

Engineer Big Data Analysis

Big Data

Big Data

Python

Python

Pandas

Pandas

Machine Learning(ML)

Machine Learning(ML)

Engineer Big Data Analysis

Engineer Big Data Analysis

Big Data

Big Data

Python

Python

Pandas

Pandas

Machine Learning(ML)

Machine Learning(ML)

thumbnail background

お知らせ一覧

･

修正済み

✅ 作業型2：カラム削除は？いつやるの？

過去問 vs 練習問題の違い

過去問題や例題ではカラムを削除するケースはありませんでした。

しかし、練習/模擬問題でより複雑なデータを扱っていると、列の削除が必要な状況が発生します。

1⃣ すべての値がユニーク（Unique）な場合

# 例: ID、顧客番号、注文番号など
df['customer_id'].nunique() == len(df)  # Trueなら削除を検討

数値型: そのままにしておいてもモデルが自動的に重要度を低く評価する
- 削除しなくても大きな問題なし
文字型: エンコーディング時に次元が爆発するため削除を推奨！ ⚠
- Label Encodingを行うと意味のない順序関係が生成される
- One-Hot Encodingを行うと列数 = 行数が急増します。（1分以内で消化不良）

2⃣ エンコーディングが難しい時

# 例: 自由テキスト、住所、メールなど
df['comment'].head()
# "配送が早いです", "梱包がきれいです", "再購入意思あり"...

ベースライン：とりあえず削除してモデルを回す
応用戦略: 時間が余ったら活用する方法を考える
- テキスト長、特定キーワード含有の有無など派生変数生成
- 例）航空便名（KE1234）→ 航空会社（KE）+ 便名（1234）を別々に抽出

3⃣ 欠損値が過度に多い場合（80～90%以上）

df['컬럼'].isnull().sum() / len(df)

ベースライン：とりあえず削除して安全に行く
応用戦略: 時間が余ったら活用する方法を考える
- 欠損の有無自体を任意値で代入
  削除した評価指標結果と記入後の結果比較

💡 上記のように処理が困難なカラムが出てきたら？

1次：ベースラインを素早く完成 (30~40分)
- 2番、3番のケースは思い切って削除
- 1番は文字型なら削除、数字型ならそのままでもOK
- とりあえず提出可能なコード完成
2次：時間があれば応用（余裕がある時のみ）
- 削除したカラムを復活させる方法を試行
- パフォーマンス改善の有無確認

⚠ 注意事項

時間管理が最優先！完璧な前処理よりも提出可能なコードが重要
ベースラインでは削除して1次提出後、時間が余った時に再挑戦！2次提出

コメント