강의

멘토링

커뮤니티

BEST
Data Science

/

Certificate (Data Science)

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします! 理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。

難易度 入門

受講期間 12か月

  • roadmap
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
roadmap님의 프로필 이미지

修正済み

✅ 作業型2:カラム削除は?いつやるの?

過去問 vs 練習問題の違い

過去問題や例題ではカラムを削除するケースはありませんでした。

しかし、練習/模擬問題でより複雑なデータを扱っていると、列の削除が必要な状況が発生します。

1⃣ すべての値がユニーク(Unique)な場合

# 例: ID、顧客番号、注文番号など
df['customer_id'].nunique() == len(df)  # Trueなら削除を検討
  • 数値型: そのままにしておいてもモデルが自動的に重要度を低く評価する

    • 削除しなくても大きな問題なし

  • 文字型: エンコーディング時に次元が爆発するため削除を推奨!

    • Label Encodingを行うと意味のない順序関係が生成される

    • One-Hot Encodingを行うと列数 = 行数が急増します。(1分以内で消化不良)

2⃣ エンコーディングが難しい時

# 例: 自由テキスト、住所、メールなど
df['comment'].head()
# "配送が早いです", "梱包がきれいです", "再購入意思あり"...
  • ベースライン:とりあえず削除してモデルを回す

  • 応用戦略: 時間が余ったら活用する方法を考える

    • テキスト長、特定キーワード含有の有無など派生変数生成

    • 例)航空便名(KE1234)→ 航空会社(KE)+ 便名(1234)を別々に抽出

3⃣ 欠損値が過度に多い場合(80~90%以上)

df['컬럼'].isnull().sum() / len(df)
  • ベースライン:とりあえず削除して安全に行く

  • 応用戦略: 時間が余ったら活用する方法を考える

    • 欠損の有無自体を任意値で代入

      削除した評価指標結果と記入後の結果比較

💡 上記のように処理が困難なカラムが出てきたら?

  1. 1次:ベースラインを素早く完成 (30~40分)

    • 2番、3番のケースは思い切って削除

    • 1番は文字型なら削除、数字型ならそのままでもOK

    • とりあえず提出可能なコード完成

  2. 2次:時間があれば応用(余裕がある時のみ)

    • 削除したカラムを復活させる方法を試行

    • パフォーマンス改善の有無確認

注意事項

  • 時間管理が最優先!完璧な前処理よりも提出可能なコードが重要

  • ベースラインでは削除して1次提出後、時間が余った時に再挑戦!2次提出

コメント