강의

멘토링

커뮤니티

BEST
Data Science

/

Certificate (Data Science)

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします! 理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。

難易度 入門

受講期間 12か月

  • roadmap
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)

作業型3 よくある質問: C()をいつ使うのか?

1. ANOVA / 二元分散分析 / 一元分散分析

→ カテゴリ型要因はC()の使用が定石

はい:

model = ols("y ~ C(group)", data=df).fit()
anova_lm(model)
  • ANOVAは元々「集団間の平均差」を比較する分析 → 要因がカテゴリ型。

  • したがって問題で言葉で「カテゴリ型」と書いてくれなくても、

  • 要因自体がグループ変数なので、C()がデフォルト値です。

つまり、
数字になっていても → C()
文字になっていても → C()


2. 回帰分析 (ols)

問題でカテゴリ型と明示された変数のみC()

例:

ols("y ~ x1 + region", data=df)
  • 数字になっているからといって自動的にカテゴリ型として処理するのは間違い

  • 問題で「カテゴリ変数である」と言われていない数値型は連続型として扱う


3. ロジスティック回帰(logit

olsと同一原則

はい:

logit("target ~ x1 + job_type", data=df)
  • logitは問題で「カテゴリ型」と書かれている時のみC()が必要。
    それ以外は絶対に勝手にC()を入れない。

コメント