BEST

/

Certificate (Data Science)

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします！理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。

（4.9）受講レビュー 768件

受講生 4,982名

難易度入門

受講期間 12か月

roadmap

Engineer Big Data Analysis

Engineer Big Data Analysis

Big Data

Big Data

Python

Python

Pandas

Pandas

Machine Learning(ML)

Machine Learning(ML)

Engineer Big Data Analysis

Engineer Big Data Analysis

Big Data

Big Data

Python

Python

Pandas

Pandas

Machine Learning(ML)

Machine Learning(ML)

thumbnail background

お知らせ一覧

作業型3 よくある質問: C()をいつ使うのか？

✅1. ANOVA / 二元分散分析 / 一元分散分析

→ カテゴリ型要因はC()の使用が定石

はい：

model = ols("y ~ C(group)", data=df).fit()
anova_lm(model)

ANOVAは元々「集団間の平均差」を比較する分析 → 要因がカテゴリ型。
したがって問題で言葉で「カテゴリ型」と書いてくれなくても、
要因自体がグループ変数なので、C()がデフォルト値です。

つまり、
✔ 数字になっていても → C()
✔ 文字になっていても → C()

❌2. 回帰分析 (ols)

➡問題でカテゴリ型と明示された変数のみC()

例：

ols("y ~ x1 + region", data=df)

数字になっているからといって自動的にカテゴリ型として処理するのは間違い
問題で「カテゴリ変数である」と言われていない数値型は連続型として扱う

❌3. ロジスティック回帰（logit）

➡olsと同一原則

はい：

logit("target ~ x1 + job_type", data=df)

logitは問題で「カテゴリ型」と書かれている時のみC()が必要。
それ以外は絶対に勝手にC()を入れない。

コメント