[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)
非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします! 理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。
受講生 4,981名
難易度 入門
受講期間 12か月

お知らせ
77 件
第11回ビッグデータ分析技師実技試験の結果が最終発表されました!
合格された方々、心よりお祝い申し上げます。もし残念な結果を受け取られた方々は、今回の経験を踏み台にして来年はさらに成長するという気持ちで、もう一度一緒に挑戦しましょう!!
私も今回の試験内容と皆様が残してくださったフィードバックを反映して、来年はさらにアップデートされた講義でお会いしましょう。💪💪💪
そして
恥ずかしいですが、皆さんのおかげで昨日Inflearn アワードで賞をいただきました!本当にありがとうございます 😊
年末の締めくくりをしっかりと、そして幸せなクリスマスと新年をお過ごしください!🙇🏼♂️🙇🏼♂️🙇🏼♂️
結果が出てみないと分かりませんが、11回の試験映像でまとめてみました。
ビッグデータ分析技師試験を受験された皆さん、お疲れ様でした!
t検定と感度を除けば
過去問と似ていて無難だという意見ですが、皆さんはどうでしたか?(気になります)
問題文に等分散という内容がないのに、なぜ
equal_var=Trueなのでしょうか?
ご質問いただいたソン**様に感謝いたします。体験問題の作業型3 – 小問題3番では
問題テキストに「等分散」という表現が直接登場しません。しかし、解説では以下のように
#3 from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) print(round(result.pvalue,3))等分散性の仮定(Student t検定)を使用しました。
その理由は以下の通りです。問題は次の流れで構成された典型的な3段階検定問題でした。
F検定で二つの集団の分散の差を確認
合同分散推定量の計算
その合同分散を用いて独立標本t検定を実行
合同分散を求めるということ自体が、すでに2つの集団の分散が等しいという仮定を前提としています。
したがって
equal_var=Trueを使用した解法でアプローチしました。
追加で単標本t検定:等分散検定不要(比較する2つのグループが存在しないため)
対応のあるt検定:等分散検定不要(差の値のみ使用)
独立標本t検定:等分散検定の考慮
明日ビッグデータ分析技能士試験ですね
試験頑張ってください!作業型3の問題表現例をまとめました。
試験頑張ってきてください 👏👏

# 例題タイプの学習
非パラメトリックは優先順位が低いため除外
過去問 vs 練習問題の違い
過去問題や例題ではカラムを削除するケースはありませんでした。
しかし、練習/模擬問題でより複雑なデータを扱っていると、列の削除が必要な状況が発生します。
1⃣ すべての値がユニーク(Unique)な場合
# 例: ID、顧客番号、注文番号など df['customer_id'].nunique() == len(df) # Trueなら削除を検討数値型: そのままにしておいてもモデルが自動的に重要度を低く評価する
削除しなくても大きな問題なし
文字型: エンコーディング時に次元が爆発するため削除を推奨! ⚠
Label Encodingを行うと意味のない順序関係が生成される
One-Hot Encodingを行うと列数 = 行数が急増します。(1分以内で消化不良)
2⃣ エンコーディングが難しい時
# 例: 自由テキスト、住所、メールなど df['comment'].head() # "配送が早いです", "梱包がきれいです", "再購入意思あり"...ベースライン:とりあえず削除してモデルを回す
応用戦略: 時間が余ったら活用する方法を考える
テキスト長、特定キーワード含有の有無など派生変数生成
例)航空便名(KE1234)→ 航空会社(KE)+ 便名(1234)を別々に抽出
3⃣ 欠損値が過度に多い場合(80~90%以上)
df['컬럼'].isnull().sum() / len(df)ベースライン:とりあえず削除して安全に行く
応用戦略: 時間が余ったら活用する方法を考える
欠損の有無自体を任意値で代入
削除した評価指標結果と記入後の結果比較
💡 上記のように処理が困難なカラムが出てきたら?
1次:ベースラインを素早く完成 (30~40分)
2番、3番のケースは思い切って削除
1番は文字型なら削除、数字型ならそのままでもOK
とりあえず提出可能なコード完成
2次:時間があれば応用(余裕がある時のみ)
削除したカラムを復活させる方法を試行
パフォーマンス改善の有無確認
⚠ 注意事項
時間管理が最優先!完璧な前処理よりも提出可能なコードが重要
ベースラインでは削除して1次提出後、時間が余った時に再挑戦!2次提出
✅1. ANOVA / 二元分散分析 / 一元分散分析
→ カテゴリ型要因は
C()の使用が定石はい:
model = ols("y ~ C(group)", data=df).fit() anova_lm(model)ANOVAは元々「集団間の平均差」を比較する分析 → 要因がカテゴリ型。
したがって問題で言葉で「カテゴリ型」と書いてくれなくても、
要因自体がグループ変数なので、C()がデフォルト値です。
つまり、
✔ 数字になっていても → C()
✔ 文字になっていても → C()❌2. 回帰分析 (ols)
➡問題でカテゴリ型と明示された変数のみC()
例:
ols("y ~ x1 + region", data=df)数字になっているからといって自動的にカテゴリ型として処理するのは間違い
問題で「カテゴリ変数である」と言われていない数値型は連続型として扱う
❌3. ロジスティック回帰(logit)
➡olsと同一原則
はい:
logit("target ~ x1 + job_type", data=df)logitは問題で「カテゴリ型」と書かれている時のみC()が必要。
それ以外は絶対に勝手にC()を入れない。
残念ながら実行ショートカットキーはありません。
コメント : Ctrl + /
複数行コメント: ブロックを選択してから Ctrl + /拡大: Ctrl + '+'
縮小: Ctrl + '-'
モニターが小さいと...行の先頭に移動: Ctrl + 左矢印キー
括弧を付ける時によく使用行末に移動: Ctrl + 右矢印キー
括弧を付ける時によく使用検索:Ctrl + f
Ctrl + fは基本データタブでも使用可能です

dirとhelpで出力された内容を「メモ帳」にコピー&ペースト(マウスで行う必要があります)
検索機能を使用できます
実行結果(出力)自体では検索不可

実技体験リンク

