inflearn logo
知識共有
inflearn logo

[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)

非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします! 理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。

難易度 入門

受講期間 12か月

Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)
Engineer Big Data Analysis
Engineer Big Data Analysis
Big Data
Big Data
Python
Python
Pandas
Pandas
Machine Learning(ML)
Machine Learning(ML)

お知らせ

77 件

  • roadmap님의 프로필 이미지

    第11回ビッグデータ分析技師実技試験の結果が最終発表されました!

    合格された方々、心よりお祝い申し上げます。もし残念な結果を受け取られた方々は、今回の経験を踏み台にして来年はさらに成長するという気持ちで、もう一度一緒に挑戦しましょう!!

    私も今回の試験内容と皆様が残してくださったフィードバックを反映して、来年はさらにアップデートされた講義でお会いしましょう。💪💪💪

    そして

    恥ずかしいですが、皆さんのおかげで昨日Inflearn アワードで賞をいただきました!本当にありがとうございます 😊

    年末の締めくくりをしっかりと、そして幸せなクリスマスと新年をお過ごしください!🙇🏼‍♂️🙇🏼‍♂️🙇🏼‍♂️

    IMG_4398.JPG

    1
  • roadmap님의 프로필 이미지

    結果が出てみないと分かりませんが、11回の試験映像でまとめてみました。

    https://youtu.be/X_fcHPYcPMo

    0
  • roadmap님의 프로필 이미지

    ビッグデータ分析技師試験を受験された皆さん、お疲れ様でした!

    t検定と感度を除けば

    過去問と似ていて無難だという意見ですが、皆さんはどうでしたか?(気になります)

    5
  • roadmap님의 프로필 이미지

    修正済み

    問題文に等分散という内容がないのに、なぜequal_var=Trueなのでしょうか?
    ご質問いただいたソン**様に感謝いたします。

    体験問題の作業型3 – 小問題3番では
    問題テキストに「等分散」という表現が直接登場しません。

    しかし、解説では以下のように

    #3
    from scipy import stats
    result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True)
    print(round(result.pvalue,3))

    等分散性の仮定(Student t検定)を使用しました。
    その理由は以下の通りです。

    問題は次の流れで構成された典型的な3段階検定問題でした。

    • F検定で二つの集団の分散の差を確認

    • 合同分散推定量の計算

    • その合同分散を用いて独立標本t検定を実行

    合同分散を求めるということ自体が、すでに2つの集団の分散が等しいという仮定を前提としています。

    したがってequal_var=Trueを使用した解法でアプローチしました。


    追加で

    • 単標本t検定:等分散検定不要(比較する2つのグループが存在しないため)

    • 対応のあるt検定:等分散検定不要(差の値のみ使用)

    • 独立標本t検定:等分散検定の考慮

    0
  • roadmap님의 프로필 이미지

    明日ビッグデータ分析技能士試験ですね

    試験頑張ってください!作業型3の問題表現例をまとめました。

    試験頑張ってきてください 👏👏

    image.png

    # 例題タイプの学習

    非パラメトリックは優先順位が低いため除外

    0
  • roadmap님의 프로필 이미지

    修正済み

    過去問 vs 練習問題の違い

    過去問題や例題ではカラムを削除するケースはありませんでした。

    しかし、練習/模擬問題でより複雑なデータを扱っていると、列の削除が必要な状況が発生します。

    1⃣ すべての値がユニーク(Unique)な場合

    # 例: ID、顧客番号、注文番号など
    df['customer_id'].nunique() == len(df)  # Trueなら削除を検討
    • 数値型: そのままにしておいてもモデルが自動的に重要度を低く評価する

      • 削除しなくても大きな問題なし

    • 文字型: エンコーディング時に次元が爆発するため削除を推奨!

      • Label Encodingを行うと意味のない順序関係が生成される

      • One-Hot Encodingを行うと列数 = 行数が急増します。(1分以内で消化不良)

    2⃣ エンコーディングが難しい時

    # 例: 自由テキスト、住所、メールなど
    df['comment'].head()
    # "配送が早いです", "梱包がきれいです", "再購入意思あり"...
    • ベースライン:とりあえず削除してモデルを回す

    • 応用戦略: 時間が余ったら活用する方法を考える

      • テキスト長、特定キーワード含有の有無など派生変数生成

      • 例)航空便名(KE1234)→ 航空会社(KE)+ 便名(1234)を別々に抽出

    3⃣ 欠損値が過度に多い場合(80~90%以上)

    df['컬럼'].isnull().sum() / len(df)
    • ベースライン:とりあえず削除して安全に行く

    • 応用戦略: 時間が余ったら活用する方法を考える

      • 欠損の有無自体を任意値で代入

        削除した評価指標結果と記入後の結果比較

    💡 上記のように処理が困難なカラムが出てきたら?

    1. 1次:ベースラインを素早く完成 (30~40分)

      • 2番、3番のケースは思い切って削除

      • 1番は文字型なら削除、数字型ならそのままでもOK

      • とりあえず提出可能なコード完成

    2. 2次:時間があれば応用(余裕がある時のみ)

      • 削除したカラムを復活させる方法を試行

      • パフォーマンス改善の有無確認

    注意事項

    • 時間管理が最優先!完璧な前処理よりも提出可能なコードが重要

    • ベースラインでは削除して1次提出後、時間が余った時に再挑戦!2次提出

    0
  • roadmap님의 프로필 이미지

    1. ANOVA / 二元分散分析 / 一元分散分析

    → カテゴリ型要因はC()の使用が定石

    はい:

    model = ols("y ~ C(group)", data=df).fit()
    anova_lm(model)
    • ANOVAは元々「集団間の平均差」を比較する分析 → 要因がカテゴリ型。

    • したがって問題で言葉で「カテゴリ型」と書いてくれなくても、

    • 要因自体がグループ変数なので、C()がデフォルト値です。

    つまり、
    数字になっていても → C()
    文字になっていても → C()


    2. 回帰分析 (ols)

    問題でカテゴリ型と明示された変数のみC()

    例:

    ols("y ~ x1 + region", data=df)
    
    • 数字になっているからといって自動的にカテゴリ型として処理するのは間違い

    • 問題で「カテゴリ変数である」と言われていない数値型は連続型として扱う


    3. ロジスティック回帰(logit

    olsと同一原則

    はい:

    logit("target ~ x1 + job_type", data=df)
    
    • logitは問題で「カテゴリ型」と書かれている時のみC()が必要。
      それ以外は絶対に勝手にC()を入れない。

    0
  • roadmap님의 프로필 이미지

    残念ながら実行ショートカットキーはありません。

    • コメント : Ctrl + /
      複数行コメント: ブロックを選択してから Ctrl + /

    • 拡大: Ctrl + '+'

    • 縮小: Ctrl + '-' モニターが小さいと...

    • 行の先頭に移動: Ctrl + 左矢印キー 括弧を付ける時によく使用

    • 行末に移動: Ctrl + 右矢印キー括弧を付ける時によく使用

    • 検索:Ctrl + f

      • Ctrl + fは基本データタブでも使用可能です

        image.png
      • dirとhelpで出力された内容を「メモ帳」にコピー&ペースト(マウスで行う必要があります)

      • 検索機能を使用できます

      • 実行結果(出力)自体では検索不可

        image.png

    実技体験リンク

    https://dataq.goorm.io/exam/3/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-%EC%B2%B4%ED%97%98/quiz/2%3Fembed

    0

¥15,361