[仕事終わりの趣味] ビッグデータ分析実技 (作業型1,2,3)
非専門家や入門者の方が、ビッグデータ分析実技試験を短期間で取得できるようガイドします! 理論は軽めに、実践は確実に。複雑な背景知識がなくても、過去問を中心に試験に必ず出るポイントだけを絞って集中的に学習します。
受講生 5,669名
難易度 入門
受講期間 12か月


お知らせ
88 件
今回のデータで注意深く見ていただくべき部分は
全データ(注釈5番)の学習です。比較後、全学習コードを入れておきました。結果を比較してみましょう!
パラメーター(class_weight、ハイパーパラメーターなど)は、無条件に追加・変更すれば良くなるというものではありません。検証セットで直接
比較して採用するかどうかを決めなければなりません。
試験の状況でパラメータの判断に迷う場合は、デフォルト値(設定していない状態)で進めましょう。安定していることが重要だと思います!
もちろん、全データ学習も良い選択です!
コーディングパン(https://code.sideonai.com/)に作業型2の問題をアップデートしました。
ビッグデータ分析士の講義部分のすべてのコードにlightgbmを追加しました。 (

コーディングパン作業型2のベースラインをご案内します。EDA部分は除外しました。
1番目の問題
import pandas as pd # 1) データの読み込み train = pd.read_csv('data/car_train.csv') test = pd.read_csv('data/car_test.csv') # 2) カテゴリ変数のワンホットエンコーディング target = train.pop('target') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) # 3) 検証用データの分割 (提出前の性能比較) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0, stratify=target) # 4) 3つのモデルの学習 from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, pred, average='macro')) from lightgbm import LGBMClassifier lgb = LGBMClassifier(random_state=0, verbose=-1) lgb.fit(X_tr, y_tr) pred = lgb.predict(X_val) print(f1_score(y_val, pred, average='macro')) from xgboost import XGBClassifier xgb = XGBClassifier(random_state=0, verbosity=0) xgb.fit(X_tr, y_tr) pred = xgb.predict(X_val) print(f1_score(y_val, pred, average='macro')) # 5) 選択したモデルを全trainデータで再学習後、testを予測 (選択) # lgb.fit(train, target) # pred = lgb.predict(test) # 6) 提出ファイルの保存 (predカラム1つのみ、indexは除外) result = pd.DataFrame({'pred': pred}) result.to_csv('result.csv', index=False) # 提出ファイルの確認 print("\n ===== 提出ファイル (サンプル) =====") print(pd.read_csv("result.csv").head()) print("\n ===== 提出ファイル (サイズの確認) =====") print(pd.read_csv("result.csv").shape)2番の問題
import pandas as pd # 1) データの読み込み train = pd.read_csv('data/bike_train.csv') test = pd.read_csv('data/bike_test.csv') # 2) カテゴリ変数のワンホットエンコーディング target = train.pop('count') print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape) # 3) 検証用データの分割 (提出前の性能比較) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) # 4) 3つのモデルの学習 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(random_state=0) rf.fit(X_tr, y_tr) pred = rf.predict(X_val) from sklearn.metrics import root_mean_squared_error print(root_mean_squared_error(y_val, pred)) from lightgbm import LGBMRegressor lgb = LGBMRegressor(random_state=0, verbose=-1) lgb.fit(X_tr, y_tr) pred = lgb.predict(X_val) print(root_mean_squared_error(y_val, pred)) from xgboost import XGBRegressor xgb = XGBRegressor(random_state=0, verbosity=0) xgb.fit(X_tr, y_tr) pred = xgb.predict(X_val) print(root_mean_squared_error(y_val, pred)) # 5) 選択したモデルを全trainデータで再学習し、testを予測 (選択) # lgb.fit(train, target) # pred = lgb.predict(test) # 6) 提出ファイルの保存 (predカラム1つのみ、indexは除外) result = pd.DataFrame({'pred': pred}) result.to_csv('result.csv', index=False) # 提出ファイルの確認 print("\n ===== 提出ファイル (サンプル) =====") print(pd.read_csv("result.csv").head()) print("\n ===== 提出ファイル (サイズ確認) =====") print(pd.read_csv("result.csv").shape)作業型1、作業型3の模擬問題をアップデートしました! 🎉
試験環境とできるだけ似た環境で解けるようにコーディングパン(Coding Pang)サイトを作ったのですが、そこに新しい問題をアップロードしました。
実際の試験のようにコードを直接書きながら解くことができるので、ぜひアクセスして練習してみてください 😊 試験の合格を心より応援しています!
👉 コーディングパンリンク: code.sideonai.com

まだベータ版ですので、もしバグがあれば教えてください!
試験が1週間後に迫ってきましたね。
ビッグデータ分析実技試験準備ライブ1週間前の集まり(6.13)の録画分を共有します。
1時間ほどの内容なので、倍速で一度ざっと目を通してみてください!
皆さん、頑張ってください :)

(講義全体の時間制限により、第12回試験後に削除予定)
試験が2週間後に迫ってきました!
試験環境を一度確認してみてください。
(確認だけしていただき、実際の学習は速度のために従来のColabで引き続き進めてください!)ただし、実際の試験環境では、外部リンクからデータを読み込んだり、ファイルをアップロードしたりすることは不可能です。
この点を補完するために、従来使用されていたリンク方式とファイルアップロードの両方が可能な
「コーディングパン」ベータ版の環境を新しく作ってみました。
リンク: code.sideonai.com
まだベータ段階であるため、至らない点があるかもしれません。使ってみて不便な点があれば、いつでもフィードバックをください。積極的に反映させていただきます。 🙏
Google Chrome(クローム)ブラウザを推奨しており、実行速度はお使いのノートパソコン(PC)の性能によって異なる場合があります!
第12回試験の実施が案内されました。
従来の試験内容と同じであり、変更内容は文言・表記方式の改善レベルです
以前にも似たような言葉がありましたが、作業型2で
「優れた評価指標を獲得するためには、最適なモデルを探索しなければならない」との記載がありますので
少なくとも2つのモデル(ランダムフォレスト、LightGBM)は準備が必要です。
https://www.dataq.or.kr/www/board/view.do?boardKind=notice&bbsKey=eyJiYnNhdHRyU2VxIjoxLCJiYnNTZXEiOjU3OTAxM30=
残りの期間も応援しています!!
ビッグデータ分析技師実技作業型1の学習資料をv3.1にアップデートしました。
作業型1のマインドマップ&チートシートを同時にアップデートしました。再度ダウンロードをお願いいたします。

✨ 今回のアップデートの核心
今回のv3.1は、第2回から11回までの既出コード10個を直接分析し、改めて整理しました。
→ "どの関数がどの回に実際に出題されたのか" 一目で分かります。
ただし、必ずしもその関数でなければ解けないわけではありませんので、参考としてご覧ください!
🆕 何が変わりましたか?
過去問の回次別の使用コンテキストを追加しました。
- 過去問7:StandardScalerでscoreを標準化 → max値を出力」のように
どのように使われたかを具体的に明示
質問や誤字の報告はいつでも歓迎します 🙏
皆様の合格を応援しています 💪
他のものもアップデート次第、"新着情報"としてお伝えいたします。
ファイト!!
まだ受け付けていない場合は
空き状況を確認の上、必ずお申し込みください。
https://docs.google.com/spreadsheets/d/1CPnRSOyuQ6TO9svMtEjxLt82No-auI8oBGqHhYJNYVE/edit?usp=sharing
ファイトです:)
来週から第12回試験を準備するグループスタディイカゲームが始まります。一人で勉強するのも良いですが、共に取り組むことでより良い成果を出すことができます。前期でも好評を博し、良い結果を残したスタディに、今期もぜひ参加してみてください。
📌 募集日程
2026年5月11日(月) ~ 5月25日(月)
スタディ開始後は途中参加ができません。
参加を希望される方は、必ず募集期間内にお申し込みください。チャレンジリンク: https://inf.run/rRwn8
(クーポンは下記参照)
🎟 オンライン講座受講生割引クーポンのご案内
オンライン講義の受講生に約91%割引クーポンを提供しました。「お知らせ」タブで
クーポンリンクを確認してください。(割引価格2900円、運営費として使用されます)すでに定価で決済された場合は、キャンセルのうえクーポンを適用して再決済をお願いいたします。
クーポンはリンク発行後、24時間以内に登録しないと自動的に消滅しますのでご注意ください。
🧡 ビッグデータ分析技師コミュニティ(イカゲーム)
毎期、募集開始後に「参加できますか」というお問い合わせを多くいただいております。
残念ながら、チャレンジは開始後の途中参加ができないため、今回は事前にもう一度ご案内いたします。参加を検討されている方は、必ず期間内にお申し込みください。

