教育データ(Kaggle)を用いて学習成果を分析し、LightGBM+SHAPで指導施策に繋がる示唆を抽出。
- t検定で有意差確認(prep course の効果)
- 予測精度:MAE 4.60 / RMSE 6.1(平均66点に対し±6点)
- SHAPで重要因子(writing, prep course)を可視化
- 生徒情報と数学の成績の関係を分析し、学習支援に向けた改善施策の仮説を提示する
- スコアが高い要因を把握し、具体的な施策を提案する(単に勉強すればいいというアドバイスの脱却)
- 予想スコアを算出することで、事前にテストへの対策を提案する層を見つけ、早期対応したい
- Kaggle: Students Performance in Exams (公開データを使用)
- EDA: 可視化(Plotly)
- 統計検定: t検定による有意差検証
- 機械学習: LightGBMによる予測モデル構築・特徴量重要度の算出
- モデル評価: MAE / RMSE による精度測定
- SHAP値の高い writing score が低い生徒 → 補習や教材提供の優先対象とする
- test preparation course 未受講の生徒 → 学校内での受講推奨施策や案内資料に活用可能
- requirements.txt に必要ライブラリを記載(pandas scipy plotly-express lightgbm random_state=42 など)
pip install -r requirements.txt
jupyter notebook StudentsPerformance.ipynb- テスト準備講座(test preparation course)の有無で統計的に有意な差を確認(p = 1.5e-08) → 読解力(reading)が数学に強い影響を与えていることを発見
- LightGBM による予測:MAE=4.60 / RMSE=6.1 → 平均点66点に対して ±6点程度の誤差であり、事前に学習支援対象者を抽出を一定程度可能
- 強相関する特徴量(reading, writing)の扱いを調整することで性能の向上が期待できる
- 今後は回帰モデルや因果推論を用いて test preparation course の効果を厳密に検証