Skip to content

教育データ(Kaggle)を用いて学習成果を分析し、LightGBM+SHAPで指導施策に繋がる示唆を抽出

Notifications You must be signed in to change notification settings

DeDe1397/student-performance-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 

Repository files navigation

教育データ(Kaggle)を用いて学習成果を分析し、LightGBM+SHAPで指導施策に繋がる示唆を抽出。

  • t検定で有意差確認(prep course の効果)
  • 予測精度:MAE 4.60 / RMSE 6.1(平均66点に対し±6点)
  • SHAPで重要因子(writing, prep course)を可視化

1 課題

  • 生徒情報と数学の成績の関係を分析し、学習支援に向けた改善施策の仮説を提示する

2 背景

  • スコアが高い要因を把握し、具体的な施策を提案する(単に勉強すればいいというアドバイスの脱却)
  • 予想スコアを算出することで、事前にテストへの対策を提案する層を見つけ、早期対応したい

3 データ概要

  • Kaggle: Students Performance in Exams (公開データを使用)

4 EDA・仮説

  • EDA: 可視化(Plotly)
  • 統計検定: t検定による有意差検証

5 モデル設計

  • 機械学習: LightGBMによる予測モデル構築・特徴量重要度の算出
  • モデル評価: MAE / RMSE による精度測定

6 分析からの施策

  • SHAP値の高い writing score が低い生徒 → 補習や教材提供の優先対象とする
  • test preparation course 未受講の生徒 → 学校内での受講推奨施策や案内資料に活用可能

7 再現手順

  • requirements.txt に必要ライブラリを記載(pandas scipy plotly-express lightgbm random_state=42 など)
pip install -r requirements.txt
jupyter notebook StudentsPerformance.ipynb

8 成果・効果

  • テスト準備講座(test preparation course)の有無で統計的に有意な差を確認(p = 1.5e-08) → 読解力(reading)が数学に強い影響を与えていることを発見
  • LightGBM による予測:MAE=4.60 / RMSE=6.1 → 平均点66点に対して ±6点程度の誤差であり、事前に学習支援対象者を抽出を一定程度可能

9 課題と今後の展望

  • 強相関する特徴量(reading, writing)の扱いを調整することで性能の向上が期待できる
  • 今後は回帰モデルや因果推論を用いて test preparation course の効果を厳密に検証

10 Qiita記事

https://qiita.com/c62323440/items/f0d849158c7d5345f2fb

About

教育データ(Kaggle)を用いて学習成果を分析し、LightGBM+SHAPで指導施策に繋がる示唆を抽出

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published