本项目基于Yelp公开数据集,通过数据挖掘技术对商家的用户评 分进行预测分析。项目旨在运用机器学习算法,从商家信息、用户行为、地理位置等多个维度挖掘影响商家评分的关键因素,并建立预测模型。
TeamWork/
├── data/ # 数据文件夹
│ └── source/ # 原始数据源
│ ├── final_test_set/ # 最终测试集
│ ├── yelp_test_set/ # Yelp测试集
│ ├── yelp_test_set/ # Yelp训练集
│ └── info.txt # 数据集信息说明
├── history/ # 历史记录文件夹
├── utils/ # 工具函数文件夹
├── main.py # 主程序入口
└── README.md # 项目说明文件
- Python 3.11.9
项目使用的数据来源于Yelp公开数据集,包含以下几个部分:
- 商家信息(business.json): 包含商家的基本信息,如名称、地址、类别、评分等
- 签到信息(checkin.json): 记录商家的用户签到情况
- 用户信息(user.json): 包含用户的基本属性和行为数据
python main.py- TB_pig
- 项目初始化
- 数据收集与清洗
- 探索性数据分析
- 特征工程
- 模型构建与训练
- 模型评估与优化
- 结果可视化
- 项目总结报告