《药品监管领域术语挖掘及知识图谱构建》论文代码及数据示例 论文地址
PharmReg-TermMining/
├── data/ # 数据文件目录
│ ├── source_files/ # 原始法规文件(部分)
│ ├── datasets/ # 处理后的训练/测试数据集(部分)
│ └── output/ # 程序运行生成的输出
├── model_cache/ # 模型文件夹
│ ├── ocr-inference/ # paddleocr模型文件夹
│ ├── Qwen2.5-7B-Instruct/ # 预训练大模型文件夹
│ └── checkpoints/ # 模型训练的检查点输出文件夹
├── imgs/ # 项目相关图片资源
├── src/ # 源代码与启动脚本
│ └── *.py, *.sh # Python 脚本、Shell 启动脚本等
├── README.md # 项目说明文档
└── requirements.txt # Python 依赖包列表1、环境安装
本项目使用的cuda版本为12.4,python版本为3.11.0,torch版本为2.6.0。其他依赖包的版本见requirements.txt。
pip install -r requirements.txt2、资源下载
(1)文档解析工具
本项目使用PaddleOCR工具处理扫描类PDF文档,请参考PaddleOCR文档下载对应的中文文本检测模型、识别模型和分类模型,放到ocr-inference文件夹下。
(2)大语言模型下载
bash model_download.sh1、数据库连接
在~/src/config/config.ini中修改数据库连接信息。
2、将法规内容存入数据库
python store_file_content.py --table_name source_content3、模型训练
请参照~/data/datasets/train.xlsx数据示例组织训练集和测试集。也可以使用organize_sft_dataset脚本实现数据转换。
准备好数据集后,运行以下命令开启训练:
bash train.sh4、提取术语
bash extract.sh5、筛选术语
bash filter.sh