Skip to content

《药品监管领域术语挖掘及知识图谱构建》论文代码

License

Notifications You must be signed in to change notification settings

CPU-DS/PharmReg-TermMining

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PharmReg-TermMining

《药品监管领域术语挖掘及知识图谱构建》论文代码及数据示例 论文地址

研究框架

研究框架

项目结构

PharmReg-TermMining/
├── data/                     # 数据文件目录
│   ├── source_files/         # 原始法规文件(部分)
│   ├── datasets/             # 处理后的训练/测试数据集(部分)
│   └── output/               # 程序运行生成的输出
├── model_cache/              # 模型文件夹
│   ├── ocr-inference/        # paddleocr模型文件夹
│   ├── Qwen2.5-7B-Instruct/  # 预训练大模型文件夹
│   └── checkpoints/          # 模型训练的检查点输出文件夹
├── imgs/                     # 项目相关图片资源
├── src/                      # 源代码与启动脚本
│   └── *.py, *.sh            # Python 脚本、Shell 启动脚本等
├── README.md                 # 项目说明文档
└── requirements.txt          # Python 依赖包列表

环境安装及资源下载

1、环境安装

本项目使用的cuda版本为12.4,python版本为3.11.0,torch版本为2.6.0。其他依赖包的版本见requirements.txt

pip install -r requirements.txt

2、资源下载

(1)文档解析工具

本项目使用PaddleOCR工具处理扫描类PDF文档,请参考PaddleOCR文档下载对应的中文文本检测模型、识别模型和分类模型,放到ocr-inference文件夹下。

(2)大语言模型下载

bash model_download.sh

项目运行

1、数据库连接

~/src/config/config.ini中修改数据库连接信息。

2、将法规内容存入数据库

python store_file_content.py --table_name source_content

3、模型训练

请参照~/data/datasets/train.xlsx数据示例组织训练集和测试集。也可以使用organize_sft_dataset脚本实现数据转换。

准备好数据集后,运行以下命令开启训练:

bash train.sh

4、提取术语

bash extract.sh

5、筛选术语

bash filter.sh

参考

PaddleOCR 3.0 技术报告

About

《药品监管领域术语挖掘及知识图谱构建》论文代码

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •