PharmReg-TermMining

《药品监管领域术语挖掘及知识图谱构建》论文代码及数据示例论文地址

研究框架

项目结构

PharmReg-TermMining/
├── data/                     # 数据文件目录
│   ├── source_files/         # 原始法规文件（部分）
│   ├── datasets/             # 处理后的训练/测试数据集（部分）
│   └── output/               # 程序运行生成的输出
├── model_cache/              # 模型文件夹
│   ├── ocr-inference/        # paddleocr模型文件夹
│   ├── Qwen2.5-7B-Instruct/  # 预训练大模型文件夹
│   └── checkpoints/          # 模型训练的检查点输出文件夹
├── imgs/                     # 项目相关图片资源
├── src/                      # 源代码与启动脚本
│   └── *.py, *.sh            # Python 脚本、Shell 启动脚本等
├── README.md                 # 项目说明文档
└── requirements.txt          # Python 依赖包列表

环境安装及资源下载

1、环境安装

本项目使用的cuda版本为12.4，python版本为3.11.0，torch版本为2.6.0。其他依赖包的版本见requirements.txt。

pip install -r requirements.txt

2、资源下载

（1）文档解析工具

本项目使用PaddleOCR工具处理扫描类PDF文档，请参考PaddleOCR文档下载对应的中文文本检测模型、识别模型和分类模型，放到ocr-inference文件夹下。

（2）大语言模型下载

bash model_download.sh

项目运行

1、数据库连接

在~/src/config/config.ini中修改数据库连接信息。

2、将法规内容存入数据库

python store_file_content.py --table_name source_content

3、模型训练

请参照~/data/datasets/train.xlsx数据示例组织训练集和测试集。也可以使用organize_sft_dataset脚本实现数据转换。

准备好数据集后，运行以下命令开启训练：

bash train.sh

4、提取术语

bash extract.sh

5、筛选术语

bash filter.sh

参考

PaddleOCR 3.0 技术报告

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PharmReg-TermMining

研究框架

项目结构

环境安装及资源下载

项目运行

参考

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.vscode		.vscode
data		data
imgs		imgs
src		src
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.md		README.md
model_download.sh		model_download.sh
requirements.txt		requirements.txt

License

CPU-DS/PharmReg-TermMining

Folders and files

Latest commit

History

Repository files navigation

PharmReg-TermMining

研究框架

项目结构

环境安装及资源下载

项目运行

参考

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages