优化 Tika 简历解析，去除图片引用和临时文件路径 #7

Carolier2003 · 2026-01-13T09:52:39Z

背景

当前使用 Tika.parseToString() 解析简历时，会引入解析噪音：

Word 文档中的图片引用（image1.jpeg 等）
PDF 解析产生的临时文件路径（file:///...html?query=0）

本次改动

1. 重构文档解析流程

弃用 parseToString()，改用显式 AutoDetectParser + ParseContext
禁用 EmbeddedDocumentExtractor，不解析嵌入资源
配置 PDFParserConfig，关闭图片和注释提取
使用 BodyContentHandler 仅提取正文内容

2. 增强文本清理逻辑

去除图片文件名和图片链接
去除 PDF 临时 HTML 路径
清理无意义分隔线

影响范围

仅影响简历文本解析逻辑
不影响文件上传、存储、异步分析流程
已在本地验证 PDF / DOC / DOCX 文件解析正常

验证方式

上传包含图片的 Word 简历
上传 PDF 简历
确认解析结果中不再包含图片名和临时路径

## 改动内容 - 重构文档解析流程，使用显式 Parser + Context - 禁用 EmbeddedDocumentExtractor，不解析嵌入资源 - 配置 PDFParserConfig，关闭图片提取 - 增强文本清理逻辑，过滤图片文件名和临时路径 ## 新增文件 - NoOpEmbeddedDocumentExtractor.java PR: #7 Author: Carolier2003

Snailclimb · 2026-01-14T00:15:19Z

背景

当前使用 Tika.parseToString() 解析简历时，会引入解析噪音：

Word 文档中的图片引用（image1.jpeg 等）

PDF 解析产生的临时文件路径（file:///...html?query=0）

本次改动

1. 重构文档解析流程

弃用 parseToString()，改用显式 AutoDetectParser + ParseContext

禁用 EmbeddedDocumentExtractor，不解析嵌入资源

配置 PDFParserConfig，关闭图片和注释提取

使用 BodyContentHandler 仅提取正文内容

2. 增强文本清理逻辑

去除图片文件名和图片链接

去除 PDF 临时 HTML 路径

清理无意义分隔线

影响范围

仅影响简历文本解析逻辑

不影响文件上传、存储、异步分析流程

已在本地验证 PDF / DOC / DOCX 文件解析正常

验证方式

上传包含图片的 Word 简历

上传 PDF 简历

确认解析结果中不再包含图片名和临时路径

感谢完善👍

Carolier2003 added 2 commits January 13, 2026 17:49

refactor: optimize Tika resume parsing and disable embedded resources

e013812

feat: enhance resume text cleaning to remove Tika artifacts

f94d6c3

Snailclimb merged commit f94d6c3 into Snailclimb:master Jan 14, 2026

Snailclimb added the enhancement New feature or request label Jan 14, 2026

Carolier2003 deleted the feature/optimize-tika-resume-parse branch January 14, 2026 01:29

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

优化 Tika 简历解析，去除图片引用和临时文件路径 #7

优化 Tika 简历解析，去除图片引用和临时文件路径 #7

Carolier2003 commented Jan 13, 2026

Uh oh!

Snailclimb commented Jan 14, 2026

背景

本次改动

1. 重构文档解析流程

2. 增强文本清理逻辑

影响范围

验证方式

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

优化 Tika 简历解析，去除图片引用和临时文件路径 #7

优化 Tika 简历解析，去除图片引用和临时文件路径 #7

Conversation

Carolier2003 commented Jan 13, 2026

背景

本次改动

1. 重构文档解析流程

2. 增强文本清理逻辑

影响范围

验证方式

Uh oh!

Snailclimb commented Jan 14, 2026

背景

本次改动

1. 重构文档解析流程

2. 增强文本清理逻辑

影响范围

验证方式

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants