Skip to content

Conversation

@Carolier2003
Copy link
Contributor

背景

当前使用 Tika.parseToString() 解析简历时,会引入解析噪音:

  • Word 文档中的图片引用(image1.jpeg 等)
  • PDF 解析产生的临时文件路径(file:///...html?query=0)

本次改动

1. 重构文档解析流程

  • 弃用 parseToString(),改用显式 AutoDetectParser + ParseContext
  • 禁用 EmbeddedDocumentExtractor,不解析嵌入资源
  • 配置 PDFParserConfig,关闭图片和注释提取
  • 使用 BodyContentHandler 仅提取正文内容

2. 增强文本清理逻辑

  • 去除图片文件名和图片链接
  • 去除 PDF 临时 HTML 路径
  • 清理无意义分隔线

影响范围

  • 仅影响简历文本解析逻辑
  • 不影响文件上传、存储、异步分析流程
  • 已在本地验证 PDF / DOC / DOCX 文件解析正常

验证方式

  • 上传包含图片的 Word 简历
  • 上传 PDF 简历
  • 确认解析结果中不再包含图片名和临时路径

Snailclimb added a commit that referenced this pull request Jan 14, 2026
## 改动内容
- 重构文档解析流程,使用显式 Parser + Context
- 禁用 EmbeddedDocumentExtractor,不解析嵌入资源
- 配置 PDFParserConfig,关闭图片提取
- 增强文本清理逻辑,过滤图片文件名和临时路径

## 新增文件
- NoOpEmbeddedDocumentExtractor.java

PR: #7
Author: Carolier2003
@Snailclimb Snailclimb merged commit f94d6c3 into Snailclimb:master Jan 14, 2026
@Snailclimb
Copy link
Owner

背景

当前使用 Tika.parseToString() 解析简历时,会引入解析噪音:

  • Word 文档中的图片引用(image1.jpeg 等)
  • PDF 解析产生的临时文件路径(file:///...html?query=0)

本次改动

1. 重构文档解析流程

  • 弃用 parseToString(),改用显式 AutoDetectParser + ParseContext
  • 禁用 EmbeddedDocumentExtractor,不解析嵌入资源
  • 配置 PDFParserConfig,关闭图片和注释提取
  • 使用 BodyContentHandler 仅提取正文内容

2. 增强文本清理逻辑

  • 去除图片文件名和图片链接
  • 去除 PDF 临时 HTML 路径
  • 清理无意义分隔线

影响范围

  • 仅影响简历文本解析逻辑
  • 不影响文件上传、存储、异步分析流程
  • 已在本地验证 PDF / DOC / DOCX 文件解析正常

验证方式

  • 上传包含图片的 Word 简历
  • 上传 PDF 简历
  • 确认解析结果中不再包含图片名和临时路径

感谢完善👍

@Snailclimb Snailclimb added the enhancement New feature or request label Jan 14, 2026
@Carolier2003 Carolier2003 deleted the feature/optimize-tika-resume-parse branch January 14, 2026 01:29
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

enhancement New feature or request

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants