在实际使用场景中,可能只需要获取需求文档中的部分内容,例如特定标题的正文部分、特定段落的表格内容,或者指定图片中的内容。为了满足这一需求,可以对文档清理工具进行优化,支持按标题提取内容、按章节提取表格和图片,并结合阿里云百炼 DeepSeek-R1 的流式 API 进行对话生成测试用例等功能。而且上个版本的小工具貌似并没有很好的将目录清洗掉,这次也一并优化。
去除目录
此次更新从Word 文档(.docx 文件)中智能化地去除目录,可以使用 Python 的 python-docx
库。以下是一种方法,可以遍历文档中的所有段落,识别并删除目录。
代码示例
from docx import Document
def remove_toc(self, docx_path):
"""
去除 Word 文档中的目录
:param docx_path: docx 文件路径
"""
doc = Document(docx_path)
paragraphs_to_remove = []
# 遍历段落,识别目录
for paragraph in doc.paragraphs:
if "TOC" in paragraph.style.name: # 检查样式名称
paragraphs_to_remove.append(paragraph)
elif paragraph.text.strip() and (paragraph.text[0].isdigit() or paragraph.text.startswith("1.")):
# 检查是否为目录条目