DocumentParserAndMdExporter
本项目基于 Python 和 PyQt5 开发,实现对 Word(DOCX/DOC)和 PDF 文件的解析,将文档中的目录、正文文本及嵌入图片提取出来,并转换为 Markdown 格式。项目具备图形化界面,用户可通过简单操作选择文档、预览内容及查看转换结果,输出的 Markdown 文件和图片会统一保存在项目主文件夹下的 output 目录中。该工具支持打包为独立的 exe 文件,方便无 Python 环境下的使用。
Install / Use
/learn @Starry663/DocumentParserAndMdExporterREADME
项目名称:文档解析与 Markdown 导出工具
版本:1.0 打包工具:PyInstaller 生成文件:main.exe(位于 dist 文件夹中)
【项目简介】 本工具实现了对 Word (.docx) 与 PDF 文件的解析,能够提取文档目录、文本内容、生成 Markdown 格式文本,并提取文档中的图片以缩略图形式预览。程序采用双界面设计: 1. 文件选择窗口:用于在计算机中选择一个 Word 或 PDF 文件。 2. 主界面:左侧显示文档目录(若文档自带目录)、中间显示文件内容预览、右侧显示转换后的 Markdown 文本和图片预览。
【系统要求】
- Windows 电脑(已打包为 exe 文件,无需安装 Python 环境)
- 如果您的系统为 64 位,建议使用 64 位版本的 exe 文件
【使用方法】
- 请将打包生成的 main.exe 文件(位于 dist 文件夹中)拷贝到目标电脑上。
- 如果程序依赖外部资源(例如 input_files 目录用于测试文件、或 output 文件夹用于保存转换结果),请确保这些文件夹与 exe 文件保持相对路径一致,或者根据实际情况修改配置。
- 双击运行 main.exe。程序启动后将首先弹出文件选择窗口,请按照以下步骤操作: a. 点击“浏览...”按钮,在弹出的文件对话框中选择一个 Word (.docx) 或 PDF 文件。 b. 选择文件后,点击“下一步”按钮,程序将关闭文件选择窗口并进入主界面。
- 在主界面中:
- 左侧区域显示所选文档的目录结构(若文档自带目录信息)。
- 中间区域显示文档的文本内容预览。
- 右侧区域显示转换生成的 Markdown 文本,以及从文档中提取的图片缩略图。
- 如有需要,转换后的 Markdown 文件将保存到 output 文件夹中。
【打包说明】 本项目使用 PyInstaller 打包为单个 exe 文件,打包命令示例如下: pyinstaller --onefile --windowed main.py 打包完成后,所有依赖均已包含在 exe 文件中,无需额外安装 Python 或相关库。
【注意事项】
- 请确保文件选择时只选择支持的文档格式(.docx 或 .pdf)。
- 如果程序在运行过程中出现错误,请检查 exe 文件所在目录的资源文件是否齐全,并确保用户有足够的权限读取/写入相关目录。
- 如需更新或修改功能,请参考项目源码,并重新使用 PyInstaller 进行打包。
【版权与声明】 本工具由王羿博独立开发。
Related Skills
node-connect
339.5kDiagnose OpenClaw node connection and pairing failures for Android, iOS, and macOS companion apps
frontend-design
83.9kCreate distinctive, production-grade frontend interfaces with high design quality. Use this skill when the user asks to build web components, pages, or applications. Generates creative, polished code that avoids generic AI aesthetics.
openai-whisper-api
339.5kTranscribe audio via OpenAI Audio Transcriptions API (Whisper).
commit-push-pr
83.9kCommit, push, and open a PR
