SkillAgentSearch skills...

DocumentParserAndMdExporter

本项目基于 Python 和 PyQt5 开发,实现对 Word(DOCX/DOC)和 PDF 文件的解析,将文档中的目录、正文文本及嵌入图片提取出来,并转换为 Markdown 格式。项目具备图形化界面,用户可通过简单操作选择文档、预览内容及查看转换结果,输出的 Markdown 文件和图片会统一保存在项目主文件夹下的 output 目录中。该工具支持打包为独立的 exe 文件,方便无 Python 环境下的使用。

Install / Use

/learn @Starry663/DocumentParserAndMdExporter
About this skill

Quality Score

0/100

Supported Platforms

Universal

README

项目名称:文档解析与 Markdown 导出工具

版本:1.0 打包工具:PyInstaller 生成文件:main.exe(位于 dist 文件夹中)

【项目简介】 本工具实现了对 Word (.docx) 与 PDF 文件的解析,能够提取文档目录、文本内容、生成 Markdown 格式文本,并提取文档中的图片以缩略图形式预览。程序采用双界面设计: 1. 文件选择窗口:用于在计算机中选择一个 Word 或 PDF 文件。 2. 主界面:左侧显示文档目录(若文档自带目录)、中间显示文件内容预览、右侧显示转换后的 Markdown 文本和图片预览。

【系统要求】

  • Windows 电脑(已打包为 exe 文件,无需安装 Python 环境)
  • 如果您的系统为 64 位,建议使用 64 位版本的 exe 文件

【使用方法】

  1. 请将打包生成的 main.exe 文件(位于 dist 文件夹中)拷贝到目标电脑上。
  2. 如果程序依赖外部资源(例如 input_files 目录用于测试文件、或 output 文件夹用于保存转换结果),请确保这些文件夹与 exe 文件保持相对路径一致,或者根据实际情况修改配置。
  3. 双击运行 main.exe。程序启动后将首先弹出文件选择窗口,请按照以下步骤操作: a. 点击“浏览...”按钮,在弹出的文件对话框中选择一个 Word (.docx) 或 PDF 文件。 b. 选择文件后,点击“下一步”按钮,程序将关闭文件选择窗口并进入主界面。
  4. 在主界面中:
    • 左侧区域显示所选文档的目录结构(若文档自带目录信息)。
    • 中间区域显示文档的文本内容预览。
    • 右侧区域显示转换生成的 Markdown 文本,以及从文档中提取的图片缩略图。
  5. 如有需要,转换后的 Markdown 文件将保存到 output 文件夹中。

【打包说明】 本项目使用 PyInstaller 打包为单个 exe 文件,打包命令示例如下: pyinstaller --onefile --windowed main.py 打包完成后,所有依赖均已包含在 exe 文件中,无需额外安装 Python 或相关库。

【注意事项】

  • 请确保文件选择时只选择支持的文档格式(.docx 或 .pdf)。
  • 如果程序在运行过程中出现错误,请检查 exe 文件所在目录的资源文件是否齐全,并确保用户有足够的权限读取/写入相关目录。
  • 如需更新或修改功能,请参考项目源码,并重新使用 PyInstaller 进行打包。

【版权与声明】 本工具由王羿博独立开发。

Related Skills

View on GitHub
GitHub Stars4
CategoryDevelopment
Updated6mo ago
Forks0

Languages

Python

Security Score

62/100

Audited on Sep 25, 2025

No findings