4 skills found
abahjat / PrismPrism is a next-generation document processing SDK built in Rust, designed to view, convert, and extract content from 600+ file formats. It's the modern, developer-friendly alternative to Oracle Outside In.
aws-samples / Documentparser BedrockNo description available
AbeHandler / DocumentParseratorLabel text from DocumentCloud. Feed it into Parserator
Starry663 / DocumentParserAndMdExporter本项目基于 Python 和 PyQt5 开发,实现对 Word(DOCX/DOC)和 PDF 文件的解析,将文档中的目录、正文文本及嵌入图片提取出来,并转换为 Markdown 格式。项目具备图形化界面,用户可通过简单操作选择文档、预览内容及查看转换结果,输出的 Markdown 文件和图片会统一保存在项目主文件夹下的 output 目录中。该工具支持打包为独立的 exe 文件,方便无 Python 环境下的使用。