Kreuzberg : 一个支持从PDF、图像、办公文档等多种格式中提取文本的Python库。

开发与工具

Kreuzberg

kreuzberg

Kreuzberg

开发与工具其他分类 #文本提取 #PDF处理 #OCR #Python库 #异步编程 #本地处理 #办公自动化普通产品开源

简介 :

Kreuzberg是一个现代Python库，专注于从各种文档中提取文本。它通过简洁的API和本地处理能力，为用户提供高效的文本提取解决方案。该库支持多种文件格式，包括PDF、图像、办公文档等，无需复杂的配置或外部API调用。它采用异步接口设计，提高了处理效率，同时保持了轻量级的资源占用。Kreuzberg适用于需要本地化文本提取的场景，如RAG应用等，其主要优点是简单易用、资源高效且功能强大。

需求人群 :

该产品适用于需要从多种文件格式中提取文本的开发者和企业，尤其是那些对数据隐私和处理效率有较高要求的用户。它可以帮助用户快速、高效地处理文档中的文本内容，无需依赖外部API或复杂的配置，适用于本地化处理场景，如RAG应用等。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 75.1K

使用场景

从扫描的PDF文档中提取文本，用于文档数字化处理。

将图像中的文字内容提取出来，用于内容识别和分析。

从Excel电子表格中提取数据，用于数据处理和分析。

产品特色

支持从多种文件格式中提取文本，包括PDF、图像、办公文档等。

自动OCR处理扫描文档，智能检测文本文件的编码。

采用现代Python设计，支持异步接口、类型提示和详细的错误处理。

无需外部API调用或云依赖，所有处理均在本地完成。

支持多种文档和图像格式，满足多样化的需求。

提供详细的错误信息和上下文，便于调试和问题解决。

支持Python的async/await语法，提高代码的可读性和效率。

提供丰富的异常处理机制，确保程序的稳定运行。

使用教程

1. 安装Python库：使用pip命令安装kreuzberg库。

2. 安装系统依赖：安装Pandoc和Tesseract OCR等系统级依赖。

3. 导入库并使用extract_file或extract_bytes函数提取文本。

4. 根据需要处理的文件类型，指定文件路径或字节内容。

5. 调用函数并获取提取结果，处理返回的文本内容。

精选AI产品推荐

PseudoEditor

PseudoEditor是一款免费在线伪代码编辑器。它具有语法高亮、自动完成等功能，帮助您更轻松地编写伪代码。您还可以使用我们的伪代码编译器功能进行测试。无需下载，即可立即使用。

开发与工具

ERBuilder

Softbuilder的AI-powered ER diagrams generation是一款基于人工智能技术的数据建模工具，能够根据自然语言的数据模型描述、用户故事或需求自动生成ER图。通过使用OpenAI GPT，它能够快速生成精美的ER图，大大提高了数据建模的效率。此外，它还提供数据模型文档、验证、探索等功能，可满足各种数据建模需求。Softbuilder的AI-powered ER diagrams generation适用于各类企业和组织，帮助用户轻松创建和管理数据模型。

开发与工具

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase