

NVIDIA Ingest
简介 :
NVIDIA-Ingest是一个可扩展、高性能的文档内容和元数据提取微服务。它支持解析PDF、Word和PowerPoint文档,使用NVIDIA NIM微服务来查找、上下文化并提取文本、表格、图表和图像,可用于下游生成式应用。其主要优点包括高性能、可扩展性强、支持多种文档类型和提取方法等。目前处于早期访问阶段,代码库更新频繁。
需求人群 :
目标受众包括需要处理大量复杂非结构化PDF和其他企业文档,将其转换为可用于检索系统的元数据和文本的组织和个人,如企业数据分析师、研究人员等。因为它能高效、准确地从多种文档中提取有用信息,满足他们在数据处理和分析方面的需求。
使用场景
企业用于从大量业务文档中提取关键信息,构建知识图谱
研究机构从学术文献中提取数据,辅助科研工作
数据分析师将提取的文本数据用于后续的数据分析和挖掘
产品特色
接受包含文档负载和摄取任务的JSON作业描述
允许检索作业结果,结果为包含提取对象元数据及处理注释的JSON字典
支持PDF、Docx、pptx和图像等多种文档类型
支持每种文档类型多种提取方法,如PDF支持pdfium、Unstructured.io和Adobe Content Extraction Services
支持预处理和后处理操作,包括文本分割、转换、过滤、嵌入生成等
使用教程
1. 启动支持NIM微服务
2. 在Python环境中安装NVIDIA Ingest客户端依赖
3. 提交摄取作业
4. 检查和使用结果
5. 可选:直接部署库
精选AI产品推荐

Pseudoeditor
PseudoEditor是一款免费在线伪代码编辑器。它具有语法高亮、自动完成等功能,帮助您更轻松地编写伪代码。您还可以使用我们的伪代码编译器功能进行测试。无需下载,即可立即使用。
开发与工具
4.5M

Erbuilder
Softbuilder的AI-powered ER diagrams generation是一款基于人工智能技术的数据建模工具,能够根据自然语言的数据模型描述、用户故事或需求自动生成ER图。通过使用OpenAI GPT,它能够快速生成精美的ER图,大大提高了数据建模的效率。此外,它还提供数据模型文档、验证、探索等功能,可满足各种数据建模需求。Softbuilder的AI-powered ER diagrams generation适用于各类企业和组织,帮助用户轻松创建和管理数据模型。
开发与工具
4.1M