NVIDIA-Ingest
N
NVIDIA Ingest
简介 :
NVIDIA-Ingest是一个可扩展、高性能的文档内容和元数据提取微服务。它支持解析PDF、Word和PowerPoint文档,使用NVIDIA NIM微服务来查找、上下文化并提取文本、表格、图表和图像,可用于下游生成式应用。其主要优点包括高性能、可扩展性强、支持多种文档类型和提取方法等。目前处于早期访问阶段,代码库更新频繁。
需求人群 :
目标受众包括需要处理大量复杂非结构化PDF和其他企业文档,将其转换为可用于检索系统的元数据和文本的组织和个人,如企业数据分析师、研究人员等。因为它能高效、准确地从多种文档中提取有用信息,满足他们在数据处理和分析方面的需求。
总访问量: 474.6M
占比最多地区: US(19.34%)
本站浏览量 : 53.8K
使用场景
企业用于从大量业务文档中提取关键信息,构建知识图谱
研究机构从学术文献中提取数据,辅助科研工作
数据分析师将提取的文本数据用于后续的数据分析和挖掘
产品特色
接受包含文档负载和摄取任务的JSON作业描述
允许检索作业结果,结果为包含提取对象元数据及处理注释的JSON字典
支持PDF、Docx、pptx和图像等多种文档类型
支持每种文档类型多种提取方法,如PDF支持pdfium、Unstructured.io和Adobe Content Extraction Services
支持预处理和后处理操作,包括文本分割、转换、过滤、嵌入生成等
使用教程
1. 启动支持NIM微服务
2. 在Python环境中安装NVIDIA Ingest客户端依赖
3. 提交摄取作业
4. 检查和使用结果
5. 可选:直接部署库
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase