NVIDIA-Ingest
N
NVIDIA Ingest
簡介 :
NVIDIA-Ingest是一個可擴展、高性能的文檔內容和元數據提取微服務。它支持解析PDF、Word和PowerPoint文檔,使用NVIDIA NIM微服務來查找、上下文化並提取文本、表格、圖表和圖像,可用於下游生成式應用。其主要優點包括高性能、可擴展性強、支持多種文檔類型和提取方法等。目前處於早期訪問階段,代碼庫更新頻繁。
需求人群 :
目標受眾包括需要處理大量複雜非結構化PDF和其他企業文檔,將其轉換為可用於檢索系統的元數據和文本的組織和個人,如企業數據分析師、研究人員等。因為它能高效、準確地從多種文檔中提取有用信息,滿足他們在數據處理和分析方面的需求。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 51.1K
使用場景
企業用於從大量業務文檔中提取關鍵信息,構建知識圖譜
研究機構從學術文獻中提取數據,輔助科研工作
數據分析師將提取的文本數據用於後續的數據分析和挖掘
產品特色
接受包含文檔負載和攝取任務的JSON作業描述
允許檢索作業結果,結果為包含提取對象元數據及處理註釋的JSON字典
支持PDF、Docx、pptx和圖像等多種文檔類型
支持每種文檔類型多種提取方法,如PDF支持pdfium、Unstructured.io和Adobe Content Extraction Services
支持預處理和後處理操作,包括文本分割、轉換、過濾、嵌入生成等
使用教程
1. 啟動支持NIM微服務
2. 在Python環境中安裝NVIDIA Ingest客戶端依賴
3. 提交攝取作業
4. 檢查和使用結果
5. 可選:直接部署庫
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase