gmft
G
Gmft
簡介 :
gmft是一個用於將PDF中的表格轉換為多種格式的工具包。它輕量級、模塊化且性能優越。gmft依賴於微軟的Table Transformers,這是眾多替代方案中性能最好、最可靠的。gmft無需GPU即可運行,具有高吞吐量,並且安裝簡便,僅需一行代碼即可完成安裝。它使用PyPDFium2,因其高吞吐量和寬鬆的許可證而受到青睞。gmft使用的訓練模型TATR在多樣化的數據集PubTables-1M上訓練,具有高可靠性。
需求人群 :
gmft的目標受眾是數據分析師、研究人員和任何需要從PDF文檔中提取表格數據的用戶。由於其輕量級和高性能的特性,gmft特別適合需要處理大量PDF文件並快速轉換數據的場合。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 50.2K
使用場景
數據分析師使用gmft從研究報告中提取數據進行進一步分析
研究人員利用gmft從學術論文中提取實驗數據
企業用戶通過gmft自動化從合同文檔中提取表格數據的過程
產品特色
支持將PDF表格轉換為Pandas DataFrame等多種格式
能夠輸出表格的文本和位置列表
支持輸出表格的裁剪圖像
支持表格標題的提取
無需OCR即可快速提取表格,適用於圖像和掃描PDF
通過PyPDFium2實現高吞吐量的PDF處理
可配置性強,支持自定義模型和提取方法
使用教程
安裝gmft:在命令行中輸入`pip install gmft`進行安裝
導入必要的模塊:在Python腳本中導入`CroppedTable, TableDetector, AutoTableFormatter`等
創建PyPDFium2Document對象:使用待提取表格的PDF文件路徑創建文檔對象
使用TableDetector進行表格檢測:遍歷文檔的每一頁,使用detector提取表格
使用AutoTableFormatter格式化表格:將檢測到的表格進行格式化處理
將提取的表格數據轉換為所需格式:例如轉換為Pandas DataFrame或其他支持的格式
關閉文檔對象:完成提取後,調用文檔對象的close方法釋放資源
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase