

Gmft
簡介 :
gmft是一個用於將PDF中的表格轉換為多種格式的工具包。它輕量級、模塊化且性能優越。gmft依賴於微軟的Table Transformers,這是眾多替代方案中性能最好、最可靠的。gmft無需GPU即可運行,具有高吞吐量,並且安裝簡便,僅需一行代碼即可完成安裝。它使用PyPDFium2,因其高吞吐量和寬鬆的許可證而受到青睞。gmft使用的訓練模型TATR在多樣化的數據集PubTables-1M上訓練,具有高可靠性。
需求人群 :
gmft的目標受眾是數據分析師、研究人員和任何需要從PDF文檔中提取表格數據的用戶。由於其輕量級和高性能的特性,gmft特別適合需要處理大量PDF文件並快速轉換數據的場合。
使用場景
數據分析師使用gmft從研究報告中提取數據進行進一步分析
研究人員利用gmft從學術論文中提取實驗數據
企業用戶通過gmft自動化從合同文檔中提取表格數據的過程
產品特色
支持將PDF表格轉換為Pandas DataFrame等多種格式
能夠輸出表格的文本和位置列表
支持輸出表格的裁剪圖像
支持表格標題的提取
無需OCR即可快速提取表格,適用於圖像和掃描PDF
通過PyPDFium2實現高吞吐量的PDF處理
可配置性強,支持自定義模型和提取方法
使用教程
安裝gmft:在命令行中輸入`pip install gmft`進行安裝
導入必要的模塊:在Python腳本中導入`CroppedTable, TableDetector, AutoTableFormatter`等
創建PyPDFium2Document對象:使用待提取表格的PDF文件路徑創建文檔對象
使用TableDetector進行表格檢測:遍歷文檔的每一頁,使用detector提取表格
使用AutoTableFormatter格式化表格:將檢測到的表格進行格式化處理
將提取的表格數據轉換為所需格式:例如轉換為Pandas DataFrame或其他支持的格式
關閉文檔對象:完成提取後,調用文檔對象的close方法釋放資源
精選AI產品推薦
中文精選

蘇打辦公
蘇打辦公是一款提供優質海量工具的辦公導航網站,用戶可以在此找到各種實用工具,如 PDF 轉換、圖片處理、視頻編輯等。其功能豐富,優勢在於提升辦公生活效率,定位為提供全網最好用的辦公導航。定價靈活,部分工具免費使用,部分工具付費。
AI工具網址目錄
167.3K

Transformer Explainer
Transformer Explainer是一個致力於幫助用戶深入理解Transformer模型的在線可視化工具。它通過圖形化的方式展示了Transformer模型的各個組件,包括自注意力機制、前饋網絡等,讓用戶能夠直觀地看到數據在模型中的流動和處理過程。該工具對於教育和研究領域具有重要意義,可以幫助學生和研究人員更好地理解自然語言處理領域的先進技術。
AI工具網址目錄
109.6K