Tabled
T
Tabled
簡介 :
Tabled是一個用於檢測和提取表格的Python庫,它使用surya來識別PDF中的表格,識別行列,並能夠將單元格格式化為Markdown、CSV或HTML。這個工具對於數據科學家和研究人員來說非常有用,他們經常需要從PDF文檔中提取表格數據以進行進一步的分析。Tabled的主要優點包括高準確性的表格檢測和提取能力,支持多種輸出格式,以及易於使用的命令行界面。此外,它還提供了一個交互式的APP,允許用戶直觀地嘗試在圖像或PDF文件上使用Tabled。
需求人群 :
Tabled的目標受眾主要是數據科學家、研究人員和開發者,他們需要從PDF文檔中提取表格數據以進行數據分析或進一步處理。這個工具適合他們,因為它提供了高準確性的表格檢測和提取,支持多種輸出格式,並且易於集成到現有的工作流程中。
總訪問量: 474.6M
佔比最多地區: US(19.34%)
本站瀏覽量 : 64.0K
使用場景
研究人員使用Tabled從學術論文的PDF中提取數據,以便進行統計分析。
數據科學家利用Tabled將市場研究報告中的表格數據轉換為CSV格式,用於經濟預測模型。
開發者將Tabled集成到他們的軟件產品中,以提供自動化的PDF表格數據處理功能。
產品特色
檢測PDF中的表格並識別行列
將表格數據格式化為Markdown、CSV或HTML
支持命令行工具和交互式APP兩種使用方式
自動下載模型權重,無需額外配置
提供額外的行和列信息的JSON文件保存選項
能夠保存顯示檢測到的行、列和單元格的調試圖像
支持從Python代碼中直接調用,便於集成到更大的工作流程中
使用教程
1. 安裝Python 3.10+和PyTorch。
2. 使用pip安裝Tabled:'pip install tabled-pdf'。
3. 運行Tabled,指定數據路徑:'tabled DATA_PATH'。
4. 使用--format選項指定輸出格式(Markdown、HTML或CSV)。
5. 如果需要,使用--save_json選項保存額外的行和列信息。
6. 使用--save_debug_images選項保存調試圖像。
7. 如果圖像已經是裁剪過的表格,使用--skip_detection選項。
8. 查看生成的'results.json'文件,它包含了提取的表格數據。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase