Tabled
T
Tabled
紹介 :
Tabledは、PDF内の表を検出して抽出するためのPythonライブラリです。suryaを使用してPDF内の表を認識し、行と列を識別し、セルをMarkdown、CSV、またはHTMLにフォーマットできます。このツールは、PDFドキュメントから表データを取り出してさらに分析する必要があるデータサイエンティストや研究者にとって非常に役立ちます。Tabledの主な利点としては、高精度の表検出と抽出機能、複数の出力形式のサポート、使いやすいコマンドラインインターフェースなどが挙げられます。さらに、ユーザーが画像またはPDFファイルでTabledを直感的に試せるインタラクティブなAPPも提供しています。
ターゲットユーザー :
Tabledのターゲットユーザーは、主にデータ分析やさらなる処理のためにPDFドキュメントから表データを取り出す必要があるデータサイエンティスト、研究者、開発者です。このツールは、高精度の表検出と抽出、複数の出力形式のサポート、既存のワークフローへの容易な統合を提供するため、彼らにとって最適です。
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 56.6K
使用シナリオ
研究者はTabledを使用して、学術論文のPDFからデータを抽出し、統計分析を行います。
データサイエンティストはTabledを使用して、市場調査レポートの表データをCSV形式に変換し、経済予測モデルに使用します。
開発者はTabledをソフトウェア製品に統合して、PDF表データの自動処理機能を提供します。
製品特徴
PDF内の表を検出し、行と列を識別する
表データをMarkdown、CSV、HTMLにフォーマットする
コマンドラインツールとインタラクティブなAPPの2種類の使用方法をサポートする
モデルの重みを自動的にダウンロードし、追加の設定は不要
追加の行と列の情報を含むJSONファイルの保存オプションを提供する
検出された行、列、セルを表示するデバッグ画像を保存できる
Pythonコードから直接呼び出すことができ、より大きなワークフローへの統合が容易
画像ファイルからの直接読み込みに対応
使用チュートリアル
1. Python 3.10+とPyTorchをインストールします。
2. pipを使用してTabledをインストールします:`pip install tabled-pdf`
3. Tabledを実行し、データのパスを指定します:`tabled DATA_PATH`
4. `--format`オプションを使用して出力形式(Markdown、HTML、またはCSV)を指定します。
5. 必要に応じて、`--save_json`オプションを使用して追加の行と列の情報を保存します。
6. `--save_debug_images`オプションを使用してデバッグ画像を保存します。
7. 画像が既に切り取られた表である場合は、`--skip_detection`オプションを使用します。
8. 生成された`results.json`ファイルを確認します。このファイルには抽出された表データが含まれています。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase