gmft
G
Gmft
紹介 :
gmftは、PDF内の表を様々な形式に変換するためのツールキットです。軽量で、モジュール化されており、パフォーマンスに優れています。gmftは、数ある代替手段の中でも最高のパフォーマンスと信頼性を誇る、MicrosoftのTable Transformersに依存しています。GPU不要で動作し、高いスループットを実現、インストールも一行のコードで完了する手軽さです。高スループットと寛容なライセンスで知られるPyPDFium2を採用しています。gmftが使用するトレーニング済みモデルTATRは、多様なデータセットPubTables-1Mでトレーニングされており、高い信頼性を備えています。
ターゲットユーザー :
gmftのターゲットユーザーは、データアナリスト、研究者、そしてPDFドキュメントから表データを取り出す必要がある全ての人です。軽量かつ高性能な特性により、大量のPDFファイルの処理やデータの高速変換が必要な場面に最適です。
総訪問数: 502.6M
最も高い割合の地域: US(19.34%)
ウェブサイト閲覧数 : 49.7K
使用シナリオ
データアナリストがgmftを使用して、調査レポートからデータを抽出し、更なる分析を行う。
研究者がgmftを使用して、学術論文から実験データを取り出す。
企業ユーザーがgmftを使用して、契約書ドキュメントから表データを自動的に抽出するプロセスを自動化する。
製品特徴
PDF表をPandas DataFrameなどの様々な形式に変換可能
表のテキストと位置リストを出力可能
表の切り抜き画像を出力可能
表のタイトル抽出に対応
OCR不要で、画像やスキャン済みのPDFから高速に表を抽出
PyPDFium2による高スループットなPDF処理
高いカスタマイズ性、カスタムモデルや抽出方法に対応
使用チュートリアル
gmftのインストール:コマンドラインで`pip install gmft`と入力してインストールします。
必要なモジュールのインポート:Pythonスクリプトで`CroppedTable`, `TableDetector`, `AutoTableFormatter`などをインポートします。
PyPDFium2Documentオブジェクトの作成:抽出対象のPDFファイルパスを使用してドキュメントオブジェクトを作成します。
TableDetectorによる表検出:ドキュメントの各ページを巡回し、detectorを使用して表を抽出します。
AutoTableFormatterによる表のフォーマット:検出された表をフォーマット処理します。
抽出された表データを必要な形式に変換:例えば、Pandas DataFrameやその他の対応形式に変換します。
ドキュメントオブジェクトのクローズ:抽出が完了したら、ドキュメントオブジェクトのcloseメソッドを呼び出してリソースを解放します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase