LLM支援OCR : 大規模言語モデルを用いて、PDFスキャンからのOCR出力を向上させます。

LLM支援OCR

紹介 :

llm_aided_ocrは、光学文字認識（OCR）出力の品質を大幅に向上させることを目的とした高度なシステムです。最先端の自然言語処理技術と大規模言語モデル（LLM）を活用することで、このプロジェクトは、元のOCRテキストを高精度で、整形され、読みやすいドキュメントに変換します。

ターゲットユーザー :

ドキュメントのデジタル化、歴史的文書の復元、学術研究など、スキャンした文書を編集可能で正確なテキスト形式に変換する必要がある個人や企業を対象としています。

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 64.3K

使用シナリオ

歴史的な手紙のスキャンを編集可能なテキスト形式に変換する。

学術論文のスキャンコピーをOCR処理し、元の出力の誤りを修正する。

企業のアーカイブされた契約書をデジタル化して、検索と参照を容易にする。

製品特徴

PDFから画像への変換

TesseractによるOCR

LLMによる高度な誤り修正（ローカルまたはAPIベース）

効率的な処理のためのインテリジェントなテキスト分割

Markdown形式オプション

オプションのヘッダーとページ番号の抑制

最終出力の品質評価

ローカルLLMとクラウドベースのAPIプロバイダー（OpenAI、Anthropic）のサポート

パフォーマンス向上のための非同期処理

プロセス追跡とデバッグのための詳細なログ記録

GPUアクセラレーションによるローカルLLM推論

使用チュートリアル

1. PDFファイルをプロジェクトディレクトリに配置します。

2. main()関数内のinput_pdf_file_path変数を、お使いのPDFファイル名に更新します。

3. スクリプトを実行します：python llm_aided_ocr.py

4. スクリプトは、最終的に処理されたテキストを含む複数の出力ファイルを生成します。

5. 生成された{base_name}__raw_ocr_output.txtファイルを確認します。これはTesseractによる元のOCR出力です。

6. {base_name}_llm_corrected.mdファイルを確認します。これはLLMで修正され、フォーマットされた最終的なテキストです。

7. 必要に応じて、ログファイルを確認して処理プロセスと品質評価を確認します。

おすすめAI製品

未来を切り開く、あなたのAIソリューション知識ベース

直接訪問	51.61%	外部リンク	33.46%	メール	0.04%
オーガニック検索	12.58%	ソーシャルメディア	2.19%	ディスプレイ広告	0.11%