
使用シナリオ
歴史的な手紙のスキャンを編集可能なテキスト形式に変換する。
学術論文のスキャンコピーをOCR処理し、元の出力の誤りを修正する。
企業のアーカイブされた契約書をデジタル化して、検索と参照を容易にする。
製品特徴
PDFから画像への変換
TesseractによるOCR
LLMによる高度な誤り修正(ローカルまたはAPIベース)
効率的な処理のためのインテリジェントなテキスト分割
Markdown形式オプション
オプションのヘッダーとページ番号の抑制
最終出力の品質評価
ローカルLLMとクラウドベースのAPIプロバイダー(OpenAI、Anthropic)のサポート
パフォーマンス向上のための非同期処理
プロセス追跡とデバッグのための詳細なログ記録
GPUアクセラレーションによるローカルLLM推論
使用チュートリアル
1. PDFファイルをプロジェクトディレクトリに配置します。
2. main()関数内のinput_pdf_file_path変数を、お使いのPDFファイル名に更新します。
3. スクリプトを実行します:python llm_aided_ocr.py
4. スクリプトは、最終的に処理されたテキストを含む複数の出力ファイルを生成します。
5. 生成された{base_name}__raw_ocr_output.txtファイルを確認します。これはTesseractによる元のOCR出力です。
6. {base_name}_llm_corrected.mdファイルを確認します。これはLLMで修正され、フォーマットされた最終的なテキストです。
7. 必要に応じて、ログファイルを確認して処理プロセスと品質評価を確認します。
おすすめAI製品

LLM支援OCR
llm_aided_ocrは、光学文字認識(OCR)出力の品質を大幅に向上させることを目的とした高度なシステムです。最先端の自然言語処理技術と大規模言語モデル(LLM)を活用することで、このプロジェクトは、元のOCRテキストを高精度で、整形され、読みやすいドキュメントに変換します。
AI文章人格化
64.3K

Reader Lm 1.5b
Jreader-lm-1.5bはJina AIが開発した、HTML形式のコンテンツをMarkdown形式に変換することに特化したテキスト生成モデルです。コンテンツ変換が必要な開発者やコンテンツ制作者にとって非常に重要であり、自動化されたフォーマット変換により作業効率の大幅な向上を実現します。Hugging Faceプラットフォームで提供され、多言語に対応し、Google Colabで無料で試用可能です。
AI文章翻译语音
49.7K