LLM Aided OCR : 利用大型語言模型增強掃描PDF的OCR輸出。

LLM Aided OCR

簡介 :

llm_aided_ocr是一個高級系統，旨在顯著提高光學字符識別（OCR）輸出的質量。通過利用尖端的自然語言處理技術和大型語言模型（LLMs），該項目將原始OCR文本轉化為高度準確、格式良好、易讀的文檔。

需求人群 :

目標受眾為需要將掃描文檔轉換為可編輯和準確文本格式的個人或企業，如文檔數字化、歷史文檔恢復、學術研究等。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 77.8K

使用場景

將歷史信件的掃描件轉換為可編輯的文本格式。

對學術文章的掃描副本進行OCR處理，並糾正原始輸出中的錯誤。

將公司存檔的合同文檔數字化，以便於搜索和引用。

產品特色

PDF到圖像轉換

使用Tesseract進行OCR

使用LLMs進行高級錯誤校正（本地或基於API）

智能文本分塊以高效處理

Markdown格式選項

可選的頁眉和頁碼抑制

最終輸出的質量評估

支持本地LLMs和基於雲的API提供商（OpenAI, Anthropic）

異步處理以提高性能

詳細的日誌記錄用於過程跟蹤和調試

GPU加速本地LLM推理

使用教程

1. 將PDF文件放置在項目目錄中。

2. 更新main()函數中的input_pdf_file_path變量為您的PDF文件名。

3. 運行腳本：python llm_aided_ocr.py。

4. 腳本將生成多個輸出文件，包括最終處理後的文本。

5. 檢查生成的{base_name}__raw_ocr_output.txt文件，這是Tesseract的原始OCR輸出。

6. 查看{base_name}_llm_corrected.md文件，這是經過LLM校正和格式化的最終文本。

7. 根據需要，查看日誌文件以瞭解處理過程和質量評估。

精選AI產品推薦

智啟未來，您的人工智能解決方案智庫

直接訪問	51.61%	外鏈引薦	33.46%	郵件	0.04%
自然搜索	12.58%	社交媒體	2.19%	展示廣告	0.11%