使用場景
將歷史信件的掃描件轉換為可編輯的文本格式。
對學術文章的掃描副本進行OCR處理,並糾正原始輸出中的錯誤。
將公司存檔的合同文檔數字化,以便於搜索和引用。
產品特色
PDF到圖像轉換
使用Tesseract進行OCR
使用LLMs進行高級錯誤校正(本地或基於API)
智能文本分塊以高效處理
Markdown格式選項
可選的頁眉和頁碼抑制
最終輸出的質量評估
支持本地LLMs和基於雲的API提供商(OpenAI, Anthropic)
異步處理以提高性能
詳細的日誌記錄用於過程跟蹤和調試
GPU加速本地LLM推理
使用教程
1. 將PDF文件放置在項目目錄中。
2. 更新main()函數中的input_pdf_file_path變量為您的PDF文件名。
3. 運行腳本:python llm_aided_ocr.py。
4. 腳本將生成多個輸出文件,包括最終處理後的文本。
5. 檢查生成的{base_name}__raw_ocr_output.txt文件,這是Tesseract的原始OCR輸出。
6. 查看{base_name}_llm_corrected.md文件,這是經過LLM校正和格式化的最終文本。
7. 根據需要,查看日誌文件以瞭解處理過程和質量評估。
精選AI產品推薦

Openai TTS
OpenAI TTS提供文本到語音的API,基於他們的TTS模型。它帶有6種內置語音,可用於朗讀博客文章、在多種語言中生成口語音頻以及使用流式傳輸即時音頻輸出。用戶可以通過控制模型名稱、文本和語音選擇來生成音頻文件,並且支持多種音頻輸出格式。
AI文本轉語音
906.1K

Emotivoice
EmotiVoice是一個功能強大、現代化的開源文本到語音引擎。它支持英語和中文,並擁有超過2000種不同的語音。最顯著的特點是情感合成,可以讓你創造具有各種情感的語音,包括快樂、興奮、悲傷、憤怒等。
EmotiVoice提供了一個易於使用的網頁界面,還提供了用於批量生成結果的腳本界面。
主要功能點包括:
1. 支持英語和中文
2. 擁有超過2000種不同的語音
3. 提供情感合成功能
價格:免費
定位:面向開發者和研究人員。
AI文本轉語音
329.0K