使用场景
将历史信件的扫描件转换为可编辑的文本格式。
对学术文章的扫描副本进行OCR处理,并纠正原始输出中的错误。
将公司存档的合同文档数字化,以便于搜索和引用。
产品特色
PDF到图像转换
使用Tesseract进行OCR
使用LLMs进行高级错误校正(本地或基于API)
智能文本分块以高效处理
Markdown格式选项
可选的页眉和页码抑制
最终输出的质量评估
支持本地LLMs和基于云的API提供商(OpenAI, Anthropic)
异步处理以提高性能
详细的日志记录用于过程跟踪和调试
GPU加速本地LLM推理
使用教程
1. 将PDF文件放置在项目目录中。
2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。
3. 运行脚本:python llm_aided_ocr.py。
4. 脚本将生成多个输出文件,包括最终处理后的文本。
5. 检查生成的{base_name}__raw_ocr_output.txt文件,这是Tesseract的原始OCR输出。
6. 查看{base_name}_llm_corrected.md文件,这是经过LLM校正和格式化的最终文本。
7. 根据需要,查看日志文件以了解处理过程和质量评估。
精选AI产品推荐

Openai TTS
OpenAI TTS提供文本到语音的API,基于他们的TTS模型。它带有6种内置语音,可用于朗读博客文章、在多种语言中生成口语音频以及使用流式传输实时音频输出。用户可以通过控制模型名称、文本和语音选择来生成音频文件,并且支持多种音频输出格式。
AI文本转语音
911.6K

Emotivoice
EmotiVoice是一个功能强大、现代化的开源文本到语音引擎。它支持英语和中文,并拥有超过2000种不同的语音。最显著的特点是情感合成,可以让你创造具有各种情感的语音,包括快乐、兴奋、悲伤、愤怒等。
EmotiVoice提供了一个易于使用的网页界面,还提供了用于批量生成结果的脚本界面。
主要功能点包括:
1. 支持英语和中文
2. 拥有超过2000种不同的语音
3. 提供情感合成功能
价格:免费
定位:面向开发者和研究人员。
AI文本转语音
335.3K