LLM Aided OCR : 利用大型语言模型增强扫描PDF的OCR输出。

LLM Aided OCR

简介 :

llm_aided_ocr是一个高级系统，旨在显著提高光学字符识别（OCR）输出的质量。通过利用尖端的自然语言处理技术和大型语言模型（LLMs），该项目将原始OCR文本转化为高度准确、格式良好、易读的文档。

需求人群 :

目标受众为需要将扫描文档转换为可编辑和准确文本格式的个人或企业，如文档数字化、历史文档恢复、学术研究等。

总访问量： 474.6M

占比最多地区： US(19.34%)

本站浏览量： 80.3K

使用场景

将历史信件的扫描件转换为可编辑的文本格式。

对学术文章的扫描副本进行OCR处理，并纠正原始输出中的错误。

将公司存档的合同文档数字化，以便于搜索和引用。

产品特色

PDF到图像转换

使用Tesseract进行OCR

使用LLMs进行高级错误校正（本地或基于API）

智能文本分块以高效处理

Markdown格式选项

可选的页眉和页码抑制

最终输出的质量评估

支持本地LLMs和基于云的API提供商（OpenAI, Anthropic）

异步处理以提高性能

详细的日志记录用于过程跟踪和调试

GPU加速本地LLM推理

使用教程

1. 将PDF文件放置在项目目录中。

2. 更新main()函数中的input_pdf_file_path变量为您的PDF文件名。

3. 运行脚本：python llm_aided_ocr.py。

4. 脚本将生成多个输出文件，包括最终处理后的文本。

5. 检查生成的{base_name}__raw_ocr_output.txt文件，这是Tesseract的原始OCR输出。

6. 查看{base_name}_llm_corrected.md文件，这是经过LLM校正和格式化的最终文本。

7. 根据需要，查看日志文件以了解处理过程和质量评估。

精选AI产品推荐

智启未来，您的人工智能解决方案智库

直接访问	51.61%	外链引荐	33.46%	邮件	0.04%
自然搜索	12.58%	社交媒体	2.19%	展示广告	0.11%