Vitlp : 文檔智能的視覺引導生成文本佈局預訓練模型

Vitlp

ViTLP

Vitlp

文檔 AI模型 #OCR #文檔智能 #文本檢測 #文本識別 #預訓練模型普通產品開源

簡介 :

ViTLP是一個視覺引導的生成文本佈局預訓練模型，旨在提高文檔智能處理的效率和準確性。該模型結合了OCR文本定位和識別功能，能夠在文檔圖像上進行快速準確的文本檢測和識別。ViTLP模型的預訓練版本ViTLP-medium（380M參數）在計算資源和預訓練數據集規模的限制下，提供了一個平衡的解決方案，既保證了模型的性能，又優化了推理速度和內存使用。ViTLP的推理速度在Nvidia 4090上處理一頁文檔圖像通常在5到10秒內，與大多數OCR引擎相比具有競爭力。

需求人群 :

目標受眾為需要進行文檔圖像處理的企業和研究機構，特別是那些需要自動化文檔處理和檔案數字化的領域。ViTLP的快速推理速度和高準確率使其成為這些場景的理想選擇。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 66.5K

使用場景

案例一：使用ViTLP對歷史文獻進行數字化，自動提取文獻中的文本信息。

案例二：在法律領域，利用ViTLP對大量的案件文檔進行自動化處理和信息提取。

案例三：在金融行業，通過ViTLP對合同文檔進行智能分析，提取關鍵條款。

產品特色

• 原生OCR文本定位和識別：ViTLP能夠直接在文檔圖像上進行文本的定位和識別。

• 預訓練模型ViTLP-medium：提供了一個預訓練的模型，擁有380M參數，能夠在有限的計算資源下提供較好的性能。

• 快速推理速度：在Nvidia 4090上，ViTLP能夠快速處理文檔圖像，推理速度在5到10秒內完成一頁文檔圖像的處理。

• Huggingface平臺支持：ViTLP模型的預訓練權重可以在Huggingface平臺上找到，方便用戶下載和使用。

• 易於集成和使用：通過提供的代碼和指令，用戶可以輕鬆地將ViTLP集成到自己的項目中。

• 支持批量解碼：通過提供的decode.sh腳本，用戶可以進行批量文檔圖像的解碼處理。

• 適用於文檔智能處理：ViTLP特別適合需要文檔圖像文本檢測和識別的場景，如自動化文檔處理、檔案數字化等。

使用教程

1. 訪問ViTLP的GitHub頁面並克隆項目到本地。

2. 安裝所需的依賴項，運行`pip install -r requirements.txt`。

3. 克隆預訓練的ViTLP模型權重到指定目錄，使用`git clone https://huggingface.co/veason/ViTLP-medium ckpts/ViTLP-medium`。

4. 運行demo，使用`python ocr.py`並上傳文檔圖像進行測試。

5. 查看`decode.py`瞭解詳細的推理代碼，並可以通過`bash decode.sh`運行批量解碼。

6. 如需對ViTLP進行微調，可以參考`./finetuning`目錄下的指南。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase