EVE : 編碼器自由的視覺-語言模型，高效且數據驅動。

EVE

EVE

EVE

AI模型 AI圖像生成 #視覺-語言模型 #編碼器自由 #數據驅動 #AI研究普通產品開源

簡介 :

EVE是一個編碼器自由的視覺-語言模型，由大連理工大學、北京人工智能研究院和北京大學的研究人員共同開發。它在不同圖像寬高比下展現出卓越的能力，性能超越了Fuyu-8B，並且接近模塊化編碼器基礎的LVLMs。EVE在數據效率、訓練效率方面表現突出，使用33M公開數據進行預訓練，並利用665K LLaVA SFT數據為EVE-7B模型訓練，以及額外的1.2M SFT數據為EVE-7B (HD)模型訓練。EVE的開發採用了高效、透明、實用的策略，為跨模態的純解碼器架構開闢了新途徑。

需求人群 :

EVE模型主要面向人工智能領域的研究人員和開發者，特別是那些專注於視覺-語言任務和自然語言處理的專業人士。由於其高效的數據處理能力和訓練效率，EVE非常適合需要處理大規模視覺數據和語言模型的場景，同時對於推動人工智能領域的發展具有重要意義。

總訪問量： 474.6M

佔比最多地區： US(19.34%)

本站瀏覽量： 49.7K

使用場景

研究人員使用EVE模型進行圖像描述生成任務。

開發者利用EVE進行視覺問答系統的研發。

教育機構採用EVE模型教授視覺-語言模型的構建和應用。

產品特色

任意圖像寬高比的視覺-語言模型設計。

使用少量公開數據進行高效預訓練。

利用大量SFT數據進行進一步優化。

在訓練效率上，使用兩個8-A100 (40G)節點在約9天內完成訓練。

編碼器自由架構，簡化模型複雜性，提高透明度。

在多個視覺-語言任務上展現出優越的性能。

使用教程

訪問EVE的GitHub頁面以獲取項目信息和代碼。

閱讀README文件瞭解模型的安裝和配置要求。

根據指導下載並安裝必要的依賴項。

克隆或下載EVE模型的代碼庫到本地環境。

遵循文檔中的步驟進行模型訓練或測試。

根據需要調整模型參數以適應不同的視覺-語言任務。

參與社區討論，獲取幫助或貢獻代碼。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

剪映Dreamina

剪映Dreamina是抖音旗下的AIGC工具，用戶可以根據文本內容生成由AI生成的創意圖，支持修整圖片大小比例和模板類型。未來會用於抖音的圖文或短視頻的內容創作，豐富抖音在AI創造方面的內容庫。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase