LLaVA
L
Llava
簡介 :
LLaVA是一種新型的端到端訓練的大型多模態模型,將視覺編碼器和Vicuna相結合,實現了令人印象深刻的聊天能力,模仿多模態GPT-4的精神,並在科學問答方面取得了新的最高準確率。LLaVA的使用場景包括日常用戶應用的多模態聊天和科學領域的多模態推理。LLaVA的數據、代碼和檢查點僅限於研究用途,並遵循CLIP、LLaMA、Vicuna和GPT-4的許可協議。
需求人群 :
LLaVA適用於需要進行多模態聊天和科學問答的場景,例如日常用戶應用和科學領域的推理。
總訪問量: 81.0K
佔比最多地區: US(22.84%)
本站瀏覽量 : 183.3K
使用場景
LLaVA可以回答關於蒙娜麗莎的問題,包括畫作的作者、畫作的特點和保存在哪裡等。
LLaVA可以進行光學字符識別(OCR),並提供有關識別結果的詳細描述。
LLaVA可以進行視覺推理,例如在OpenAI GPT-4技術報告中的兩個示例。
產品特色
將視覺編碼器和Vicuna相結合,實現多模態聊天和科學問答
使用語言-only GPT-4生成多模態語言-圖像指令跟隨數據
通過兩個階段的指令調整過程,實現預訓練和微調
在視覺聊天和科學問答方面取得了令人印象深刻的表現
提供數據、代碼和檢查點的開源
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase