
使用場景
LLaVA可以回答關於蒙娜麗莎的問題,包括畫作的作者、畫作的特點和保存在哪裡等。
LLaVA可以進行光學字符識別(OCR),並提供有關識別結果的詳細描述。
LLaVA可以進行視覺推理,例如在OpenAI GPT-4技術報告中的兩個示例。
產品特色
將視覺編碼器和Vicuna相結合,實現多模態聊天和科學問答
使用語言-only GPT-4生成多模態語言-圖像指令跟隨數據
通過兩個階段的指令調整過程,實現預訓練和微調
在視覺聊天和科學問答方面取得了令人印象深刻的表現
提供數據、代碼和檢查點的開源
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M