

Phi 3 Vision 128k Instruct
簡介 :
Phi-3 Vision是一個輕量級、最先進的開放多模態模型,基於包括合成數據和經過篩選的公開可用網站在內的數據集構建,專注於文本和視覺的非常高質量的推理密集數據。該模型屬於Phi-3模型家族,多模態版本支持128K上下文長度(以token計),經過嚴格的增強過程,結合了監督微調和直接偏好優化,以確保精確的指令遵循和強大的安全措施。
需求人群 :
該模型面向廣泛的商業和研究用途,特別是在需要視覺和文本輸入能力的通用AI系統和應用程序中,適用於內存/計算受限環境、延遲受限場景、通用圖像理解、OCR、圖表和表格理解等。
使用場景
用於教育領域,幫助學生理解複雜概念。
在商業環境中,用於圖像和文本數據的分析和處理。
在研究中,作為生成AI功能的強大基礎模型。
產品特色
4.2B參數,包含圖像編碼器、連接器、投影器和Phi-3 Mini語言模型。
支持文本和圖像輸入,最適合使用聊天格式的提示。
上下文長度為128K tokens。
使用512 H100-80G GPU進行訓練,訓練時間為1.5天。
訓練數據包含5000億視覺和文本token。
輸出為針對輸入生成的文本。
模型訓練日期為2024年2月至4月。
模型為靜態模型,訓練截止日期為2024年3月15日。
使用教程
1. 訪問Azure AI模型庫並選擇Phi-3-vision-128k-instruct模型。
2. 根據需要進行模型的下載或部署。
3. 準備輸入數據,包括文本和圖像。
4. 設置模型參數,例如溫度和最大新token數。
5. 將輸入數據傳遞給模型並接收輸出。
6. 分析模型輸出,根據應用場景進行進一步處理。
精選AI產品推薦

Deepmind Gemini
Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。
AI模型
11.4M
中文精選

剪映dreamina
剪映Dreamina是抖音旗下的AIGC工具,用戶可以根據文本內容生成由AI生成的創意圖,支持修整圖片大小比例和模板類型。未來會用於抖音的圖文或短視頻的內容創作,豐富抖音在AI創造方面的內容庫。
AI圖像生成
9.1M