Phi 3 Vision 128k Instruct : 微軟輕量級、先進的多模態模型，專注於文本和視覺的高質量推理密集數據。

Phi 3 Vision 128k Instruct

Phi-3-vision-128k-instruct

Phi 3 Vision 128k Instruct

AI模型 AI圖像生成 #多模態 #高質量 #推理 #視覺 #文本優質新品商用

簡介 :

Phi-3 Vision是一個輕量級、最先進的開放多模態模型，基於包括合成數據和經過篩選的公開可用網站在內的數據集構建，專注於文本和視覺的非常高質量的推理密集數據。該模型屬於Phi-3模型家族，多模態版本支持128K上下文長度（以token計），經過嚴格的增強過程，結合了監督微調和直接偏好優化，以確保精確的指令遵循和強大的安全措施。

需求人群 :

該模型面向廣泛的商業和研究用途，特別是在需要視覺和文本輸入能力的通用AI系統和應用程序中，適用於內存/計算受限環境、延遲受限場景、通用圖像理解、OCR、圖表和表格理解等。

總訪問量： 885.4K

佔比最多地區： US(30.61%)

本站瀏覽量： 87.5K

使用場景

用於教育領域，幫助學生理解複雜概念。

在商業環境中，用於圖像和文本數據的分析和處理。

在研究中，作為生成AI功能的強大基礎模型。

產品特色

4.2B參數，包含圖像編碼器、連接器、投影器和Phi-3 Mini語言模型。

支持文本和圖像輸入，最適合使用聊天格式的提示。

上下文長度為128K tokens。

使用512 H100-80G GPU進行訓練，訓練時間為1.5天。

訓練數據包含5000億視覺和文本token。

輸出為針對輸入生成的文本。

模型訓練日期為2024年2月至4月。

模型為靜態模型，訓練截止日期為2024年3月15日。

使用教程

1. 訪問Azure AI模型庫並選擇Phi-3-vision-128k-instruct模型。

2. 根據需要進行模型的下載或部署。

3. 準備輸入數據，包括文本和圖像。

4. 設置模型參數，例如溫度和最大新token數。

5. 將輸入數據傳遞給模型並接收輸出。

6. 分析模型輸出，根據應用場景進行進一步處理。

精選AI產品推薦

Deepmind Gemini

Deepmind Gemini

Gemini是谷歌DeepMind推出的新一代人工智能系統。它能夠進行多模態推理,支持文本、圖像、視頻、音頻和代碼之間的無縫交互。Gemini在語言理解、推理、數學、編程等多個領域都超越了之前的狀態,成為迄今為止最強大的AI系統之一。它有三個不同規模的版本,可滿足從邊緣計算到雲計算的各種需求。Gemini可以廣泛應用於創意設計、寫作輔助、問題解答、代碼生成等領域。

剪映Dreamina

剪映Dreamina是抖音旗下的AIGC工具，用戶可以根據文本內容生成由AI生成的創意圖，支持修整圖片大小比例和模板類型。未來會用於抖音的圖文或短視頻的內容創作，豐富抖音在AI創造方面的內容庫。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase