Phi 3 Vision 128k Instruct : マイクロソフトの軽量で高度なマルチモーダルモデル。テキストとビジュアルの高品質な推論集約データに特化しています。

すべてのカテゴリ

Phi 3 Vision 128k Instruct

Phi-3-vision-128k-instruct

Phi 3 Vision 128k Instruct

AIモデル AI画像生成 #マルチモーダル #高品質 #推論 #ビジュアル #テキスト高品質新製品商用

紹介 :

Phi-3 Visionは、合成データと厳選された公開利用可能なウェブサイトを含むデータセットに基づいて構築された、軽量で最先端のオープンなマルチモーダルモデルです。テキストとビジュアルの非常に高品質な推論集約データに特化しています。このモデルはPhi-3モデルファミリーに属し、マルチモーダル版は128Kトークン（トークン数）のコンテキスト長をサポートしており、厳格な強化プロセスを経て、教師ありファインチューニングと直接選好最適化を組み合わせることで、正確な指示遵守と強力なセキュリティ対策を確保しています。

ターゲットユーザー :

このモデルは、ビジュアルとテキストの入力能力が必要な汎用AIシステムやアプリケーションにおいて、特にメモリ/計算リソースが制限された環境、遅延が制限されたシナリオ、汎用画像理解、OCR、チャートとテーブルの理解などに適しており、幅広い商業および研究用途を対象としています。

総訪問数： 599.7K

最も高い割合の地域： US(30.61%)

ウェブサイト閲覧数： 82.0K

使用シナリオ

教育分野で、学生が複雑な概念を理解するのに役立ちます。

ビジネス環境で、画像とテキストデータの分析と処理に使用されます。

研究において、生成AI機能の強力な基礎モデルとして機能します。

製品特徴

42億パラメーター。画像エンコーダー、コネクター、プロジェクター、Phi-3 Mini言語モデルを含みます。

テキストと画像の入力をサポートし、チャット形式のプロンプトの使用に最適です。

コンテキスト長は128Kトークンです。

512個のH100-80G GPUを使用してトレーニングし、トレーニング時間は1.5日でした。

トレーニングデータには5,000億個のビジュアルおよびテキストトークンが含まれています。

出力は入力に基づいて生成されたテキストです。

モデルのトレーニング日は2024年2月?4月です。

モデルは静的モデルであり、トレーニングの締め切り日は2024年3月15日です。

使用チュートリアル

1. Azure AIモデルライブラリにアクセスし、Phi-3-vision-128k-instructモデルを選択します。

2. 必要に応じてモデルをダウンロードまたはデプロイします。

3. テキストと画像を含む入力データを用意します。

4. 温度や最大新規トークン数などのモデルパラメーターを設定します。

5. 入力データをモデルに渡して出力を受信します。

6. モデルの出力を分析し、アプリケーションシナリオに合わせてさらに処理します。

おすすめAI製品

DeepMind Gemini

Deepmind Gemini

Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。

中国語精選

剪映Dreamina

剪映DreaminaはTikTok（抖音）が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase