Phi-3-vision-128k-instruct
P
Phi 3 Vision 128k Instruct
紹介 :
Phi-3 Visionは、合成データと厳選された公開利用可能なウェブサイトを含むデータセットに基づいて構築された、軽量で最先端のオープンなマルチモーダルモデルです。テキストとビジュアルの非常に高品質な推論集約データに特化しています。このモデルはPhi-3モデルファミリーに属し、マルチモーダル版は128Kトークン(トークン数)のコンテキスト長をサポートしており、厳格な強化プロセスを経て、教師ありファインチューニングと直接選好最適化を組み合わせることで、正確な指示遵守と強力なセキュリティ対策を確保しています。
ターゲットユーザー :
このモデルは、ビジュアルとテキストの入力能力が必要な汎用AIシステムやアプリケーションにおいて、特にメモリ/計算リソースが制限された環境、遅延が制限されたシナリオ、汎用画像理解、OCR、チャートとテーブルの理解などに適しており、幅広い商業および研究用途を対象としています。
総訪問数: 599.7K
最も高い割合の地域: US(30.61%)
ウェブサイト閲覧数 : 82.0K
使用シナリオ
教育分野で、学生が複雑な概念を理解するのに役立ちます。
ビジネス環境で、画像とテキストデータの分析と処理に使用されます。
研究において、生成AI機能の強力な基礎モデルとして機能します。
製品特徴
42億パラメーター。画像エンコーダー、コネクター、プロジェクター、Phi-3 Mini言語モデルを含みます。
テキストと画像の入力をサポートし、チャット形式のプロンプトの使用に最適です。
コンテキスト長は128Kトークンです。
512個のH100-80G GPUを使用してトレーニングし、トレーニング時間は1.5日でした。
トレーニングデータには5,000億個のビジュアルおよびテキストトークンが含まれています。
出力は入力に基づいて生成されたテキストです。
モデルのトレーニング日は2024年2月?4月です。
モデルは静的モデルであり、トレーニングの締め切り日は2024年3月15日です。
使用チュートリアル
1. Azure AIモデルライブラリにアクセスし、Phi-3-vision-128k-instructモデルを選択します。
2. 必要に応じてモデルをダウンロードまたはデプロイします。
3. テキストと画像を含む入力データを用意します。
4. 温度や最大新規トークン数などのモデルパラメーターを設定します。
5. 入力データをモデルに渡して出力を受信します。
6. モデルの出力を分析し、アプリケーションシナリオに合わせてさらに処理します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase