Aya Vision 32B
A
Aya Vision 32B
紹介 :
Aya Vision 32Bは、Cohere For AIによって開発された、320億個のパラメータを持つ高度なビジュアル言語モデルで、英語、中国語、アラビア語など23の言語をサポートしています。このモデルは、最新の多言語言語モデルAya Expanse 32BとSigLIP2ビジュアルエンコーダを組み合わせ、多様なモダリティアダプターによって視覚と言語の理解を統合しています。OCR、画像記述、視覚推論など、複雑な画像とテキストのタスクを処理できる、ビジュアル言語分野で優れたパフォーマンスを発揮します。このモデルの公開は、多様なモダリティ研究の普及を促進することを目的としており、そのオープンソースの重みは、世界中の研究者にとって強力なツールとなります。このモデルはCC-BY-NCライセンスに従い、Cohere For AIの適正使用ポリシーを遵守する必要があります。
ターゲットユーザー :
このモデルは、特に多言語サポートと高性能モデルを必要とする、研究者、開発者、およびビジュアル言語タスクを処理する必要がある企業に適しています。
総訪問数: 0
最も高い割合の地域: US(17.94%)
ウェブサイト閲覧数 : 47.2K
使用シナリオ
Cohere PlaygroundでAya Vision 32Bを使用して画像記述を行う
Hugging Face Spaceを通じてモデルとインタラクティブな対話を行う
モデルを使用して多言語のOCRタスクを行う
製品特徴
23言語をサポートし、多様な言語シーンに対応
画像入力を処理し、テキスト出力を生成可能
16Kコンテキスト長をサポートし、複雑なタスクに適している
Cohere PlaygroundやHugging Face Spaceなどのインタラクティブな体験を提供
WhatsAppを使用してモデルとチャットインタラクションが可能
使用チュートリアル
必要なtransformersライブラリのインストール:`pip install 'git+https://github.com/huggingface/transformers.git@v4.49.0-AyaVision'`
モデルとプロセッサのロード:`AutoProcessor.from_pretrained(model_id)`と`AutoModelForImageTextToText.from_pretrained(model_id)`
画像とテキストコンテンツを含む入力データの準備
`processor.apply_chat_template`メソッドを使用して入力データをフォーマットする
モデルの`generate`メソッドを呼び出して出力テキストを生成する
生成されたトークンをデコードして最終結果を取得する
おすすめAI製品
DeepMind Gemini
Deepmind Gemini
Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。
AIモデル
11.4M
中国語精選
LiblibAI
Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase