Internvl : オープンソースのビジョン基礎モデル

すべてのカテゴリ

Internvl

InternVL

Internvl

AIモデル AI画像生成 #オープンソース #基礎モデル #ビジョン #言語モデル通常製品オープンソース

紹介 :

InternVLは、ViTモデルを60億パラメーターに拡張し、言語モデルとアライメントさせることで、現在最大の140億パラメーターのオープンソースビジョン基礎モデルを構築しました。これにより、視覚認識、クロスモーダル検索、マルチモーダル対話など幅広いタスクにおいて、32項目もの最先端性能を達成しています。

ターゲットユーザー :

["コンピュータビジョン研究","マルチモーダルアプリケーション開発"]

総訪問数： 502.6M

最も高い割合の地域： US(19.34%)

ウェブサイト閲覧数： 151.0K

使用シナリオ

InternViT-6Bを用いた画像分類

InternVL-Cを用いた画像テキスト検索

InternVL-Chatを用いたビジュアルQ&A

製品特徴

画像分類

セマンティックセグメンテーション

動画分類

画像テキスト検索

ビジョン言語モデリング

おすすめAI製品

DeepMind Gemini

Deepmind Gemini

Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。

中国語精選

剪映Dreamina

剪映DreaminaはTikTok（抖音）が提供するAIGCツールです。テキストを入力すると、AIが自動的にクリエイティブな画像を生成します。画像サイズやアスペクト比、テンプレートの種類も調整可能です。将来的には、TikTokの画像投稿やショート動画のコンテンツ制作にも活用され、TikTokのAIによるコンテンツ制作の充実を図ります。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase