GLM 4V 9B : オープンソースのマルチモーダル事前学習モデルで、中国語と英語の双方向対話機能を備えています。

すべてのカテゴリ

GLM 4V 9B

GLM-4V-9B

GLM 4V 9B

AIモデル AI会話型ロボット #マルチモーダル #事前学習モデル #中国語と英語 #画像認識 #対話生成海外精選オープンソース

紹介 :

GLM-4V-9Bは、智譜AIが発表した最新世代の事前学習モデルです。1120×1120の高解像度での中国語と英語の双方向多段階対話、および画像認識能力をサポートします。マルチモーダル評価において、GLM-4V-9BはGPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max、Claude 3 Opusを上回る優れた性能を示しました。

ターゲットユーザー :

ターゲットユーザーは、マルチモーダル言語処理と理解を行う研究者、開発者、および企業ユーザーです。この製品は、高性能、多言語サポート、画像認識能力を備えたAIモデルを求め、アプリケーションやサービスの向上を目指す企業や個人に適しています。

総訪問数： 26.1M

最も高い割合の地域： US(17.94%)

ウェブサイト閲覧数： 75.9K

使用シナリオ

画像の内容を説明するテキストを生成する

多言語環境で自然言語処理タスクを行う

チャットボットの基盤モデルとして、インテリジェントな対話サービスを提供する

製品特徴

8Kコンテキスト長のモデルリポジトリをサポート

画像認識能力を備え、画像を処理して説明を生成可能

中国語と英語の双方向多段階対話能力

総合能力、感覚推論、文字認識、グラフ理解などで優れた性能を発揮

Pythonを使用してモデル呼び出しとテキスト生成が可能

モデルウェイトの使用許諾を提供し、コンプライアンスを確保

使用チュートリアル

torch、PIL、transformersなどの必要なPythonライブラリをインポートする

AutoTokenizerを使用してTHUDM/glm-4v-9bからトークナイザーを取得する

入力テキストと画像を用意し、画像をRGB形式に変換する

トークナイザーを使用してチャットテンプレートを適用し、入力を生成する

入力をモデルに必要な形式に変換し、生成パラメータを設定する

AutoModelForCausalLMを使用してテキストを生成する

生成されたテキスト出力をデコードする

おすすめAI製品

DeepMind Gemini

Deepmind Gemini

Geminiは、Google DeepMindが開発した次世代人工知能システムです。テキスト、画像、ビデオ、音声、コード間のシームレスな相互作用をサポートし、マルチモーダル推論を実行できます。言語理解、推論、数学、プログラミングなど、複数の分野において従来のシステムを凌駕し、現在までに開発された最も強力なAIシステムの一つとなっています。エッジコンピューティングからクラウドコンピューティングまで、様々なニーズに対応できる3つの異なる規模のバージョンがあります。Geminiは、クリエイティブデザイン、ライティングアシスタント、質問応答、コード生成など、幅広い分野で活用できます。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase