ビジョン言語モデル

# ビジョン言語モデル

Ollama OCR for web

Ollama OCR For Web

ollama-ocrは、Ollamaベースの光学文字認識（OCR）モデルであり、画像からテキストを抽出できます。LLaVA、Llama 3.2 Vision、MiniCPM-V 2.6などの高度なビジョン言語モデルを活用することで、高精度なテキスト認識を実現します。ドキュメントのスキャン、画像の内容分析など、画像からテキスト情報を取得する必要がある場面で非常に役立ちます。オープンソースで無料で、様々なプロジェクトへの統合が容易です。

Moondream AI

Moondream AIは、強力なマルチモーダル処理能力を備えたオープンソースのビジョン言語モデルです。fp16、int8、int4などの複数の量子化形式をサポートしており、サーバー、PC、モバイルデバイスなど、様々なターゲットデバイスでGPUおよびCPU最適化推論を実行できます。主な利点としては、高速、高効率、展開容易であり、Apache 2.0ライセンスを採用しているため、ユーザーは自由に使用および修正できます。Moondream AIは、開発者に柔軟で効率的なAIソリューションを提供することを目的としており、ビジョンと言語処理能力を必要とする様々なアプリケーションシナリオに適しています。

DeepSeek-VL2-Tiny

Deepseek VL2 Tiny

DeepSeek-VL2は、高度な大規模混合専門家（MoE）ビジョン言語モデルのシリーズであり、前世代のDeepSeek-VLから大幅な性能向上を実現しています。このモデルシリーズは、ビジュアルクエスチョン?アンサーリング、光学文字認識、文書/表/図表の理解、画像の位置特定など、多くのタスクにおいて卓越した能力を発揮します。DeepSeek-VL2は、DeepSeek-VL2-Tiny、DeepSeek-VL2-Small、DeepSeek-VL2の3つのバリアントで構成され、それぞれ10億、28億、45億の活性化パラメータを備えています。DeepSeek-VL2は、活性化パラメータが同等かそれ以下でも、既存のオープンソースの密集型モデルやMoEベースのモデルと比較して、競争力のある、または最先端の性能を達成しています。

POINTS-1-5-Qwen-2-5-7B-チャット

POINTS 1 5 Qwen 2 5 7B チャット

WePOINTSシリーズの最新アップデート。大規模パラメータによる高性能を誇り、数々の革新的技術を搭載。OpenCompassランキングで優れた成績を収めています。

Qwen2-VL-7B

Qwen2-VL-7BはQwen-VLモデルの最新版であり、約1年間の革新的な成果を表しています。このモデルは、MathVista、DocVQA、RealWorldQA、MTVQAなど、ビジョン理解ベンチマークテストにおいて最先端の性能を達成しました。20分を超える動画を理解し、動画に基づいた質疑応答、対話、コンテンツ作成などを高品質でサポートします。さらに、Qwen2-VLは多言語をサポートしており、英語と中国語に加え、多くのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語などを含みます。モデルアーキテクチャの更新には、Naive Dynamic ResolutionとMultimodal Rotary Position Embedding (M-ROPE)が含まれ、マルチモーダル処理能力が強化されています。

PaliGemma 2

PaliGemma 2は、Gemmaファミリーの第二世代ビジョン言語モデルであり、パフォーマンスが拡張され、ビジョン能力が追加されたことで、画像を認識、理解し、視覚入力と対話できるようになり、新たな可能性を切り開きました。高性能なGemma 2モデルを基盤として構築されており、様々なモデルサイズ（3B、10B、28Bパラメーター）と解像度（224px、448px、896px）を提供することで、あらゆるタスクのパフォーマンスを最適化します。さらに、化学式認識、楽譜認識、空間推論、胸部X線レポート生成などにおいて、優れた性能を発揮します。PaliGemma 2は、既存のPaliGemmaユーザーにとって、プラグアンドプレイ式の代替品として、コードを大幅に変更することなくパフォーマンス向上を実現する、容易なアップグレードパスを提供することを目指しています。

SmolVLM

SmolVLMは、20億パラメーターを持つ小型ながらも高性能なビジョン言語モデル（VLM）です。同種のモデルと比較して、メモリ消費量が少なく、効率性に優れています。SmolVLMは、全てのモデルチェックポイント、VLMデータセット、トレーニングレシピ、ツールを含む全てがApache 2.0ライセンスの下で完全にオープンソースとして公開されています。ブラウザやエッジデバイスへのローカル展開に適しており、推論コストを削減し、ユーザーによるカスタマイズを可能にします。

Aquila-VL-2B-llava-qwen

Aquila VL 2B Llava Qwen

Aquila-VL-2Bモデルは、LLava-one-visionフレームワークに基づいてトレーニングされたビジョン言語モデル（VLM）です。言語モデル（LLM）としてQwen2.5-1.5B-instructモデルを採用し、ビジョントランスフォーマーとしてsiglip-so400m-patch14-384を使用しています。約4000万の画像テキストペアを含む、独自構築のInfinity-MMデータセットでトレーニングされました。このデータセットは、インターネットから収集されたオープンソースデータと、オープンソースVLMモデルで生成された合成指示データの組み合わせです。Aquila-VL-2Bモデルのオープンソース化は、特に画像とテキストの組み合わせ処理におけるマルチモーダル性能の向上を目指しています。

Qwen2-VL

Qwen2-VLはQwen2を基盤とした最新世代のビジョン言語モデルです。多言語対応と強力な画像理解能力を備え、様々な解像度やアスペクト比の画像、長尺動画の処理が可能です。スマートフォンやロボット等への組み込みによる自動操作も実現します。複数の画像理解ベンチマークテストで世界トップレベルの性能を達成しており、特に文書理解において顕著な優位性を示しています。

VILA

VILAは、大規模なインターリーブされた画像テキストデータで事前トレーニングされた、事前学習済みのビジョン言語モデル（VLM）です。これにより、動画の理解と複数の画像の理解が可能になります。VILAは、AWQ 4bit量子化とTinyChatフレームワークにより、エッジデバイスへの展開が可能です。主な利点としては、1) 性能向上に不可欠なインターリーブされた画像テキストデータ、2) コンテキスト学習を促進する、大規模言語モデル（LLM）をインターリーブされた画像テキスト事前トレーニング中に固定しないこと、3) VLMと純粋なテキストの性能を大幅に向上させるテキスト指示データのリミックス、4) 動画フレーム数の拡張を可能にするトークン圧縮、などが挙げられます。VILAは、動画推論、コンテキスト学習、ビジュアル思考連鎖、より優れた世界知識など、魅力的な能力を示します。

SPRIGHT

SPRIGHTは、空間関係に焦点を当てた大規模なビジョン言語データセットとモデルです。600万枚の画像を再記述することでSPRIGHTデータセットを構築し、記述における空間句を大幅に増加させました。本モデルは、多数の物体を含む444枚の画像を用いてファインチューニングされており、空間関係を持つ画像の生成を最適化しています。SPRIGHTは複数のベンチマークテストにおいて、空間的一貫性の最先端レベルを達成し、同時に画像品質スコアも向上させています。

InternLM-XComposer2

Internlm XComposer2

InternLM-XComposer2は、自由形式のテキスト画像合成と理解に長けた、最先端のビジョン言語モデルです。従来のビジョン言語を理解するだけでなく、輪郭、詳細なテキスト仕様、参照画像など、様々な入力から複雑に絡み合ったテキストと画像の内容を巧みに構築し、高度にカスタマイズされたコンテンツ作成を実現します。InternLM-XComposer2は、部分LoRA（PLoRA）手法を採用しており、追加のLoRAパラメータを画像トークンに適用することで、事前学習済み言語知識の完全性を維持し、正確なビジョン理解と文学的な才能を持つテキスト構成とのバランスを実現しています。実験結果によると、InternLM2-7BをベースとしたInternLM-XComposer2は、高品質な長テキストマルチモーダルコンテンツの生成において優れた性能を示し、様々なベンチマークテストでも卓越したビジョン言語理解能力を有しており、既存のマルチモーダルモデルを大幅に上回り、一部の評価においてはGPT-4VやGemini Proを凌駕する結果も得られています。これは、マルチモーダル理解分野におけるその卓越した能力を浮き彫りにしています。InternLM-XComposer2シリーズモデルは70億パラメータで、https://github.com/InternLM/InternLM-XComposerで公開されています。

CogVLM

CogVLMは、強力なオープンソースのビジョン言語モデルです。CogVLM-17Bは、100億個のビジュアルパラメータと70億個の言語パラメータを備えています。CogVLM-17Bは、NoCaps、Flicker30k字幕、RefCOCO、RefCOCO+、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCなど、10個の古典的なクロスモーダルベンチマークテストで最先端の性能を達成し、VQAv2、OKVQA、TextVQA、COCO字幕などでは2位にランクインしており、PaLI-X 55Bを上回るか、同等の性能を示しています。CogVLMは、画像について対話することもできます。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase