
Llava Video
LLaVA-Videoは、ビデオ指示微調整に特化した大規模多モーダルモデル(LMMs)です。高品質な大量の生のデータをウェブから取得する困難さを解決するために、高品質な合成データセットLLaVA-Video-178Kを作成しました。このデータセットには、詳細なビデオ説明、オープンエンドの質問応答、多肢選択式の質問応答などのタスクが含まれており、ビデオ言語モデルの理解力と推論能力の向上を目指しています。LLaVA-Videoモデルは複数のビデオベンチマークテストで優れた性能を示し、データセットの有効性を証明しています。
AIモデル
51.6K

Data Juicer
Data-Juicerは、大規模言語モデル(LLM)に高品質で豊富、かつ扱いやすいデータを提供することを目的とした、ワンストップのマルチモーダルデータ処理システムです。システム化され、再利用可能なデータ処理ライブラリを提供し、データとモデルの協調開発をサポートします。サンドボックスラボを通して迅速な反復処理を実現し、データとモデルに基づいたフィードバックループ、可視化、多角的な自動評価などの機能を提供することで、ユーザーがデータとモデルをより深く理解し、改善する支援をします。Data-Juicerは積極的に更新とメンテナンスが行われており、機能、データレシピ、データセットが定期的に強化?追加されています。
AIデータマイニング
59.3K
高品質新製品

Llama3.1 70B Chinese Chat
Llama3.1-70B-Chinese-Chatは、Meta-Llama-3.1-70B-Instructモデルを基盤とした指示微調整言語モデルであり、中英両言語対応ユーザー向けに設計されています。ロールプレイングやツール使用など、多様な機能を備えています。ORPOアルゴリズムによる微調整により、中国語の質問に英語で回答したり、回答に中国語と英語が混在する問題が大幅に減少しました。特に、ロールプレイング、機能呼び出し、数学的能力において顕著な向上が見られます。
AIモデル
70.7K
高品質新製品

Llama 3
Meta Llama 3は、Metaがリリースした最新の超大規模言語モデルです。個人、クリエイター、研究者、あらゆる企業に対し、大規模言語モデルの可能性を開放することを目指しています。8Bから70Bパラメータまでの様々な規模のバージョンがあり、事前学習済みモデルと指示微調整済みモデルの両方が提供されています。GitHubリポジトリを通じて提供されており、ユーザーはモデルの重みとトークナイザをダウンロードしてローカル環境で推論を実行できます。Meta Llama 3の公開は、大規模言語モデル技術の普及と応用をさらに進めるものであり、広範な研究と商業的な可能性を秘めています。
AIモデル
47.2K
高品質新製品

Gemma 2 27B Chinese Chat
Gemma-2-27B-Chinese-Chatは、google/gemma-2-27b-itを基にした、中英両言語ユーザー向けに設計された初の指示微調整言語モデルです。ロールプレイングやツール使用など、多様な機能を備えています。ORPOアルゴリズムで微調整されており、中英両言語での会話、ロールプレイング、数学計算などの性能が大幅に向上しています。
AI会話機械人間
73.7K

MG LLaVA
MG-LLaVAは、低解像度、高解像度、オブジェクト中心の特徴を含む多粒度視覚処理パイプラインを統合することで、モデルの視覚処理能力を強化する機械学習言語モデル(MLLM)です。細部を捉えるために、高解像度視覚エンコーダを追加し、Conv-Gate融合ネットワークを通じて基本的な視覚特徴と融合させます。さらに、オフライン検出器によって識別されたバウンディングボックスを使用してオブジェクトレベルの特徴を統合することで、モデルのオブジェクト認識能力をさらに向上させます。MG-LLaVAは、公開されているマルチモーダルデータのみを使用して指示微調整によってトレーニングされ、優れた知覚能力を示します。
AIモデル
46.6K

Mistral 7B Instruct V0.2
Mistral-7B-Instruct-v0.2は、Mistral-7B-v0.2モデルを指示微調整した大規模言語モデルです。32kのコンテキストウィンドウと1e6のRope Theta値などの特徴を備えています。このモデルは、与えられた指示に基づいてテキスト出力を生成することができ、質疑応答、ライティング、翻訳などの様々なタスクに対応します。指示微調整により、指示の理解と実行能力が向上しています。現時点では、特段のモデレーションメカニズムは搭載されていませんが、今後、より多くのシナリオへの展開に対応できるよう最適化を進めていきます。
AIモデル
81.1K
おすすめAI製品
海外精選

Jules AI
Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。
開発プログラミング
39.7K

Nocode
NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。
開発プラットフォーム
38.9K

Listenhub
ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。
AI
38.1K
中国語精選

腾讯混元画像 2.0
腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。
画像生成
38.4K

Openmemory MCP
OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル(LLM)に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。
オープンソース
38.9K

Fastvlm
FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。
画像処理
38.4K
海外精選

ピカ
ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。
映像制作
17.6M
中国語精選

Liblibai
LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。
AIモデル
6.9M