大規模モデル

# 大規模モデル

高品質新製品

PromptPilot

PromptPilot は、大規模モデルの最適化とユーザーのタスク意図の達成に特化した知的ソリューションプラットフォームです。インタラクティブなフィードバックを通じて、このプラットフォームはマルチステップ、マルチモーダル、マルチシナリオのタスクを自動的に最適化し、ユーザーに効率的な知的ソリューションを提供します。企業ユーザーおよび個人ユーザーが作業効率の向上とタスク完了品質の改善を支援します。

大規模モデル

高品質新製品

Tülu 3 405B

Tülu 3 405Bは、Allen Institute for AIによって開発された、4050億パラメータを持つオープンソース言語モデルです。革新的な強化学習フレームワーク（RLVR）により性能が向上しており、特に数学と指示追従タスクにおいて優れた成果を示します。Llama-405Bモデルをベースに、教師ありファインチューニングや選好最適化などの技術を用いて最適化されています。Tülu 3 405Bのオープンソース性は、高性能な言語モデルを必要とする様々なアプリケーションシナリオにおいて、研究開発分野における強力なツールとしての利用を可能にします。

GLM-PC

GLM-PCは、CogAgentビジョン言語大規模モデルを基盤としたコンピューターインテリジェンスです。高度な技術により、パソコン操作のインテリジェントなアシスタンスを実現します。大規模モデルの強力な言語理解と生成能力、そして画像認識技術を組み合わせることで、より効率的で便利なパソコン操作体験を提供します。複雑なパソコン操作を迅速に完了させ、作業効率を向上させることができます。主な利点としては、効率性、知能化、使いやすさが挙げられます。本製品は、パソコン操作の効率向上を必要とするオフィスワーカー、学生などに向け、高い実用性を備えています。現在の価格と具体的なポジショニングはまだ明確ではありません。

HuatuoGPT-o1-70B

Huatuogpt O1 70B

HuatuoGPT-o1-70Bは、FreedomIntelligenceが開発した医療分野向けの大規模言語モデル（LLM）であり、複雑な医療推論用に設計されています。このモデルは最終的な回答を生成する前に、複雑な思考プロセスを生成し、その推論を反映して洗練します。HuatuoGPT-o1-70Bは複雑な医療問題を処理し、熟慮された回答を提供することで、医療における意思決定の質と効率の向上に貢献します。このモデルはLLaMA-3.1-70Bアーキテクチャに基づいており、英語に対応し、vllmやSglangなどの様々なツールに展開したり、直接推論を実行することも可能です。

中国語精選

DeepSeek-V3

DeepSeek-V3は、総パラメータ数6710億、活性化パラメータ数370億の強力なMixture-of-Experts（MoE）言語モデルです。DeepSeek-V2で実証済みのMulti-head Latent Attention（MLA）とDeepSeekMoEアーキテクチャを採用しています。さらに、DeepSeek-V3では、初めて補助損失なしの負荷均衡戦略を採用し、多トークン予測トレーニング目標を設定することで、より強力な性能を実現しました。DeepSeek-V3は14.8兆の高品質トークンで事前学習され、その後、教師あり微調整と強化学習段階を経て、その能力を最大限に活用しています。総合的な評価によると、DeepSeek-V3は他のオープンソースモデルを凌駕し、主要なクローズドソースモデルと同等の性能に達しています。優れた性能にもかかわらず、DeepSeek-V3の完全なトレーニングにはわずか2.788M H800 GPU時間しか必要なく、トレーニングプロセスは非常に安定しています。

DRT-o1-14B

DRT-o1-14Bは、長鎖推論によって翻訳の深みと精度を高めることを目的としたニューラル機械翻訳モデルです。比喩や隠喩を含む英文を解析し、翻訳者、アドバイザー、評価者を含むマルチエージェントフレームワークを用いて、熟考された機械翻訳サンプルを生成します。DRT-o1-14Bは、Qwen2.5-14B-Instructをバックボーンとして訓練されており、148億パラメーターを備え、BF16テンソル型をサポートしています。このモデルの重要性は、特に深い理解と推論が必要な複雑な翻訳タスクを処理できる点にあり、新たなソリューションを提供します。

智趣AIセレクション

智趣AIセレクション

智趣AIセレクションは、人工知能分野に特化した総合的なプラットフォームです。業界の発展見通しを洞察し、国内外のAI製品とアプリケーションを選定?紹介することを目指しています。豊富な学習リソース、業界融合事例分析を提供し、ユーザーがAIの発展トレンドを把握し、AI技術と共に歩み、未来を共創することを支援します。

AI情報プラットフォーム

中国語精選

讯飞星火

讯飞星火は、科大讯飞が開発したGPT-4 Turboを全面的にベンチマークとしたAI大規模言語モデルです。音声認識、自然言語処理、機械学習など、複数のAI技術を統合することで、ユーザーに効率的でスマートな業務効率化ツールを提供します。テキスト情報の処理だけでなく、音声認識と生成にも対応し、多言語をサポート。企業サービス、スマートハードウェア、スマートガバメント、スマートファイナンス、スマート医療など、幅広い分野で活用できます。

PowerInfer-2

PowerInfer-2は、スマートフォン向けに最適化された推論フレームワークです。最大47BパラメータのMoEモデルをサポートし、毎秒11.68トークンの推論速度を実現しています。これは他のフレームワークと比較して22倍高速です。異種計算とI/O-Computeパイプライン技術により、メモリ使用量を大幅に削減し、推論速度を向上させています。このフレームワークは、データプライバシーとパフォーマンスを向上させるために、モバイルデバイスへの大規模モデルの展開が必要なシナリオに適しています。

モデルトレーニングとデプロイメント

Skywork-MoE-Base-FP8

Skywork MoE Base FP8

Skywork-MoEは、146億パラメーターを持つ高性能な混合専門家（MoE）モデルです。16のエキスパートと22億の活性化パラメーターを備えています。このモデルは、Skywork-13Bモデルの密集型チェックポイントから初期化されています。2つの革新的な技術、ゲート付きロジック正規化（専門家の多様性を強化）と適応型補助損失係数（層固有の補助損失係数の調整を可能にする）が導入されています。Skywork-MoEは、C-Eval、MMLU、CMMLU、GSM8K、MATH、HumanEvalなどの様々な一般的なベンチマークテストにおいて、パラメーター数が多いモデルや活性化パラメーター数が多いモデルと同等かそれ以上の性能を示しています。

高品質新製品

Llama-中文

Llama中文コミュニティは、Llamaモデルの中文における最適化と上位層構築に特化した技術コミュニティです。大規模な中文データに基づいた事前学習済みモデルを提供し、Llama2とLlama3モデルの中文能力の継続的な改善?アップデートを行っています。上級エンジニアチームによるサポート、豊富なコミュニティ活動、そしてオープンで共有可能な協働環境を提供することで、中文自然言語処理技術の発展を目指しています。

Viduは、生数科技と清華大学が共同で発表した、中国初の長時間、高整合性、高動的ビデオ大規模モデルです。独自のDiffusionとTransformerを融合したアーキテクチャU-ViTを採用し、最長16秒、解像度1080Pの高解像度ビデオコンテンツをワンクリックで生成できます。Viduは現実世界の物理現象をシミュレートできるだけでなく、豊かな想像力も持ち合わせており、マルチカメラ生成、時空間の一貫性などの特徴を備えています。その急速な進歩は、チームがベイジアン機械学習とマルチモーダル大規模モデルにおける長年の蓄積と数々の独創的な成果によるものです。Viduの登場は、生数科技のマルチモーダルネイティブ大規模モデル分野における継続的な革新能力とリーダーシップを示しており、将来に向けて、柔軟なアーキテクチャによりより広範なモダリティに対応し、マルチモーダル汎用能力の境界をさらに拡大していきます。

DeepLearing-Interview-Awesome-2024

Deeplearing Interview Awesome 2024

DeepLearing-Interview-Awesome-2024は、オープンソースの面接問題集プロジェクトです。深度学習アルゴリズムと大規模モデル分野の面接準備に特化しています。本プロジェクトはコミュニティメンバーが共同で維持管理しており、最新の面接問題と解答解説を提供することで、求職者や研究者が深度学習分野の最先端技術と応用を深く理解することを目指しています。大規模言語モデル、ビジョンモデル、一般的な問題など、幅広い分野を網羅した豊富な面接問題が含まれており、深度学習関連の職種を目指す上で貴重なリソースとなります。

Meta Llama 3

Meta Llama 3は、Meta社が開発した次世代のオープンソース大型言語モデルです。その卓越した性能は、複数の業界ベンチマークテストで実証されています。推論能力の向上など、幅広いユースケースに対応可能です。将来的には、多言語対応、マルチモーダル対応、より長いコンテキストウィンドウ、および全体的な性能向上を予定しています。Llama 3はオープンソースの理念に基づき、主要なクラウドサービス、ホスティングサービス、ハードウェアプラットフォームで提供され、開発者やコミュニティが利用できます。

Qwen1.5-MoE-A2.7B

Qwen1.5 MoE A2.7B

Qwen1.5-MoE-A2.7Bは、わずか27億の活性化パラメーターしか持たない大規模MoE（Mixture of Experts）言語モデルです。しかし、その性能は70億パラメーターモデルに匹敵します。従来の大規模モデルと比較して、訓練コストを75％削減し、推論速度を1.74倍向上させています。これは、細粒度専門家、新しい初期化方法、ルーティングメカニズムなどを含む独自のMoEアーキテクチャ設計によって実現しました。これにより、モデルの効率性が大幅に向上しています。本モデルは、自然言語処理、コード生成など、さまざまなタスクに使用できます。

Mistral-7B-Instruct-v0.2

Mistral 7B Instruct V0.2

Mistral-7B-Instruct-v0.2は、Mistral-7B-v0.2モデルを指示微調整した大規模言語モデルです。32kのコンテキストウィンドウと1e6のRope Theta値などの特徴を備えています。このモデルは、与えられた指示に基づいてテキスト出力を生成することができ、質疑応答、ライティング、翻訳などの様々なタスクに対応します。指示微調整により、指示の理解と実行能力が向上しています。現時点では、特段のモデレーションメカニズムは搭載されていませんが、今後、より多くのシナリオへの展開に対応できるよう最適化を進めていきます。

TimesFM

TimesFMは、大規模な時系列データセットで事前学習された、200億パラメータを持つデコーダ基盤モデルです。大規模言語モデルと比較して規模は小さいものの、様々な分野と時間粒度を持つ複数の未見データセットにおいて、ゼロショット性能が最先端の教師あり学習手法に匹敵します。TimesFMは追加の学習なしで、優れた未見時系列予測を提供します。

MoE-LLaVA

MoE-LLaVAは、大規模視覚言語モデルに基づくエキスパート混合モデルであり、マルチモーダル学習において優れた性能を発揮します。パラメータ数は少ないにもかかわらず、高い性能を示し、短時間でトレーニングを完了できます。Gradio Web UIとCLI推論に対応しており、モデルライブラリ、要件とインストール、トレーニングと検証、カスタマイズ、可視化、APIなどの機能を提供します。

中国語精選

百川 3

百川智能Baichuan 3は、超千億パラメーターの大規模言語モデルです。複数の権威ある汎用能力評価において優れた性能を示しており、特に中国語のタスクにおいてはGPT-4を上回っています。自然言語処理、コード生成、医療タスクなどの分野で優れた性能を発揮し、動的データ選択、重要度保持、非同期チェックポイント保存などの革新的な技術的手法を採用することでモデル能力を向上させています。訓練過程では因果サンプリングによる動的訓練データ選択方案を採用し、データ品質を保証しています。また、重要度保持に基づく漸進的初期化手法を導入することで、モデル訓練の安定性を最適化しています。さらに、並列訓練に関する一連の最適化を実施し、性能を30％以上向上させています。

Vary

Varyは、大規模視覚言語モデル向けの公式コード実装です。視覚語彙を拡張することで、モデルの性能を向上させます。このモデルは強力な画像理解と自然言語生成能力を備えており、様々な分野で応用可能です。

火山方舟

火山方舟は、モデルのトレーニング、推論、評価、微調整など、包括的な機能とサービスを提供し、大規模モデルエコシステムを重点的にサポートします。厳選されたモデルによりモデルの安定性を確保し、豊富なプラットフォームアプリケーションとツール、情報セキュリティ、強力なコンピューティングパワー、専門的なサービスを提供します。主な機能には、モデル広場、モデル体験、モデルトレーニングと推論、モデルアプリケーションなどがあります。自動車、金融、大消費、インターネット関連、教育、オフィスなど、幅広い業界のシナリオに適用可能です。

モデルトレーニングとデプロイ

中国語精選

OpenDataLab

OpenDataLabは、大規模AIモデルの学習と応用を支援する、高品質なオープンデータセットを提供するオープンソースのデータプラットフォームです。5,500種類以上のデータセット、1,500種類以上のタスクタイプを網羅し、総データ量は80TB以上、ダウンロード数は106万4,500回を超えています。30種類以上の利用シーン、20種類以上のアノテーションタイプ、5種類のデータタイプをサポートし、データ構造、アノテーション形式、オンライン可視化の統一規格を採用することで、データのオープンな共有とインテリジェントな検索を実現しています。構造化されたデータ情報と視覚的なアノテーション、データ分布を提供し、ユーザーが容易にデータを参照、絞り込みできるように設計されています。また、VPN不要で国内クラウドから高速ダウンロードできるサービスを提供しています。

データ分析

快意KwaiYii

「快意」大規模言語モデル（KwaiYii）は、快手AIチームがゼロから独自開発した、一連の大規模言語モデル（LLM）です。事前学習モデルと対話モデルが含まれます。KwaiYii-13B-Base事前学習モデルは、優れた汎用基盤能力を備え、KwaiYii-13B-Chat対話モデルは、優れた言語理解と生成能力を備えています。複数の権威あるベンチマークの結果から、KwaiYii-13Bモデルは各分野でトップレベルの性能を有することが示されています。

盤古大模型

盤古大模型

盤古大模型は、華為雲が提供する人工知能ソリューションです。NLP大規模モデル、CV大規模モデル、マルチモーダル大規模モデル、予測大規模モデル、科学計算大規模モデルなど、複数のモデルを通じて、対話型応答、画像認識、マルチモーダル処理、予測分析、科学計算といった様々な機能を実現します。盤古大模型は、高効率な適応、高効率なアノテーション、正確な制御を特徴とし、幅広い産業分野で活用できます。詳細は公式ウェブサイトをご覧ください。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase