テキスト

# テキスト

高品質新製品

Phi-3-vision-128k-instruct

Phi 3 Vision 128k Instruct

Phi-3 Visionは、合成データと厳選された公開利用可能なウェブサイトを含むデータセットに基づいて構築された、軽量で最先端のオープンなマルチモーダルモデルです。テキストとビジュアルの非常に高品質な推論集約データに特化しています。このモデルはPhi-3モデルファミリーに属し、マルチモーダル版は128Kトークン（トークン数）のコンテキスト長をサポートしており、厳格な強化プロセスを経て、教師ありファインチューニングと直接選好最適化を組み合わせることで、正確な指示遵守と強力なセキュリティ対策を確保しています。

BeautyPlus

BeautyPlusは、写真と動画の編集に幅広いツールと無料コンテンツを提供しています。直感的で使いやすく、誰でも簡単に日々の生活を共有できます。

中国語精選

ミータ

ミータは、世界中のクリエイターを繋ぐAIコミュニティプラットフォームです。AI技術を活用した「ミー文」「ミー画」などの創作ツールを提供しており、テキストプロンプトを入力するだけで、小説のアウトライン、記事、イラストなどのクリエイティブなコンテンツを生成できます。ミータは、ライティングアシスト、画像生成、インテリジェントなチャットボットなどの機能を備え、創作効率の向上と新たなインスピレーションの発掘を支援します。大規模な事前学習済み言語モデルをベースに、モデルのファインチューニングとデータ拡張によって、高品質なテキストと画像の生成を実現しています。ミータは、クリエイターに便利なAI創作ツールを提供し、包括的でオープンなコミュニティを構築することで、より多くの人がAIが創作にもたらす無限の可能性を体験できるように取り組んでいます。

AI設計ツール

Midreal.ai

MidRealは、最先端の人工知能技術を用いたテキストアドベンチャーゲームプラットフォームです。強力な長編叙事能力とほぼ無限の記憶能力を備え、プレイヤーの選択に応じて、一貫性があり没入感のあるストーリーを生成します。プレイヤーは様々な世界観やシナリオを選択し、好きなキャラクターになりきって、独自の冒険体験を創造できます。

AIゲーム制作

SteinDreamer

SteinDreamerは、テキストから3Dスコア蒸留のためのソリューションを提供します。Stein Score Distillation (SSD)と呼ばれる分散削減ソリューションを提案しており、制御変数構築とSteinの恒等式を用いることで、蒸留における分散を効果的に低減します。実験結果から、SSDは蒸留分散を効果的に低減し、オブジェクトレベルとシーンレベルの生成において継続的に視覚品質を向上させることが示されています。さらに、SteinDreamerは既存の手法と比較して、より高速な収束速度を示すことも実証されています。

Unified-IO 2

Unified-IO 2は、画像、テキスト、音声、動作を理解し生成できる統一されたマルチモーダル生成モデルです。単一のエンコーダー?デコーダーTransformerモデルを使用し、異なるモダリティ（画像、テキスト、音声、動作など）の入出力は、共有された意味空間で表現され処理されます。このモデルは、大規模なマルチモーダル事前学習データセットでゼロからトレーニングされ、マルチモーダルのノイズ除去目標で最適化されています。幅広いスキルを習得するために、120個の既存データセットでファインチューニングされており、これにはプロンプトとデータ拡張が含まれています。Unified-IO 2はGRITベンチマークにおいて最先端の性能を達成し、画像生成と理解、テキスト理解、ビデオと音声の理解、ロボット操作など30以上のベンチマークで強力な結果を示しています。

ImageBind

ImageBindは、明示的な教師データなしで、6種類の感覚モーダルデータ（画像?動画、音声、テキスト、深度、熱画像、慣性計測ユニット（IMU））を同時にバインドできる新しいAIモデルです。これらのモーダル間の関係性を認識することで（画像と動画、音声、テキスト、深度、熱画像、慣性計測ユニット（IMU））、AIの発展を促進し、機械が様々な形式の情報をより適切に分析することを可能にします。デモを通して、ImageBindの画像、音声、テキストモーダルにおける能力をご覧ください。

CelebV-Text

CelebV-Textは、大規模で高品質かつ多様な顔テキスト-ビデオデータセットであり、顔テキスト-ビデオ生成タスクの研究促進を目的としています。本データセットは、70,000本の野外で撮影された顔ビデオクリップを含んでおり、各クリップには20個のテキストが付属しています。これらは、40種類の一般的外観、5種類の詳細な外観、6種類の照明条件、37種類の動作、8種類感情、6種類の光線方向を網羅しています。CelebV-Textは、ビデオ、テキスト、およびテキスト-ビデオ間の関連性においてその優位性を包括的な統計分析によって検証しており、顔テキスト-ビデオ生成タスクの評価を標準化するベンチマークも構築しています。

AIデータセット

Bing翻訳

Bing翻訳は、様々な言語のテキストを迅速かつ正確に翻訳できる多言語テキスト翻訳ツールです。シンプルで使いやすいインターフェース、正確な翻訳、多言語対応といった利点を備えています。無料版と有料版があり、有料版ではより高度な機能をご利用いただけます。個人ユーザーとビジネスユーザーの両方を対象としています。

DreamFusion

DreamFusionは、事前学習済みの2Dテキスト?ツー?イメージ拡散モデルに基づいて、高精細でライティング調整可能な3Dオブジェクトを生成します。ニューラル放射場（Neural Radiance Field）でランダムに初期化された3Dモデルを勾配降下法で最適化することで3Dオブジェクトを生成し、あらゆる角度からの観察、任意の照明条件での再照明、あらゆる3D環境への合成が可能です。DreamFusionは3Dトレーニングデータや画像拡散モデルの改変を必要とせず、事前学習済みの画像拡散モデルを事前知識として用いる有効性を示しています。

Snapbar Studio

SnapBarは、豊富な機能と利点を備えた使いやすい写真編集ツールです。フィルター、画像修正、ステッカー、テキストなど、写真編集と美化を迅速に行うための機能を提供します。SnapBarは手頃な価格で、個人利用と商業利用の両方に適しています。ソーシャルメディアへの写真の共有から、ブログやウェブサイトといった魅力的な画像コンテンツの作成まで、SnapBarはユーザーのニーズを満たします。

Stable Horde

AI Hordeは、クラウドソーシング型分散処理による画像?テキスト生成プラットフォームです。多くの協力者によって構成され、効率的な画像?テキスト生成サービスを提供します。安定した性能、幅広い機能、多様な利用シーンを備えています。個人ユーザーから企業ユーザーまで、AI Hordeを通じて高品質な画像?テキスト生成サービスをご利用いただけます。AI Hordeは、創作、デザイン、エンターテインメントなど、ユーザーのニーズを満たすためのリーズナブルな価格設定となっています。

Fotor

Fotorは、調整、フィルター、修復、トリミングなど、多様な編集機能を備えた、パワフルなオンライン画像編集ツールです。使いやすいインターフェースと豊富な素材ライブラリを備え、個人ユーザーからプロフェッショナルまで幅広くご利用いただけます。Fotorには無料版と有料版があり、価格は月額8.99ドルから年間39.99ドルまでです。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase