音声認識

# 音声認識

Speechly

Speechlyは、音声を構造化されたメールに変換するツールで、手動入力を必要とせず、明瞭で読みやすい情報が簡単に得られます。最大100の言語に対応しています。

メールアシスタント

Unmute

Unmuteは革新的な音声認識と音声合成ツールで、ユーザーが自然な言語でAIと効果的にインタラクトできるように設計されています。その低遅延技術により、スムーズなユーザーエクスペリエンスを保証し、リアルタイムフィードバックが必要なシナリオに適しています。本製品はオープンソースとして公開され、さらなる開発者やユーザーの参加を促進します。価格についてはまだ発表されていませんが、無料と有料の組み合わせモデルを予定しています。

テキストから音声

Kimi-Audio

Kimi-Audioは、音声認識やオーディオ会話などの様々なオーディオ処理タスクを処理することを目的とした、高度なオープンソースのオーディオ基礎モデルです。1300万時間以上の多様なオーディオデータとテキストデータで大規模に事前学習されており、強力なオーディオ推論と言語理解能力を備えています。主な利点として、優れた性能と柔軟性があり、研究者や開発者がオーディオ関連の研究開発を行うのに適しています。

ファッションポーチ

Amazon Nova Sonic

Amazon Nova Sonic

Amazon Nova Sonicは、音声の理解と生成を統合し、人と機械の会話の自然でスムーズな流れを向上させる最先端の基盤モデルです。このモデルは従来の音声アプリケーションの複雑さを克服し、統一されたアーキテクチャを通じてより深いレベルのコミュニケーションの理解を実現し、複数の業界のAIアプリケーションに適用でき、重要な商業的価値を有しています。人工知能技術の継続的な発展に伴い、Nova Sonicは顧客により良い音声インタラクション体験を提供し、サービス効率を向上させます。

["家庭料理],["パーティー料理レシピ]

中国語精選

音刻書き起こしは、音声?ビデオ書き起こしに特化したオンラインツールです。高度な音声認識技術により、オーディオまたはビデオファイルを迅速にテキストに変換できます。主な利点には、書き起こし速度が速い、精度が高い、複数の言語とファイル形式に対応していることが挙げられます。高効率なオフィスワークと学習補助ツールとして位置付けられており、ユーザーの時間の節約と労力の軽減、作業効率の向上を目指しています。音刻書き起こしは無料トライアル版を提供しており、ユーザーはコア機能を体験できます。有料版では、より高度な機能と大規模ファイルのサポートが提供され、様々なユーザーのニーズに対応します。

言語翻訳テキスト

DuRT

DuRTはmacOSシステムに特化した音声認識と翻訳ツールです。ローカルAIモデルとシステムサービスを使用して音声のリアルタイム認識と翻訳を実現し、複数の音声認識方法をサポートすることで、認識精度と対応言語の範囲を向上させています。この製品は、結果をフローティングウィンドウ形式で表示するため、ユーザーは使用中に迅速に情報を入手できます。主な利点としては、高い精度、プライバシー保護（ユーザー情報の収集なし）、そして便利な操作性などが挙げられます。DuRTは、高効率な生産性ツールとして位置付けられており、多言語環境下でのコミュニケーションと作業をより効率的に行うことを目的としています。現在、Mac App Storeからダウンロードできますが、具体的な価格はページには明記されていません。

ElevenLabs Scribe

Elevenlabs Scribe

Scribeは、ElevenLabsが開発した高精度な音声テキスト変換モデルであり、現実世界のオーディオの予測不可能性に対処することを目的としています。99言語に対応し、単語レベルのタイムスタンプ、話者分離、オーディオイベントのマーキングなどの機能を提供します。Scribeは、FLEURSとCommon Voiceのベンチマークテストで卓越したパフォーマンスを示し、Gemini 2.0 Flash、Whisper Large V3、Deepgram Nova-3などのトップモデルを上回っています。従来のサービスが不十分な言語（セルビア語、広東語、マラヤーラム語など）におけるエラー率を大幅に削減しており、これらの言語は競合モデルではエラー率が40％を超えることが一般的です。Scribeは開発者向けにAPIインターフェースを提供しており、リアルタイムアプリケーションに対応する低遅延バージョンも近日中にリリース予定です。

高品質新製品

Phi-4-multimodal-instruct

Phi 4 Multimodal Instruct

Phi-4-multimodal-instructは、Microsoftが開発したマルチモーダル基礎モデルで、テキスト、画像、音声入力をサポートし、テキスト出力を生成します。本モデルは、Phi-3.5とPhi-4.0の研究とデータセットに基づいて構築され、教師あり微調整、直接選好最適化、人間のフィードバックによる強化学習などのプロセスを経て、指示遵守能力と安全性向上を図っています。多言語のテキスト、画像、音声入力をサポートし、128Kのコンテキスト長を備えています。音声認識、音声翻訳、ビジュアル質問応答など、様々なマルチモーダルタスクに適用可能です。マルチモーダル能力において顕著な向上を見せており、特に音声と視覚タスクにおいて優れた性能を発揮します。開発者に対して強力なマルチモーダル処理能力を提供し、様々なマルチモーダルアプリケーションの構築に使用できます。

FireRedASR-AED-L

Fireredasr AED L

FireRedASR-AED-Lは、高効率と高性能な音声認識ニーズに応えるために設計された、オープンソースの産業レベル自動音声認識モデルです。本モデルは、アテンション機構に基づくエンコーダ?デコーダアーキテクチャを採用し、標準中国語、中国語の方言、英語など複数の言語に対応しています。公開されている標準中国語音声認識ベンチマークテストにおいて最高レベルの精度を達成し、歌の歌詞認識においても優れた性能を発揮します。主な利点として、高性能、低遅延、幅広い適用性があり、様々な音声対話シーンに適しています。オープンソースであるため、開発者は自由にコードを使用?変更でき、音声認識技術の発展を促進します。

FireRedASR

FireRedASRは、Encoder-DecoderとLLMを統合したアーキテクチャを採用した、オープンソースの工業レベル標準中国語自動音声認識モデルです。高性能と高効率のニーズに対応するため、FireRedASR-LLMとFireRedASR-AEDの2つのバリアントが含まれています。このモデルは標準中国語ベンチマークテストで優れた性能を示し、方言や英語の音声認識にも良好な結果を示します。スマートアシスタント、動画字幕生成など、効率的な音声テキスト変換を必要とする工業レベルのアプリケーションに適しています。モデルはオープンソースであるため、開発者は容易に統合および最適化できます。

Orate

Orateは強力なAI音声ツールキットであり、テキストをリアルな音声に変換したり、音声テキストに変換したりできます。複数の主要なAIサービスプロバイダーに対応しています。主な利点は、統一されたAPIインターフェースを提供し、開発者が迅速に統合および使用できることです。このツールキットは、スマート音声アシスタントや音声放送システムなど、音声インタラクション機能を必要とするアプリケーション開発に適しています。価格と具体的な位置付けはまだ明らかではありませんが、その機能とコミュニティからのフィードバックから、高い実用性と開発価値を持つことが伺えます。

APIサービス

Bulletpen

Bulletpenは、ユーザーが口頭表現を質の高い書面テキストに変換する革新的なAIライティングアプリです。音声認識と自然言語処理技術により、ユーザーの音声内容を最適化?潤色し、構造が明確で、表現が流暢な書面テキストを生成します。主な利点は、著述効率を大幅に向上できることであり、特に執筆に苦労したり、インスピレーションが湧かないユーザーに最適です。Bulletpenは17歳高校生Rexan Wong氏によって開発され、学生、作家、コンテンツ制作者にシンプルで使いやすいライティング支援ツールを提供することを目指しています。無料プランと有料プランを提供し、さまざまなユーザーのニーズに対応しています。

ライティングアシスタント

Whisper Turbo.online

Whisper Turbo.online

Whisper Turboは、Whisper Large-v3モデルをベースに最適化された音声認識ツールで、高速な音声書き起こしに特化して設計されています。最先端のAI技術を活用することで、様々な音声源からの音声を効率的にテキストに変換し、複数の言語とアクセントに対応しています。このツールは無料で提供され、ユーザーの時間と労力の節約、生産性向上を支援することを目的としています。特に、ブログ主、コンテンツクリエイター、企業など、音声内容の迅速かつ正確な書き起こしが必要なユーザーを対象としており、音声からテキストへの変換ソリューションを簡単に提供します。

RealtimeSTT

RealtimeSTTは、音声をリアルタイムでテキストに変換できるオープンソースの音声認識モデルです。高度な音声活動検出技術により、音声の開始と終了を自動的に検出し、手動操作は不要です。さらに、ウェイクワードアクティベーション機能もサポートしており、特定のウェイクワードを発話することで音声認識を開始できます。このモデルは低遅延で高効率であり、音声アシスタントや会議記録など、リアルタイムの音声転写が必要なアプリケーションシナリオに適しています。Pythonベースで開発されており、統合と使用が容易で、GitHubでオープンソースとして公開されており、活発なコミュニティがあり、継続的に更新と改善が行われています。

xiaozhi-esp32

xiaozhi-esp32は、Espressif SystemsのESP-IDFを基盤としたオープンソースのAIチャットボットプロジェクトです。大規模言語モデルとハードウェアを組み合わせることで、ユーザーは個性的なAIアシスタントを作成できます。本プロジェクトは、複数の言語の音声認識と会話に対応し、声紋認証機能により異なるユーザーの音声特徴を識別します。オープンソースであるため、AIハードウェア開発のハードルを下げ、学生や開発者にとって貴重な学習リソースを提供し、ハードウェア分野におけるAI技術の応用とイノベーションを促進します。現在無料でオープンソースとして公開されており、様々なレベルの開発者が学習や二次開発に利用できます。

チャットボット

中国語精選

通義ブラウザープラグイン

通義ブラウザープラグイン

通義は、音声認識、リアルタイム字幕翻訳、スマートサマリーなどの機能を統合したブラウザープラグインです。オンライン授業、動画視聴、オンライン会議などのシーンにおけるユーザーの効率性を向上させることを目的としています。AI技術により、ユーザーはウェブコンテンツの迅速な記録、書き起こし、翻訳、要約を支援し、大量の情報を処理する必要があるユーザーに最適です。情報爆発の現代において、ユーザーは情報を管理、理解、消化するためのより効率的なツールを必要としています。現在、無料トライアルを提供しており、具体的な価格と位置付けはユーザーのニーズに応じて決定します。

効率化ツール

Robo Blogger

Robo Bloggerは、音声からブログ記事を作成することに特化したAIアシスタントです。自然言語のアイデアを捉え、整理されたブログコンテンツへと構造化し、必要に応じて参考資料を組み込んで正確性と深みのある記事を作成します。このツールは、以前のReport mAIstroプロジェクトの概念を基に、ブログ記事の作成に最適化されています。アイデアの捕捉とコンテンツの構造化を分離することで、元のアイデアの真摯さを保ちながら、プロフェッショナルなプレゼンテーションを実現します。

ライティングアシスタント

Moonshine Web

Moonshine Webは、ReactとViteを用いて構築されたシンプルなアプリケーションです。高速かつ正確な自動音声認識（ASR）向けに最適化された強力な音声認識モデルであるMoonshine Baseを搭載しています。リソースに制限のあるデバイスにも対応可能です。このアプリケーションはブラウザ上でローカルに動作し、Transformers.jsとWebGPUによる高速化（またはWASMを代替として）を採用しています。サーバー不要でローカル音声認識を実現できる点が重要であり、音声データの迅速な処理が必要なアプリケーションに最適です。

高品質新製品

OmniAudio-2.6B

OmniAudio-2.6Bは、26億パラメーターのマルチモーダルモデルであり、テキストと音声の入力をシームレスに処理できます。Gemma-2B、Whisper turbo、およびカスタム投影モジュールを組み合わせることで、従来のASRとLLMモデルを直列に接続する方法とは異なり、これらの機能を効率的なアーキテクチャに統合し、最小限の遅延とリソース消費を実現しています。これにより、スマートフォン、ノートパソコン、ロボットなどのエッジデバイスで安全かつ迅速に音声テキストを直接処理できます。

Megrez-3B-Omni

Megrez-3B-Omniは、無問芯穹によって開発された端側全モダリティ理解モデルです。大規模言語モデルMegrez-3B-Instructを拡張したもので、画像、テキスト、音声の3種類のモダリティデータの理解と分析能力を備えています。このモデルは、画像理解、言語理解、音声理解のすべてにおいて最高の精度を達成し、中国語と英語の音声入力と複数回の対話をサポートしています。音声指示に従ってテキストで直接応答し、画像への音声での質問にも対応可能です。複数のベンチマークタスクで最先端の結果を達成しています。

Shortcut by Poised

Shortcut By Poised

Shortcut by Poisedは、自然な会話を通してユーザーの作業効率を向上させることを目的とした、音声ベースのAIアシスタントです。音声入力で迅速に回答を得たり、考えを整理したり、メッセージ、メール、ドキュメントの下書きを作成したりすることができ、ワークフローの一貫性を維持できます。AI技術を用いて自然言語を洗練されたテキストに変換し、様々な言語スタイルのオプションを提供することで、あらゆる状況に対応します。Product Huntで公開されており、Windowsおよびモバイルアプリ版のリリースも間近です。現在、Mac版をダウンロードできます。

Coval

Covalは、AIエージェントの信頼性と効率性を向上させることを目的とした、AIエージェントのテストと評価に特化したプラットフォームです。自律テスト分野の専門家によって構築され、音声およびチャットエージェントのテストをサポートし、包括的な評価レポートを提供することで、ユーザーはAIエージェントのパフォーマンスを最適化できます。Covalの主な利点には、テストプロセスの簡素化、AI駆動シミュレーションの提供、音声AIとの互換性、詳細なパフォーマンス分析の提供が含まれます。製品の背景情報によると、Covalは企業がAIエージェントを迅速かつ確実に展開し、顧客サービスの品質と効率性を向上させることを支援することを目指しています。Covalは、さまざまな規模の企業のニーズを満たす3つの価格プランを提供しています。

開発とツール

Whisper-NER-v1

Whisper-NERは、音声転写とエンティティ認識を同時に行う革新的なモデルです。このモデルはオープンタイプの固有表現認識（NER）をサポートしており、多様で進化を続けるエンティティを認識できます。Whisper-NERは、自動音声認識（ASR）とNERの下流タスクのための強力な基盤モデルとして設計されており、特定のデータセットで微調整することで性能を向上させることができます。

エンティティ認識

ultravox-v0_4_1-mistral-nemo

Ultravox V0 4 1 Mistral Nemo

ultravox-v0_4_1-mistral-nemoは、事前学習済みのMistral-Nemo-Instruct-2407とwhisper-large-v3-turboを基盤としたマルチモーダル音声大規模言語モデル（LLM）です。このモデルは、テキストシステムプロンプトと音声ユーザーメッセージなど、音声とテキストの両方の入力を同時に処理できます。Ultravoxは、特別な<|audio|>擬似トークンを使用して入力オーディオを埋め込みに変換し、テキスト出力を生成します。今後のバージョンでは、意味的および音響的なオーディオトークンの生成をサポートするトークン語彙の拡張を計画しており、これにより、ボイスコーダーに入力して音声出力を生成できるようになります。このモデルはFixie.aiによって開発され、MITライセンスで提供されています。

ultravox-v0_4_1-llama-3_1-70b

Ultravox V0 4 1 Llama 3 1 70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70bは、事前学習済みのLlama 3.1-70B-Instructとwhisper-large-v3-turboを基盤とした大規模言語モデルで、音声とテキストの入力を処理し、テキスト出力を生成します。特殊な擬似トークン＜|audio|＞を使用して、入力音声を埋め込みに変換し、テキストプロンプトと結合することで、テキスト出力が生成されます。Ultravoxは、音声エージェント、音声翻訳、音声分析など、音声認識とテキスト生成のアプリケーションシナリオを拡大することを目指して開発されました。このモデルはMITライセンスに従い、Fixie.aiによって開発されています。

テキスト生成

ultravox-v0_4_1-llama-3_1-8b

Ultravox V0 4 1 Llama 3 1 8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8bは、事前学習済みLlama3.1-8B-Instructとwhisper-large-v3-turboを基盤とした大型言語モデルであり、音声とテキストの入力を処理してテキスト出力を生成できます。このモデルは、特別な<|audio|>擬似トークンを使用して、入力音声の埋め込みを生成し、テキスト出力を生成します。将来のバージョンでは、意味的および音響的なオーディオトークン生成をサポートするためにトークンボキャブラリを拡張する予定であり、それによりボコーダーを用いた音声出力も可能になります。このモデルは翻訳評価において優れた性能を示し、バイアス調整は行われていません。音声エージェント、音声翻訳、音声分析などのシナリオに適しています。

Ultravox.ai

Ultravox.aiは、テキストへの変換を必要とせず、音声データを直接処理する高度な音声言語モデル（SLM）です。これにより、より自然でスムーズな会話を実現します。多言語に対応し、新しい言語やアクセントにも容易に適応できるため、様々なユーザーとの円滑なコミュニケーションを確保します。製品の背景情報として、Ultravox.aiはオープンソースモデルであり、ユーザーは自身のニーズに合わせてカスタマイズおよびデプロイできます。価格は1分あたり5セントです。

自然言語処理

カカ字幕助手

カカ字幕助手

カカ字幕助手（VideoCaptioner）は、強力な動画字幕作成ソフトウェアです。大規模言語モデルを活用し、字幕の自動分割、校正、最適化、翻訳を行い、動画字幕作成の全工程をワンクリックで処理します。高性能なPCは不要で、操作も簡単です。基本的なLLMモデルを内蔵しており、すぐに使用でき、モデルトークンの消費量も少ないため、動画制作者やコンテンツクリエイターに最適です。

Najva

NajvaはMac向けに設計されたAI駆動型音声アシスタントです。高度なローカル音声認識技術と強力なAIモデルを組み合わせることで、音声からスマートテキストへの変換を実現します。思考速度がタイピング速度を上回る、作家、開発者、医療従事者などにとって最適なアプリケーションです。軽量、ネイティブSwiftアプリ、ゼロトラッキング、完全無料といった特徴を持つNajvaは、プライバシーと効率性を重視したワークフロースリューションを提供します。

hertz-dev

hertz-devは、Standard Intelligenceがオープンソースで提供する全二重、音声のみのトランスフォーマーベースモデルで、85億パラメーターを備えています。このモデルは拡張可能なクロスモーダル学習技術を表しており、モノラル16kHzの音声を8Hzの潜在表現に変換でき、ビットレートは1kbpsです。他のオーディオコーデックよりも優れた性能を発揮します。hertz-devの主な利点には、低遅延、高効率、研究者による微調整と構築の容易さなどがあります。製品の背景情報として、Standard Intelligenceは全人類に利益をもたらす汎用人工知能の構築を目指しており、hertz-devはその取り組みの第一歩です。

モデルトレーニングとデプロイメント

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase