すべてのカテゴリ

AI音声認識

2025年最高の 25 個のAI音声認識ツール

Reverb

Reverbは、音声認識（ASR）にWeNetフレームワーク、話者分離にPyannoteフレームワークを用いた、オープンソースの音声認識と話者分離モデル推論コードです。詳細なモデルの説明を提供しており、Hugging Faceからモデルをダウンロードできます。Reverbは、開発者や研究者が様々な音声処理タスクを支援するための、高品質の音声認識と話者分離ツールを提供することを目的としています。

高品質新製品

Whisper large-v3-turbo

Whisper Large V3 Turbo

Whisper large-v3-turboは、OpenAIが開発した高度な自動音声認識（ASR）および音声翻訳モデルです。500万時間以上のラベル付け済みデータでトレーニングされており、ゼロショット設定で多くのデータセットやドメインに汎化できます。このモデルはWhisper large-v3を微調整したバージョンで、速度向上のためデコード層が32から4に削減されていますが、わずかに品質が低下する可能性があります。

リアルタイムAPI

リアルタイムAPI

リアルタイムAPIは、OpenAIが提供する低遅延の音声インタラクションAPIです。開発者はこのAPIを使用して、アプリケーションに高速な音声対音声エクスペリエンスを構築できます。このAPIは自然言語の音声対音声対話をサポートし、ChatGPTの高機能音声モードと同様に、会話の中断を処理できます。WebSocket接続を介して機能呼び出しをサポートしており、音声アシスタントがユーザーのリクエストに応答し、アクションをトリガーしたり、新しいコンテキストを導入したりできます。このAPIの提供により、開発者は音声エクスペリエンスを構築するために複数のモデルを組み合わせる必要がなくなり、単一のAPI呼び出しで自然な対話エクスペリエンスを実現できます。

OmniSenseVoice

OmniSenseVoiceは、SenseVoiceを最適化した音声認識モデルです。高速推論と高精度なタイムスタンプに特化し、よりスマートで高速な音声文字起こしを提供します。

高品質新製品

Deepgram音声エージェントAPI

Deepgram音声エージェントapi

Deepgram音声エージェントAPIは、人間と機械間の自然でリアルな会話を実現する統合型音声対音声APIです。業界最先端の音声認識と音声合成モデルによって支えられており、自然でリアルタイムに音声の聞き取り、思考、発話を可能にします。Deepgramは、高度な生成AI技術を統合することで、スムーズで人間らしい音声エージェントを実現するビジネス環境を構築し、音声優先AIの未来を切り開くことを目指しています。

CrisperWhisper

CrisperWhisperは、OpenAIのWhisperモデルを高度に改良したモデルで、高速かつ正確な単語単位の音声認識を目的として設計されています。正確な単語レベルのタイムスタンプを提供します。元のWhisperモデルと比較して、CrisperWhisperは、つなぎ言葉、間、吃音、誤った開始など、発話されたすべての単語を単語単位で転写することに重点を置いています。TED、AMIなどの単語単位データセットで最高ランクを獲得しており、INTERSPEECH 2024で発表されました。

中国語精選

心辰Lingo音声大規模言語モデル

心辰lingo音声大規模言語モデル

心辰Lingo音声大規模言語モデルは、高度な人工知能音声モデルであり、効率的で正確な音声認識と処理サービスを提供することに特化しています。自然言語を理解し処理することで、人間と機械のインタラクションをよりスムーズで自然なものにします。西湖心辰の強力なAI技術を基盤としており、様々な場面で高品質の音声インタラクション体験を提供することに尽力しています。

高品質新製品

Seed-ASR

Seed-ASRは、バイトダンス社が開発した大規模言語モデル（Large Language Model, LLM）に基づく音声認識モデルです。連続音声表現とコンテキスト情報をLLMに入力することで、LLMの能力を活用し、大規模な訓練とコンテキスト認識能力によって、複数領域、アクセント/方言、言語を含む包括的な評価セットでのパフォーマンスを大幅に向上させました。最近発表された大規模ASRモデルと比較して、Seed-ASRは中国語と英語の共通テストセットで10～40％の単語誤り率の低減を実現し、その強力な性能をさらに証明しています。

whisper-diarization

Whisper Diarization

whisper-diarizationは、Whisperによる自動音声認識（ASR）、音声活動検出（VAD）、話者埋め込み技術を統合したオープンソースプロジェクトです。音声部分のみを抽出して話者埋め込みの精度を向上させ、Whisperで転写テキストを生成し、WhisperXでタイムスタンプの補正とアライメントを行い、時間ずれによる分離エラーを削減します。その後、MarbleNetを用いてVADと分離を行い無音部分を排除し、TitaNetを用いて話者埋め込みを抽出し各セグメントの話者を識別し、最後にWhisperXで生成されたタイムスタンプと結果を関連付けて、タイムスタンプに基づいて単語ごとの話者を検出し、句読点モデルを用いて微小な時間ずれを補正するために再アライメントを行います。

SenseVoiceSmall

Sensevoicesmall

SenseVoiceSmallは、自動音声認識（ASR）、言語識別（LID）、音声感情認識（SER）、および音声イベント検出（AED）を含む、複数の音声理解機能を備えた音声基礎モデルです。40万時間以上のデータで学習されており、50以上の言語に対応し、Whisperモデルを上回る認識性能を実現しています。小型モデルであるSenseVoice-Smallは非自己回帰型エンドツーエンドフレームワークを採用しており、推論遅延が極めて低く、10秒の音声処理にわずか70ミリ秒しかかかりません。これはWhisper-Largeと比べて15倍高速です。さらに、SenseVoiceは便利な微調整スクリプトと戦略、多重同時処理要求に対応するサービス展開パイプラインを提供しており、クライアント言語にはPython、C++、HTML、Java、C#などがあります。

Emilia

Emiliaは、大規模音声生成研究向けに設計された、オープンソースの多言語野外音声データセットです。10万1千時間以上の高品質音声データ（6言語）と対応するテキスト転写を含み、脱線トーク、インタビュー、討論、スポーツ実況、オーディオブックなど、様々な話し方やコンテンツタイプを網羅しています。

SenseVoice

SenseVoiceは、自動音声認識（ASR）、言語識別（LID）、音声感情認識（SER）、音声イベント検出（AED）など、複数の音声理解機能を備えた音声基礎モデルです。50種類以上の言語に対応し、高精度な多言語音声認識、音声感情認識、音声イベント検出に特化しており、Whisperモデルを凌駕する認識性能を実現しています。非自己回帰型エンドツーエンドフレームワークを採用することで、推論遅延が極めて低く、リアルタイム音声処理に最適です。

Azure 認知サービススピーチ

Azure 認知サービススピーチ

Azure 認知サービススピーチは、Microsoftが提供する音声認識と音声合成サービスです。100以上の言語と方言に対応し、音声からテキストへの変換、テキストから音声への変換機能を提供します。特定の専門用語、背景ノイズ、アクセントに対応できるカスタム音声モデルを作成することで、聞き取りの精度を向上させます。さらに、リアルタイム音声テキスト変換、音声翻訳、テキスト音声変換などの機能をサポートしており、字幕生成、通話後聞き取り分析、動画翻訳など、さまざまなビジネスシナリオに適しています。

ChatTTS_Speaker

Chattts Speaker

ChatTTS_Speakerは、ERes2NetV2話者認識モデルに基づいた実験的なプロジェクトであり、音質の安定性評価と音質タグ付けを行い、ユーザーが安定していてニーズに合った音質を選択する支援を目的としています。このプロジェクトはオープンソースであり、オンライン試聴と音質サンプルのダウンロードに対応しています。

sherpa-onnx

sherpa-onnxは、次世代Kaldiに基づいた音声認識と音声合成プロジェクトです。ONNX Runtimeを用いて推論を行い、音声テキスト変換（ASR）、テキスト音声変換（TTS）、話者認識、話者照合、言語認識、キーワード検出など、様々な音声関連機能をサポートしています。組み込みシステム、Android、iOS、Raspberry Pi、RISC-V、サーバーなど、幅広いプラットフォームとOSに対応しています。

LookOnceToHear

LookOnceToHearは、ユーザーが視覚的な認識だけで聞きたいターゲットスピーカーを選択できる革新的なスマートイヤホンインタラクションシステムです。この技術はCHI 2024でベストペーパーノミネーションを受賞しました。合成オーディオミキシング、頭部伝達関数（HRTFs）、およびバイノーラルルームインパルスレスポンス（BRIRs）を用いてリアルタイム音声抽出を実現し、ユーザーに新しいインタラクション方法を提供します。

Universal-1

AssemblyAI の最新の研究、ニュース、音声AI技術に関するアップデートをご覧ください。AssemblyAI の Universal-1 は、多言語環境において業界最高レベルの性能を実現しています。正確で、強力かつ堅牢な Universal-1 は、世界中の顧客や開発者が様々な音声AIアプリケーションを構築する上で役立ちます。Universal-1 は、英語、スペイン語、ドイツ語の音声テキスト変換において、精度を10％以上向上させ、音声データや周囲ノイズに関する幻覚率を低減しました。顧客は Universal-1 の出力をより好んでおり、コード変換機能なども備えています。

Azure AI Studio - 音声サービス

Azure AI Studio 音声サービス

Azure AI Studioは、Microsoft Azureが提供する人工知能サービスのスイートで、音声サービスが含まれています。これらのサービスには、音声認識、音声合成、音声翻訳などの機能が含まれており、開発者がアプリケーションに音声関連のインテリジェント機能を統合するのに役立ちます。

AV-HuBERT

AV-HuBERTは、音声?視覚音声処理に特化した自己教師あり表現学習フレームワークです。LRS3音声?視覚音声ベンチマークテストにおいて、最先端のリップリーディング、自動音声認識（ASR）、および音声?視覚音声認識の結果を実現しています。このフレームワークは、マスキングされたマルチモーダルクラスタリング予測を通じて音声?視覚音声表現を学習し、堅牢な自己教師あり音声?視覚音声認識を提供します。

WhisperKit

WhisperKitは、自動音声認識モデルの圧縮と最適化を行うツールです。モデルの圧縮と最適化に対応し、詳細な性能評価データを提供します。さらに、様々なデータセットとモデルフォーマットに対する品質保証認定を提供し、ローカルでの再現テスト結果にも対応しています。

WhisperFusion

WhisperFusionは、WhisperLiveとWhisperSpeechの機能をベースとした製品です。リアルタイムの音声テキスト化プロセスにMistral大規模言語モデル（LLM）を統合することで、AIとのシームレスな会話を実現します。WhisperとLLMはどちらもTensorRTエンジンで最適化され、パフォーマンスとリアルタイム処理能力を最大限に高めています。WhisperSpeechはtorch.compileを使用して最適化されています。超低遅延のAIリアルタイム会話体験を提供することを目指しています。

テンセントクラウド音声認識ASR

テンセントクラウド音声認識ASR

テンセントクラウド音声認識（ASR）は、開発者に音声テキスト変換サービスの最適な体験を提供します。高い認識精度、容易なアクセス、安定したパフォーマンスを特長としています。テンセントクラウド音声認識サービスは、リアルタイム音声認識、単文認識、録音ファイル認識の3種類のサービス形式を提供し、さまざまなタイプの開発者のニーズを満たします。高度な技術、高いコストパフォーマンス、多言語サポートを備え、カスタマーサービス、会議、法廷など、さまざまなシナリオに適用できます。

Whisper

Whisperは、汎用的な音声認識モデルです。多様な音声データを用いて大規模に訓練されており、多言語音声認識、音声翻訳、言語識別をこなすマルチタスクモデルです。

SALMONN

SALMONNは、清華大学電子工学科とバイトダンス（ByteDance）が共同開発した大規模言語モデル（LLM）であり、音声、音声イベント、音楽入力に対応しています。音声または音声イベント入力のみに対応するモデルとは異なり、SALMONNは様々な音声入力を認識?理解することで、多言語音声認識?翻訳や音声?音声連想推論といった新たな能力を実現しています。これはLLMに「聴覚」と聴覚認知能力を与えることに相当し、SALMONNは聴覚を持つ人工汎用知能への重要な一歩となります。

Whisper Turbo

Whisper Turboは、OpenAI Whisper APIの代替を目指したツールです。3つの主要部分から構成されています。様々なフォーマットのオーディオファイルを入力し、Whisper互換フォーマットに変換する互換性レイヤー、ワンショット推論とストリーミングモードをサポートする開発者フレンドリーなAPI、そしてクロスプラットフォームでの高速推論に特化したRust + WebGPU推論フレームワークRumbleです。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase