製品特徴
多言語音声認識
音声翻訳
言語識別
トラフィックソース
直接訪問 | 51.61% | 外部リンク | 33.46% | メール | 0.04% |
オーガニック検索 | 12.58% | ソーシャルメディア | 2.19% | ディスプレイ広告 | 0.11% |
最新のトラフィック状況
月間訪問数 | 4.92m |
平均訪問時間 | 393.01 |
訪問あたりのページ数 | 6.11 |
直帰率 | 36.20% |
総トラフィック傾向チャート
地理的トラフィック分布
月間訪問数 | 4.92m |
United States | 19.34% |
China | 13.25% |
India | 9.32% |
Russia | 4.28% |
Germany | 3.63% |
グローバル地理的トラフィック分布マップ
類似のオープンソース製品

Reverb
Reverbは、音声認識(ASR)にWeNetフレームワーク、話者分離にPyannoteフレームワークを用いた、オープンソースの音声認識と話者分離モデル推論コードです。詳細なモデルの説明を提供しており、Hugging Faceからモデルをダウンロードできます。Reverbは、開発者や研究者が様々な音声処理タスクを支援するための、高品質の音声認識と話者分離ツールを提供することを目的としています。
AI音声認識
高品質新製品

Whisper Large V3 Turbo
Whisper large-v3-turboは、OpenAIが開発した高度な自動音声認識(ASR)および音声翻訳モデルです。500万時間以上のラベル付け済みデータでトレーニングされており、ゼロショット設定で多くのデータセットやドメインに汎化できます。このモデルはWhisper large-v3を微調整したバージョンで、速度向上のためデコード層が32から4に削減されていますが、わずかに品質が低下する可能性があります。
AI音声認識

Omnisensevoice
OmniSenseVoiceは、SenseVoiceを最適化した音声認識モデルです。高速推論と高精度なタイムスタンプに特化し、よりスマートで高速な音声文字起こしを提供します。
AI音声認識

Crisperwhisper
CrisperWhisperは、OpenAIのWhisperモデルを高度に改良したモデルで、高速かつ正確な単語単位の音声認識を目的として設計されています。正確な単語レベルのタイムスタンプを提供します。元のWhisperモデルと比較して、CrisperWhisperは、つなぎ言葉、間、吃音、誤った開始など、発話されたすべての単語を単語単位で転写することに重点を置いています。TED、AMIなどの単語単位データセットで最高ランクを獲得しており、INTERSPEECH 2024で発表されました。
AI音声認識
高品質新製品

Seed ASR
Seed-ASRは、バイトダンス社が開発した大規模言語モデル(Large Language Model, LLM)に基づく音声認識モデルです。連続音声表現とコンテキスト情報をLLMに入力することで、LLMの能力を活用し、大規模な訓練とコンテキスト認識能力によって、複数領域、アクセント/方言、言語を含む包括的な評価セットでのパフォーマンスを大幅に向上させました。最近発表された大規模ASRモデルと比較して、Seed-ASRは中国語と英語の共通テストセットで10~40%の単語誤り率の低減を実現し、その強力な性能をさらに証明しています。
AI音声認識

Whisper Diarization
whisper-diarizationは、Whisperによる自動音声認識(ASR)、音声活動検出(VAD)、話者埋め込み技術を統合したオープンソースプロジェクトです。音声部分のみを抽出して話者埋め込みの精度を向上させ、Whisperで転写テキストを生成し、WhisperXでタイムスタンプの補正とアライメントを行い、時間ずれによる分離エラーを削減します。その後、MarbleNetを用いてVADと分離を行い無音部分を排除し、TitaNetを用いて話者埋め込みを抽出し各セグメントの話者を識別し、最後にWhisperXで生成されたタイムスタンプと結果を関連付けて、タイムスタンプに基づいて単語ごとの話者を検出し、句読点モデルを用いて微小な時間ずれを補正するために再アライメントを行います。
AI音声認識

Sensevoicesmall
SenseVoiceSmallは、自動音声認識(ASR)、言語識別(LID)、音声感情認識(SER)、および音声イベント検出(AED)を含む、複数の音声理解機能を備えた音声基礎モデルです。40万時間以上のデータで学習されており、50以上の言語に対応し、Whisperモデルを上回る認識性能を実現しています。小型モデルであるSenseVoice-Smallは非自己回帰型エンドツーエンドフレームワークを採用しており、推論遅延が極めて低く、10秒の音声処理にわずか70ミリ秒しかかかりません。これはWhisper-Largeと比べて15倍高速です。さらに、SenseVoiceは便利な微調整スクリプトと戦略、多重同時処理要求に対応するサービス展開パイプラインを提供しており、クライアント言語にはPython、C++、HTML、Java、C#などがあります。
AI音声認識

Emilia
Emiliaは、大規模音声生成研究向けに設計された、オープンソースの多言語野外音声データセットです。10万1千時間以上の高品質音声データ(6言語)と対応するテキスト転写を含み、脱線トーク、インタビュー、討論、スポーツ実況、オーディオブックなど、様々な話し方やコンテンツタイプを網羅しています。
AI音声認識

Sensevoice
SenseVoiceは、自動音声認識(ASR)、言語識別(LID)、音声感情認識(SER)、音声イベント検出(AED)など、複数の音声理解機能を備えた音声基礎モデルです。50種類以上の言語に対応し、高精度な多言語音声認識、音声感情認識、音声イベント検出に特化しており、Whisperモデルを凌駕する認識性能を実現しています。非自己回帰型エンドツーエンドフレームワークを採用することで、推論遅延が極めて低く、リアルタイム音声処理に最適です。
AI音声認識
代替品

Reverb
Reverbは、音声認識(ASR)にWeNetフレームワーク、話者分離にPyannoteフレームワークを用いた、オープンソースの音声認識と話者分離モデル推論コードです。詳細なモデルの説明を提供しており、Hugging Faceからモデルをダウンロードできます。Reverbは、開発者や研究者が様々な音声処理タスクを支援するための、高品質の音声認識と話者分離ツールを提供することを目的としています。
AI音声認識
高品質新製品

Whisper Large V3 Turbo
Whisper large-v3-turboは、OpenAIが開発した高度な自動音声認識(ASR)および音声翻訳モデルです。500万時間以上のラベル付け済みデータでトレーニングされており、ゼロショット設定で多くのデータセットやドメインに汎化できます。このモデルはWhisper large-v3を微調整したバージョンで、速度向上のためデコード層が32から4に削減されていますが、わずかに品質が低下する可能性があります。
AI音声認識
海外精選

リアルタイムAPI
リアルタイムAPIは、OpenAIが提供する低遅延の音声インタラクションAPIです。開発者はこのAPIを使用して、アプリケーションに高速な音声対音声エクスペリエンスを構築できます。このAPIは自然言語の音声対音声対話をサポートし、ChatGPTの高機能音声モードと同様に、会話の中断を処理できます。WebSocket接続を介して機能呼び出しをサポートしており、音声アシスタントがユーザーのリクエストに応答し、アクションをトリガーしたり、新しいコンテキストを導入したりできます。このAPIの提供により、開発者は音声エクスペリエンスを構築するために複数のモデルを組み合わせる必要がなくなり、単一のAPI呼び出しで自然な対話エクスペリエンスを実現できます。
AI音声認識

Omnisensevoice
OmniSenseVoiceは、SenseVoiceを最適化した音声認識モデルです。高速推論と高精度なタイムスタンプに特化し、よりスマートで高速な音声文字起こしを提供します。
AI音声認識
高品質新製品

Deepgram音声エージェントapi
Deepgram音声エージェントAPIは、人間と機械間の自然でリアルな会話を実現する統合型音声対音声APIです。業界最先端の音声認識と音声合成モデルによって支えられており、自然でリアルタイムに音声の聞き取り、思考、発話を可能にします。Deepgramは、高度な生成AI技術を統合することで、スムーズで人間らしい音声エージェントを実現するビジネス環境を構築し、音声優先AIの未来を切り開くことを目指しています。
AI音声認識

Crisperwhisper
CrisperWhisperは、OpenAIのWhisperモデルを高度に改良したモデルで、高速かつ正確な単語単位の音声認識を目的として設計されています。正確な単語レベルのタイムスタンプを提供します。元のWhisperモデルと比較して、CrisperWhisperは、つなぎ言葉、間、吃音、誤った開始など、発話されたすべての単語を単語単位で転写することに重点を置いています。TED、AMIなどの単語単位データセットで最高ランクを獲得しており、INTERSPEECH 2024で発表されました。
AI音声認識
中国語精選

心辰lingo音声大規模言語モデル
心辰Lingo音声大規模言語モデルは、高度な人工知能音声モデルであり、効率的で正確な音声認識と処理サービスを提供することに特化しています。自然言語を理解し処理することで、人間と機械のインタラクションをよりスムーズで自然なものにします。西湖心辰の強力なAI技術を基盤としており、様々な場面で高品質の音声インタラクション体験を提供することに尽力しています。
AI音声認識
高品質新製品

Seed ASR
Seed-ASRは、バイトダンス社が開発した大規模言語モデル(Large Language Model, LLM)に基づく音声認識モデルです。連続音声表現とコンテキスト情報をLLMに入力することで、LLMの能力を活用し、大規模な訓練とコンテキスト認識能力によって、複数領域、アクセント/方言、言語を含む包括的な評価セットでのパフォーマンスを大幅に向上させました。最近発表された大規模ASRモデルと比較して、Seed-ASRは中国語と英語の共通テストセットで10~40%の単語誤り率の低減を実現し、その強力な性能をさらに証明しています。
AI音声認識

Whisper Diarization
whisper-diarizationは、Whisperによる自動音声認識(ASR)、音声活動検出(VAD)、話者埋め込み技術を統合したオープンソースプロジェクトです。音声部分のみを抽出して話者埋め込みの精度を向上させ、Whisperで転写テキストを生成し、WhisperXでタイムスタンプの補正とアライメントを行い、時間ずれによる分離エラーを削減します。その後、MarbleNetを用いてVADと分離を行い無音部分を排除し、TitaNetを用いて話者埋め込みを抽出し各セグメントの話者を識別し、最後にWhisperXで生成されたタイムスタンプと結果を関連付けて、タイムスタンプに基づいて単語ごとの話者を検出し、句読点モデルを用いて微小な時間ずれを補正するために再アライメントを行います。
AI音声認識