

Voicemod
紹介 :
Voicemodは、WindowsとmacOSに対応した無料のリアルタイム音声チェンジャー兼サウンドボードです。ロボット、悪魔、リス、女性、男性、または想像できるあらゆるものとして、あなたの声を変化させることができます。Voicemodは、お気に入りのゲーム全てと互換性があり、Elgato Stream Deck、Streamlabs OBS、Twitch、TikTok Live Studio、Audacity、Gamecaster、Omegleなどともシームレスに統合されます。ライブ配信でリアルタイム音声チェンジャーを使用したり、数秒でMetaverseやMultiverseプラットフォーム向けのVoice SkinsとVoice Avatarsを作成したり、音声チェンジャーを使って動画を録音した後に編集したりできます。今すぐこれらのサウンドを試してみましょう!
ターゲットユーザー :
ゲーム実況、ソーシャルメディア、ボイスチャット、動画制作
製品特徴
リアルタイム音声変更
カスタムサウンドエフェクト
ゲームやライブ配信ソフトウェアとの統合
Voice SkinsとVoice Avatarsの作成
動画の録音と編集
トラフィックソース
直接訪問 | 40.28% | 外部リンク | 56.47% | メール | 0.01% |
オーガニック検索 | 2.15% | ソーシャルメディア | 0.92% | ディスプレイ広告 | 0.18% |
最新のトラフィック状況
月間訪問数 | 4484.49k |
平均訪問時間 | 126.39 |
訪問あたりのページ数 | 3.91 |
直帰率 | 36.75% |
総トラフィック傾向チャート
地理的トラフィック分布
月間訪問数 | 4484.49k |
United States | 25.89% |
Russia | 5.65% |
Philippines | 4.45% |
United Kingdom | 3.93% |
Indonesia | 3.68% |
グローバル地理的トラフィック分布マップ
類似のオープンソース製品

Step Audio
Step-Audioは、業界初のプロダクションレベルのオープンソースインテリジェント音声対話フレームワークであり、音声理解と生成能力を統合し、多言語対応、感情表現、方言、話速、リズムスタイルの制御をサポートしています。そのコアテクノロジーには、130Bパラメータのマルチモーダルモデル、生成データエンジン、精密音声制御、拡張インテリジェンスが含まれます。このフレームワークは、オープンソースモデルとツールを通じて、インテリジェント音声対話技術の発展を促進し、さまざまな音声アプリケーションシナリオに適用できます。
言語識別

Fireredasr AED L
FireRedASR-AED-Lは、高効率と高性能な音声認識ニーズに応えるために設計された、オープンソースの産業レベル自動音声認識モデルです。本モデルは、アテンション機構に基づくエンコーダ?デコーダアーキテクチャを採用し、標準中国語、中国語の方言、英語など複数の言語に対応しています。公開されている標準中国語音声認識ベンチマークテストにおいて最高レベルの精度を達成し、歌の歌詞認識においても優れた性能を発揮します。主な利点として、高性能、低遅延、幅広い適用性があり、様々な音声対話シーンに適しています。オープンソースであるため、開発者は自由にコードを使用?変更でき、音声認識技術の発展を促進します。
言語識別

Fireredasr
FireRedASRは、Encoder-DecoderとLLMを統合したアーキテクチャを採用した、オープンソースの工業レベル標準中国語自動音声認識モデルです。高性能と高効率のニーズに対応するため、FireRedASR-LLMとFireRedASR-AEDの2つのバリアントが含まれています。このモデルは標準中国語ベンチマークテストで優れた性能を示し、方言や英語の音声認識にも良好な結果を示します。スマートアシスタント、動画字幕生成など、効率的な音声テキスト変換を必要とする工業レベルのアプリケーションに適しています。モデルはオープンソースであるため、開発者は容易に統合および最適化できます。
言語識別

Pengchengstarling
PengChengStarlingは、多言語自動音声認識(ASR)に特化したオープンソースツールキットで、icefallプロジェクトをベースに開発されています。データ処理、モデル訓練、推論、微調整、デプロイといったASRの全プロセスをサポートしています。パラメータ設定の最適化とRNN-Transducerアーキテクチャへの言語IDの統合により、多言語ASRシステムのパフォーマンスを大幅に向上させています。主な利点としては、効率的な多言語サポート、柔軟な設定設計、強力な推論性能が挙げられます。PengChengStarlingのモデルは、様々な言語で優れた性能を発揮し、モデルサイズが小さく推論速度が非常に速いため、効率的な音声認識が必要な場面に最適です。
言語識別

Realtimestt
RealtimeSTTは、音声をリアルタイムでテキストに変換できるオープンソースの音声認識モデルです。高度な音声活動検出技術により、音声の開始と終了を自動的に検出し、手動操作は不要です。さらに、ウェイクワードアクティベーション機能もサポートしており、特定のウェイクワードを発話することで音声認識を開始できます。このモデルは低遅延で高効率であり、音声アシスタントや会議記録など、リアルタイムの音声転写が必要なアプリケーションシナリオに適しています。Pythonベースで開発されており、統合と使用が容易で、GitHubでオープンソースとして公開されており、活発なコミュニティがあり、継続的に更新と改善が行われています。
言語識別

Minmo
MinMoは、阿里巴巴グループの通義实验室が開発した、約80億パラメータを持つマルチモーダル大規模言語モデルです。シームレスな音声インタラクションの実現に特化しており、音声テキストアライメント、テキスト音声アライメント、音声音声アライメント、全二重インタラクションアライメントを含む複数段階のトレーニングを経て、140万時間におよぶ多様な音声データと幅広い音声タスクでトレーニングされています。MinMoは音声理解と生成における様々なベンチマークテストで最先端の性能を達成しており、同時にテキストの大規模言語モデルの能力も維持し、全二重対話(ユーザーとシステム間の同時双方向通信)をサポートしています。さらに、MinMoは、音声生成において従来のモデルを凌駕する、新規かつシンプルな音声デコーダを提案しています。MinMoの指示遵守能力は強化されており、ユーザーの指示に従って、感情、方言、話速などの詳細を含む音声生成を制御し、特定の音声を模倣することができます。MinMoの音声テキスト変換の遅延は約100ミリ秒、全二重遅延は理論上約600ミリ秒、実際は約800ミリ秒です。MinMoの開発は、従来のマルチモーダルモデルのアライメントにおける主な制約を克服し、ユーザーにより自然でスムーズ、人間味のある音声インタラクション体験を提供することを目的としています。
言語識別

Betterwhisperx
BetterWhisperXは、WhisperXを改良した自動音声認識モデルです。高速な音声テキスト変換サービスを提供し、単語レベルの時間スタンプと話者識別機能を備えています。大量のオーディオデータ処理を行う研究者や開発者にとって非常に重要であり、音声データ処理の効率と精度を大幅に向上させることができます。OpenAIのWhisperモデルをベースに、更なる最適化と改良が加えられています。現在、このプロジェクトは無料でオープンソースであり、開発者コミュニティにより効率的で正確な音声認識ツールを提供することを目指しています。
言語識別

Livekitプラグインターン検出器
LiveKit Plugins Turn Detectorは、LiveKitエージェント向けのプラグインです。カスタムのオープンウェイトモデルを使用して、ユーザーの発言がいつ終了したかを判断することで、エンドツーエンドの発言終了検出を実現します。従来の音声活動検出(VAD)モデルと比較して、このプラグインは、このタスクのために特別にトレーニングされた言語モデルを利用することで、より正確で堅牢な発言終了検出方法を提供します。現在のバージョンは英語のみをサポートしており、他の言語には使用できません。
言語識別

Moonshine Web
Moonshine Webは、ReactとViteを用いて構築されたシンプルなアプリケーションです。高速かつ正確な自動音声認識(ASR)向けに最適化された強力な音声認識モデルであるMoonshine Baseを搭載しています。リソースに制限のあるデバイスにも対応可能です。このアプリケーションはブラウザ上でローカルに動作し、Transformers.jsとWebGPUによる高速化(またはWASMを代替として)を採用しています。サーバー不要でローカル音声認識を実現できる点が重要であり、音声データの迅速な処理が必要なアプリケーションに最適です。
言語識別
代替品

Durt
DuRTはmacOSシステムに特化した音声認識と翻訳ツールです。ローカルAIモデルとシステムサービスを使用して音声のリアルタイム認識と翻訳を実現し、複数の音声認識方法をサポートすることで、認識精度と対応言語の範囲を向上させています。この製品は、結果をフローティングウィンドウ形式で表示するため、ユーザーは使用中に迅速に情報を入手できます。主な利点としては、高い精度、プライバシー保護(ユーザー情報の収集なし)、そして便利な操作性などが挙げられます。DuRTは、高効率な生産性ツールとして位置付けられており、多言語環境下でのコミュニケーションと作業をより効率的に行うことを目的としています。現在、Mac App Storeからダウンロードできますが、具体的な価格はページには明記されていません。
言語識別

Elevenlabs Scribe
Scribeは、ElevenLabsが開発した高精度な音声テキスト変換モデルであり、現実世界のオーディオの予測不可能性に対処することを目的としています。99言語に対応し、単語レベルのタイムスタンプ、話者分離、オーディオイベントのマーキングなどの機能を提供します。Scribeは、FLEURSとCommon Voiceのベンチマークテストで卓越したパフォーマンスを示し、Gemini 2.0 Flash、Whisper Large V3、Deepgram Nova-3などのトップモデルを上回っています。従来のサービスが不十分な言語(セルビア語、広東語、マラヤーラム語など)におけるエラー率を大幅に削減しており、これらの言語は競合モデルではエラー率が40%を超えることが一般的です。Scribeは開発者向けにAPIインターフェースを提供しており、リアルタイムアプリケーションに対応する低遅延バージョンも近日中にリリース予定です。
言語識別

Step Audio
Step-Audioは、業界初のプロダクションレベルのオープンソースインテリジェント音声対話フレームワークであり、音声理解と生成能力を統合し、多言語対応、感情表現、方言、話速、リズムスタイルの制御をサポートしています。そのコアテクノロジーには、130Bパラメータのマルチモーダルモデル、生成データエンジン、精密音声制御、拡張インテリジェンスが含まれます。このフレームワークは、オープンソースモデルとツールを通じて、インテリジェント音声対話技術の発展を促進し、さまざまな音声アプリケーションシナリオに適用できます。
言語識別

Fireredasr AED L
FireRedASR-AED-Lは、高効率と高性能な音声認識ニーズに応えるために設計された、オープンソースの産業レベル自動音声認識モデルです。本モデルは、アテンション機構に基づくエンコーダ?デコーダアーキテクチャを採用し、標準中国語、中国語の方言、英語など複数の言語に対応しています。公開されている標準中国語音声認識ベンチマークテストにおいて最高レベルの精度を達成し、歌の歌詞認識においても優れた性能を発揮します。主な利点として、高性能、低遅延、幅広い適用性があり、様々な音声対話シーンに適しています。オープンソースであるため、開発者は自由にコードを使用?変更でき、音声認識技術の発展を促進します。
言語識別

Fireredasr
FireRedASRは、Encoder-DecoderとLLMを統合したアーキテクチャを採用した、オープンソースの工業レベル標準中国語自動音声認識モデルです。高性能と高効率のニーズに対応するため、FireRedASR-LLMとFireRedASR-AEDの2つのバリアントが含まれています。このモデルは標準中国語ベンチマークテストで優れた性能を示し、方言や英語の音声認識にも良好な結果を示します。スマートアシスタント、動画字幕生成など、効率的な音声テキスト変換を必要とする工業レベルのアプリケーションに適しています。モデルはオープンソースであるため、開発者は容易に統合および最適化できます。
言語識別

Pengchengstarling
PengChengStarlingは、多言語自動音声認識(ASR)に特化したオープンソースツールキットで、icefallプロジェクトをベースに開発されています。データ処理、モデル訓練、推論、微調整、デプロイといったASRの全プロセスをサポートしています。パラメータ設定の最適化とRNN-Transducerアーキテクチャへの言語IDの統合により、多言語ASRシステムのパフォーマンスを大幅に向上させています。主な利点としては、効率的な多言語サポート、柔軟な設定設計、強力な推論性能が挙げられます。PengChengStarlingのモデルは、様々な言語で優れた性能を発揮し、モデルサイズが小さく推論速度が非常に速いため、効率的な音声認識が必要な場面に最適です。
言語識別

Whisper Turbo.online
Whisper Turboは、Whisper Large-v3モデルをベースに最適化された音声認識ツールで、高速な音声書き起こしに特化して設計されています。最先端のAI技術を活用することで、様々な音声源からの音声を効率的にテキストに変換し、複数の言語とアクセントに対応しています。このツールは無料で提供され、ユーザーの時間と労力の節約、生産性向上を支援することを目的としています。特に、ブログ主、コンテンツクリエイター、企業など、音声内容の迅速かつ正確な書き起こしが必要なユーザーを対象としており、音声からテキストへの変換ソリューションを簡単に提供します。
言語識別

Realtimestt
RealtimeSTTは、音声をリアルタイムでテキストに変換できるオープンソースの音声認識モデルです。高度な音声活動検出技術により、音声の開始と終了を自動的に検出し、手動操作は不要です。さらに、ウェイクワードアクティベーション機能もサポートしており、特定のウェイクワードを発話することで音声認識を開始できます。このモデルは低遅延で高効率であり、音声アシスタントや会議記録など、リアルタイムの音声転写が必要なアプリケーションシナリオに適しています。Pythonベースで開発されており、統合と使用が容易で、GitHubでオープンソースとして公開されており、活発なコミュニティがあり、継続的に更新と改善が行われています。
言語識別

Minmo
MinMoは、阿里巴巴グループの通義实验室が開発した、約80億パラメータを持つマルチモーダル大規模言語モデルです。シームレスな音声インタラクションの実現に特化しており、音声テキストアライメント、テキスト音声アライメント、音声音声アライメント、全二重インタラクションアライメントを含む複数段階のトレーニングを経て、140万時間におよぶ多様な音声データと幅広い音声タスクでトレーニングされています。MinMoは音声理解と生成における様々なベンチマークテストで最先端の性能を達成しており、同時にテキストの大規模言語モデルの能力も維持し、全二重対話(ユーザーとシステム間の同時双方向通信)をサポートしています。さらに、MinMoは、音声生成において従来のモデルを凌駕する、新規かつシンプルな音声デコーダを提案しています。MinMoの指示遵守能力は強化されており、ユーザーの指示に従って、感情、方言、話速などの詳細を含む音声生成を制御し、特定の音声を模倣することができます。MinMoの音声テキスト変換の遅延は約100ミリ秒、全二重遅延は理論上約600ミリ秒、実際は約800ミリ秒です。MinMoの開発は、従来のマルチモーダルモデルのアライメントにおける主な制約を克服し、ユーザーにより自然でスムーズ、人間味のある音声インタラクション体験を提供することを目的としています。
言語識別
おすすめAI製品

Lugs.ai
Lugs.aiは、パソコン上で正確なリアルタイム字幕を生成するプラグインです。インターネット接続不要で、マイク録音やパソコン内のあらゆる音声に対応しています。AI技術を用いて会話を深く理解し、文脈に基づいた正確な書き起こしや字幕生成を行います。聴覚障害者によって開発され、実際の使用体験に基づいて継続的に最適化されています。最高の精度と継続的なアップデートを提供します。
言語識別
597.0K

Dashtoon
Dashtoonは、多様なジャンルの漫画やアニメ作品を提供するプラットフォームです。恋愛、ファンタジー、アクションなど、幅広いテーマの漫画作品をお楽しみいただき、豊かな漫画の世界に浸ることができます。
娯楽
528.5K