すべてのカテゴリ

AI音声アシスタント

2025年最高の 32 個のAI音声アシスタントツール

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）は、エンドツーエンドの音声処理を行いながら、最先端のビジュアル言語性能を維持するマルチモーダル言語モデルです。意味と音響を分離する音声セグメンターにより、感情豊かなマルチモーダルな対話を実現し、ビジュアル言語と音声のベンチマークテストで最先端の性能を達成しています。

AI音声アシスタント

EVI 2

EVI 2は、Hume AIが提供する新型の基本音声対音声モデルです。人間に近い自然さで、ユーザーとスムーズな会話を実現します。迅速な応答、ユーザーの口調の理解、さまざまな口調の生成、特定の要求の実行などが可能です。EVI 2は特別なトレーニングにより感情知能が強化されており、ユーザーの好みを予測して適応し、楽しく魅力的な性格と個性を維持します。さらに、EVI 2は多言語に対応し、さまざまなアプリケーションシナリオやユーザーニーズに適応します。

AI音声アシスタント

Gemini Live

Gemini Liveは、Googleが提供するAIアシスタントGeminiの新しい機能です。ユーザーは自由に流ちょうな会話を楽しむことができ、マルチボイスに対応し、ハンズフリー操作も可能です。より自然で会話的なインタラクション体験を提供します。これはデジタルアシスタント分野における大きな進化であり、複雑なタスクの処理やユーザーの貴重な時間の節約に役立ちます。

AI音声アシスタント

Qwen2 音声指示デモ

Qwen2 音声指示デモ

Qwen2 音声指示デモは、音声指示に基づくインタラクティブなデモウェブサイトです。最新のAI技術を活用し、音声指示によるウェブページとの対話を実現しています。この技術はユーザーエクスペリエンスを向上させるだけでなく、障がいのある方にもより便利なアクセス方法を提供します。開発チームや技術サポートといった製品背景情報も含まれており、価格は無料トライアルです。主にAIインタラクションに関心のあるユーザーを対象としています。

AI音声アシスタント

GPT用音声アシスタントプラグイン

GPT用音声アシスタントプラグイン

GPT用音声アシスタントプラグインは、GPT向けに設計された音声アシスタントプラグインで、音声インタラクションを通じてユーザー体験を向上させることを目的としています。このプラグインは高度な音声認識技術を組み合わせており、ユーザーは音声コマンドでGPTと対話して、より自然で便利な会話体験を実現できます。製品の背景情報によると、このプラグインはAir Tech Studioによって開発されており、多言語に対応し、ユーザーデータの安全性を重視し、第三者とデータを共有することはありません。

AI音声アシスタント

高品質新製品

SpeechGPT2

SpeechGPT2は、復旦大学計算機科学学院が開発したエンドツーエンドの音声対話言語モデルです。感情を感知して表現し、コンテキストと人間の指示に基づいて、様々なスタイルで適切な音声応答を提供します。このモデルは超低ビットレート音声コーデック（750bps）を採用し、意味情報と音響情報を模倣し、多入力多出力言語モデル（MIMO-LM）を用いて初期化されます。現在、SpeechGPT2はまだターン制の対話システムですが、全二重リアルタイム版の開発が進められており、有望な進展が見られています。計算資源とデータ資源の制約から、音声認識のノイズ耐性と音声生成の音質安定性にはまだ課題がありますが、今後、技術レポート、コード、モデルウェイトをオープンソース化する予定です。

AI音声アシスタント

Dialed

Dialedは、パーソナライズされた励ましスピーチを通じてユーザーの潜在能力を引き出すことを目的としたAI駆動型アプリケーションです。フィットネス、スピーチ、日常の課題など、あらゆる場面でパーソナライズされた励ましとインスピレーションを提供します。主なメリットには、パーソナライズされた励ましスピーチ、真摯なサポート、伝説的なスピーチのカスタマイズ、様々な音声選択、バックグラウンドミュージック、AI生成の励まし画像などが含まれます。さらに、ユーザーは励ましスピーチを友人や家族と共有することもできます。

AI音声アシスタント

高品質新製品

Qwen2-Audio

Qwen2-Audioは、アリババクラウドが開発した大規模音声言語モデルです。様々な音声信号を入力として受け入れ、音声指示に基づいて音声分析を行うか、または直接テキストで応答します。音声チャットと音声分析という2種類の異なる音声インタラクションモードをサポートしています。自動音声認識（ASR）、音声テキスト変換（S2TT）、音声感情認識（SER）など、13個の標準ベンチマークテストで優れた性能を示しています。

AI音声アシスタント

Swift

Swiftは、Groq、Cartesia、Vercelが支援する高速AI音声アシスタントです。Groqを使用してOpenAI WhisperとMeta Llama 3の高速推論を行い、CartesiaのSonic音声モデルで高速音声合成を行い、フロントエンドにリアルタイムでストリーミングします。VAD技術を使用してユーザーの発話を検出し、音声セグメントへのコールバックを実行します。SwiftはTypeScriptで記述されたNext.jsプロジェクトであり、Vercel上にデプロイされています。

AI音声アシスタント

Moocat

MoocatはAIを搭載したスマート入力法で、内蔵の人工知能技術により、リアルタイムのタイピング候補、文法修正、コンテキストを理解した返信を提供し、タイピング速度と正確性を向上させます。Moocat入力法は、言語翻訳機能も備えており、言語の壁を取り払い、コミュニケーションをより円滑にします。さらに、キーボードの外観と機能を個人のスタイルや好みに合わせてカスタマイズできます。専門家、学生、旅行者など、さまざまなユーザー層に適しており、日々のコミュニケーション体験を向上させます。

AI音声アシスタント

WAKE UP MOTHAF&#$R

WAKE UP MOTHAF&#$R

WAKE UP MOTHAF&#$Rは、著名人David Gogginsの声を模倣したパーソナルAI音声アラームサービスを提供するウェブサイトです。朝起きるのを助けるサービスで、David Goggins本人または彼のチームによる公式サポートではありません。David Gogginsのファンによって作成されました。

AI音声アシスタント

リアルタイム音声AIエージェント

リアルタイム音声AIエージェント

リアルタイム音声AIエージェントは、高度に柔軟なリアルタイム音声インタラクションモデルです。約500ミリ秒で音声によるあらゆるクエリに回答できます。このモデルは、ユーザーが任意の大規模言語モデル、テキスト読み上げ（TTS）モデル、音声認識（STT）モデルを選択することをサポートしています。カスタマーサービスボット、受付係など、音声関連のアプリケーションシナリオに最適です。

AI音声アシスタント

june

juneは、Ollama、Hugging Face Transformers、Coqui TTS Toolkitを組み合わせたローカル音声チャットボットです。柔軟でプライバシーを重視したソリューションを提供し、ローカルマシン上で音声アシストによるインタラクションを実現します。データが外部サーバーに送信されることはありません。主な利点としては、インターネット接続不要、ユーザーのプライバシー保護、多様なインタラクションモードのサポートなどがあります。

AI音声アシスタント

Hume AI EVI

Hume AIの共感型音声インターフェース（EVI）は、共感型大規模言語モデル（eLLM）を駆使したAPIであり、音声のトーン、単語の強調などを理解しシミュレートすることで、人間とAIのインタラクションを最適化します。10年以上にわたる研究成果、数百万件の特許データポイント、およびトップジャーナルに掲載された30以上の論文に基づいています。EVIは、あらゆるアプリケーションに、より自然で共感的な音声インターフェースを提供し、人間とAIのインタラクションをより人間味のあるものにすることを目指しています。この技術は、営業/会議分析、ヘルスケア、AI研究サービス、ソーシャルネットワークなど、幅広い分野で活用できます。

AI音声アシスタント

ChatGPT x Mia AI 音声コントロール

Chatgpt X Mia AI 音声コントロール

ChatGPT x Mia AI 音声コントロールは、ChatGPTに音声制御と音声読み上げ機能を追加する拡張機能です。録音ボタンで音声クエリを録音してChatGPTに送信できます。タイピングは不要です。AIの回答は音声で読み上げられ、スムーズな音声インタラクションを実現します。さらに、このプラグインはChatGPTをMia AI機能を搭載したパーソナル音声アシスタントに変身させることができます。

AI音声アシスタント

Chat GPT 音声

Chat GPT 音声

多言語対応のTTS（テキスト読み上げ）とSTT（音声認識）機能により、GPTチャットに音声によるインタラクション機能を提供します。

AI音声アシスタント

Voxos

Voxosは、LLMを日々のワークフローに統合できる、多機能でユーザーフレンドリーなデスクトップ音声アシスタントです。Web UI を通じてLLMにアクセスするよりも簡素化されており、デスクトップコンピュータを使用し、時間と労力を節約したいと考えているすべての人にとって最適です。さらに、Voxosのモジュール式設計に基づいて独自の機能を構築することもできます。Voxosは拡張性とカスタマイズ性を重視して設計されています。そのため、現在の設計パターンに沿った方法で変更をカスタマイズし、MRを提出することですべてのVoxosユーザーに恩恵をもたらしていただければ幸いです。

AI音声アシスタント

雷鳥RayNeo AI

雷鳥rayneo AI

RayNeo AIは、雷鳥が独自開発した人工知能音声アシスタントです。自然言語処理、音声認識、音声合成などのコア技術を搭載し、自然言語による対話や音声制御などの機能を実現しています。現在、雷鳥XRシリーズ製品で内測を実施しており、旅程計画、天気予報の確認、百科事典の知識検索などのサービスに対応し、製品の知能化レベルを向上させています。次のステップとして、RayNeo AIは視覚認識などのマルチモーダルインタラクション機能の提供を計画しており、より豊かな人と機械のインタラクション体験を実現を目指しています。

AI音声アシスタント

Blerp - AI音声合成、配信用サウンドミーム

Blerp AI音声合成、配信用サウンドミーム

Blerpは、AIテキスト読み上げ、サウンドミーム、GIF、サウンドパネル、チャンネルポイントなどの機能を備えたプラグインです。Twitch、YouTube、Kickなどのプラットフォームで利用でき、ライブチャットで様々な音声やテキスト読み上げを送信し、絵文字やGIFを添付できます。視聴者は、このプラグインを使ってチャンネルポイントを集めたり、WalkOnサウンドを使用したりできます。ストリーマーは、Blerpプラットフォームでサウンドを追加?設定できます。

AI音声アシスタント

GPTアシスタント

GPTアシスタント

ChatGPT APIを利用して開発されたAndroid向け音声アシスタントアプリです。音声によるインタラクション、連続した会話、画像認識などの機能を備えています。音量ボタンから任意の画面で起動し、音声で質問できるので、タイピングが不要で、非常に優れた操作性を実現しています。カスタム質問テンプレート、ウェブスクレイピング、Visionによる画像認識などの高度な機能もサポートしています。

AI音声アシスタント

Talk to GPT

Talk to GPTは、Chrome拡張機能で、音声を使ってChatGPTと会話できます。音声認識により、あなたの言葉をテキストに変換し、ChatGPTに送信します。ChatGPTは100以上の言語で質問に答えることができます。自動修正機能や言語レベルの選択も可能です。価格については公式ウェブサイトをご覧ください。

AI音声アシスタント

Brave Leo AI

Brave Leo AIは、Braveブラウザが提供するインテリジェントなAIアシスタントで、ブラウザに直接統合されています。ユーザーはLeoと対話して情報を得ることができ、現在のページから移動する必要はありません。Leoは、ユーザーのためにウェブページの内容をスマートに要約したり、ページを翻訳したり、質問に答えたりするなど、必要な情報を迅速に取得するお手伝いをします。同時に、Leoはプライバシー保護を重視しており、ユーザーのチャット内容は記録および共有されません。ログインやアカウント登録は不要で、よりプライベートで安全なチャットを実現します。

AI音声アシスタント

Aya

AyaはChatGPTをベースとした音声アシスタントです。まるで人と会話するように、自然なやりとりが可能です。質問すれば答えてくれます。自然言語の理解と生成能力を備え、質問への回答、情報の提供、会話によるインタラクションを支援します。音声による回答にも対応し、より快適な操作性を実現しています。価格の詳細については、公式ウェブサイトをご覧ください。

AI音声アシスタント

音声AI検索拡張機能

音声AI検索拡張機能

この音声AI検索拡張機能は、Picovoice Porcupineウェイクワードエンジンを使用してウェイクワードを検出し、その後SpeechRecognition APIを使用して音声でGoogle検索を実行します。

AI音声アシスタント

OmniReader - AI搭載無料テキスト読み上げ

Omnireader AI搭載無料テキスト読み上げ

OmniReaderは、ウェブサイト、EPUB、PDFなどのコンテンツを簡単に音声で読み上げることができるAI音声読み上げツールです。自然なAI音声を使用し、多言語に対応しており、PDFやEPUBを音声ファイルに変換する機能も備えています。さらに、ClaudeやChatGPTなどのAIと音声で対話することも可能です。

AI音声アシスタント

Summme - AIチャットボット向けテキスト読み上げ(TTS)

Summme AIチャットボット向けテキスト読み上げ(TTS)

Summmeは、お気に入りのAIチャットボットに自然言語の音声合成機能を追加するプラグインです。ChatGPT、Bard、Bing Chat、Claude.aiなど、複数のチャットボットプラットフォームに対応しています。チャットボットの返信を自動または手動で音声に変換し、より自然な音声コミュニケーション体験をお楽しみいただけます。Summmeは、複数の音声トーンと言語を選択でき、音声速度の調整も可能です。また、あなたの名前を使ったパーソナライズされたあいさつにも対応しています。完全無料、登録不要です。Summmeを試して、あなたのチャットボットに声を添えてください。

AI音声アシスタント

Poe AIと会話

Poe AIと会話

Poe AIと会話は、Sage、GPT-4、Claude+を含むPoeのすべてのAIに対し、音声制御と朗読機能を提供するプラグインです。音声を使ってPoeのAIと会話し、様々な言語で回答を聞くことができます。また、AIの回答をクリアで自然な音声で朗読し、これも複数の言語に対応しています。簡単にインストールでき、キーボード入力は不要です。AIとのコミュニケーションをよりスムーズにします。

AI音声アシスタント

ChatGPT - 音声チャット

Chatgpt 音声チャット

ChatGPT - 音声チャットは、ChatGPTに音声による対話機能を追加するプラグインです。ユーザーはショートカットキーを使って音声で質問し、ChatGPTが生成した回答を音声で聞くことができます。

AI音声アシスタント

Talk-to-ChatGPT

Talk To ChatGPT

Talk-to-ChatGPTは、マイクを通してChatGPTと会話し、音声による返答を聞くことができるChrome拡張機能です。音声認識とテキスト読み上げ技術を使用しています。キーボードを使わずにChatGPTとインタラクトできます！完全に無料でオープンソースです。 ChatGPTのホームページを開くとすぐに使用できます。ページの右上に小さなボックスが表示されます。「開始」ボタンをクリックして使用を開始してください。言語、速度、トーンなどの設定も調整できます。この拡張機能は、Google Chrome APIがサポートするすべての音声認識とテキスト読み上げ言語に対応しているため、主要言語のほとんどをサポートしています。ElevenLabs APIを使用すれば、無数のChatGPT音声にアクセスすることもできます。

AI音声アシスタント

AITalk - Trancy提供

Aitalk Trancy提供

AITalkはChatGPTベースの英会話練習アプリです。最大の特長は、リアルな英会話シーンをカスタマイズできる点です。決まった会話内容に縛られることなく、緊張や気まずさを解消し、自信を持って30日間英語を話し続けることができます。価格：無料トライアル。位置付け：AI英会話練習アプリ。

AI音声アシスタント

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase