すべてのカテゴリ

AI音声翻訳

2025年最高の 32 個のAI音声翻訳ツール

FunASR

FunASRは、音声端点検出、音声認識、句読点付与などのモデルを統合した音声オフラインファイル転写サービスソフトウェアパッケージです。長時間の音声や動画を句読点付きのテキストに変換でき、複数リクエストの同時転写にも対応しています。ITNとユーザー定義の単語辞書に対応し、サーバーにはffmpegが統合されており、様々な音声?動画フォーマットの入力をサポートします。また、HTML、Python、C++、Java、C#など、様々なプログラミング言語のクライアントを提供しており、高効率かつ正確な音声転写サービスを必要とする企業や開発者に最適です。

AsrTools

AsrToolsは、人工知能技術に基づいた音声テキスト変換ツールです。大手企業のASRサービスAPIを利用することで、GPUや複雑な設定なしに効率的な音声認識を実現しています。一括処理とマルチスレッド並列処理に対応しており、オーディオファイルをSRTまたはTXT形式の字幕ファイルに高速変換できます。PyQt5とqfluentwidgetsをベースとしたユーザーインターフェースは、視覚的に美しく、操作しやすい設計となっています。主な利点としては、大手企業のAPIを利用した安定性、複雑な設定不要の利便性、多様な出力形式の柔軟性などが挙げられます。AsrToolsは、音声コンテンツをテキストに変換する必要があるユーザーにとって最適なツールであり、特に動画制作、音声編集、字幕作成などの分野で役立ちます。現在、大手企業のASRサービスを無料で利用できるため、個人や小規模チームのコスト削減と作業効率の向上に大きく貢献します。

ガーデナーテレプロンプター

ガーデナーテレプロンプター

ガーデナーテレプロンプターは、ライブ配信、スピーチ、授業など、様々な場面で使えるデスクトップ型テレプロンプターアプリです。AIによる音声認識技術で、ユーザーの発話速度をリアルタイムに感知し、テキストのスクロール速度を自動調整することで、発言とテロップの同期を確保します。最先端のAI技術を搭載し、文章の最適化、あらゆるチャネルからの文章抽出、透かしなし動画ダウンロード、禁止語検出、文章の音声合成などの機能を提供し、文章作成効率を大幅に向上させます。ガーデナーテレプロンプターは複数のウィンドウを同時に再生でき、多様な表示ニーズに対応可能です。すべてのウィンドウは常に最前面に表示でき、他の画面を遮ることはありません。真の非表示テロップを実現します。数多くのライブ配信で実証された安定性と耐久性を持ち、チームは継続的な革新と安定したアップデートを行い、優れたサービスを提供しています。

Kaption AI

Kaption AIはChromeブラウザの拡張機能で、人工知能技術を利用してWhatsAppの音声メッセージをテキストに変換し、メッセージの要約と返信候補を提供します。ユーザーのプライバシーとセキュリティを重視し、高度なAI技術により正確な転写と要約を実現しています。長時間の音声メッセージを聞き取るのが困難なWhatsAppヘビーユーザーにとって特に便利で、重要な情報に集中し、時間を節約できます。

Rev AI

Rev AIは、58以上の言語に対応した高精度音声自動転写サービスを提供しています。ビデオや音声アプリケーションの音声をテキストに変換し、世界で最も多様な音声データセットを用いたトレーニングにより、正確性の基準を確立しています。リアルタイムストリーミング転写、人による転写、言語識別、感情分析、トピック抽出、要約、翻訳などのサービスも提供しています。Rev AIの技術的優位性としては、低い単語誤り率、性別や人種によるアクセントへの最小限のバイアス、幅広い言語サポート、そして読みやすい転写テキストの提供が挙げられます。さらに、SOC II、HIPAA、GDPR、PCI準拠など、世界最高レベルのセキュリティ基準にも準拠しています。

Youtube-Whisper

Youtube Whisper

Youtube-Whisperは、Gradioベースのアプリケーションで、YouTube動画の音声を抽出し、OpenAIのWhisperモデルを使用してテキストに変換します。動画の内容をテキスト化して分析、アーカイブ、または翻訳する必要があるユーザーにとって非常に役立つツールです。最新のAI技術を活用し、動画コンテンツのアクセシビリティと利便性を向上させます。

高品質新製品

babelfish.ai

babelfish.aiは、ブラウザベースのリアルタイム音声テキスト変換と翻訳アプリです。Huggingface Transformer.jsとSupabase Realtime技術を利用して、ローカライズされたリアルタイム音声認識と多言語翻訳機能を実現しています。このアプリは、音声をテキストにリアルタイムで変換し、そのテキストを200種類の言語に翻訳できるため、クロスリンガルコミュニケーションの効率と利便性を大幅に向上させます。

WeST

WeSTは、300行という簡潔なコードで、大規模言語モデル（LLM）を用いた音声テキスト変換を実現するオープンソースの音声認識転写モデルです。大規模言語モデル、音声エンコーダー、プロジェクターで構成され、プロジェクター部分のみを学習できます。SLAM-ASRとLLaMA 3.1から着想を得ており、簡素化されたコードで効率的な音声認識機能を実現することを目指しています。

aTrain

aTrainは、グラーツ大学ビジネスアナリティクス＆データサイエンスセンターの研究者によって開発され、グラーツ知識センターの研究者によってテストされたオフライン音声書き起こしツールです。最新の機械学習モデルを利用し、データをアップロードすることなく音声録音の自動書き起こしを行います。aTrainは『行動実験経済学ジャーナル』に掲載された論文で紹介されており、研究目的で使用する場合には、この論文への引用をお願いいたします。Windows 10および11に対応しており、MicrosoftストアまたはBANDASセンターのウェブサイトからダウンロードしてインストールできます。Linuxシステムについては、Wikiにインストールガイドが掲載されています。aTrainの主な利点は、データアップロード不要によるプライバシー保護、高品質な書き起こし精度、ローカルコンピューターでの高速処理速度です。

中国語精選

動画文字起こしツール

動画文字起こしツール

AIbase動画文字起こしツールは、人工知能と機械学習技術を活用し、迅速かつ正確な動画文字起こしサービスを提供します。文字のレイアウトを最適化することで、起こし結果が理解しやすく、元の動画に忠実なものになります。基本サービスとして、本ツールは完全に無料で、インストール、ダウンロード、有料購読は一切不要です。クリエイターの皆様の動画コンテンツ処理作業を大幅に簡素化します。

中国語精選

音声テキスト抽出ツール

音声テキスト抽出ツール

AIbaseの音声テキスト抽出ツールは、人工知能技術と機械学習モデルを活用し、高品質な音声テキストを迅速に生成します。テキストのレイアウトを最適化し、可読性を向上させます。完全無料で、インストールやダウンロード、支払いも一切不要です。クリエイターの方々に便利な基本サービスを提供します。

ボイスペン

ボイスペン

ボイスペンは、人工知能技術を活用して音声をテキストに変換するアプリケーションです。50以上の言語に対応しており、OpenAIのWhisper技術により完璧な転写と句読点を提供します。ボイスペンを使って音声録音を行い、ノート、要約、メール、メッセージ、ブログ投稿などを生成できます。さらに、AIによる書き直し機能も備えており、テキストの整理、要約、リスト作成、ブログ/投稿/ツイート、Instagramのキャプション、メールの作成を支援します。ボイスペンはユーザーのプライバシーを重視し、録音データやテキストデータは一切収集しません。

Transkriptor 音声テキスト変換

Transkriptor 音声テキスト変換

Transkriptorは、音声ファイルをテキストに変換するブラウザ拡張機能です。高度なAI技術を用いて、会議、インタビュー、講義など、さまざまな種類の音声コンテンツを自動的に録音?文字起こしします。シンプルで直感的なインターフェースを備え、複数のファイル形式に対応し、安全な文字起こしサービスを提供します。さらに、字幕生成、多言語対応、リモート共同編集などの機能も搭載しています。

Summify - スピーチ要約

Summify スピーチ要約

Summify - スピーチ要約は、大学講義や学校授業からAIビジネス会議まで、あらゆる講演を簡単に記録?要約できるモバイルアプリケーションです。OpenAIのWhisper AIモデルとChatGPTの強力な機能を活用し、可能な限り高い精度でテキストを転写?要約し、重要なディテールを一つ残らず捉えます。Summifyは生産性向上、集中力アップ、自宅での講演内容修正、そしてプライバシー保護に役立ちます。

Whisper メモ音声書き起こし

Whisper メモ音声書き起こし

最先端の人工知能技術を用いて、音声メモをテキストに書き起こします。このアプリは、大容量の音声録音にも容易に対応し、正確な書き起こし結果を提供します。オフラインでの書き起こしに対応しており、すべてのデータはデバイス上で処理されます。無料機能には、音声ファイルの簡単録音と書き起こし、インターネット接続不要の書き起こし、デバイス上でのデータ処理、即時書き起こし結果取得、自動言語検出、5件までの書き起こし結果、シンプルで使いやすいインターフェース、バックグラウンド録音、書き起こし結果のメールや他のアプリへの共有などが含まれます。Pro機能では、書き起こし結果の生成回数無制限となります。今すぐダウンロード！

VoiceRec

VoiceRecは、音声録音、テキスト変換、共有を一体化したAI音声アプリケーションです。音声テキスト変換、高精度認識に対応し、多言語と様々な出力形式をサポートしています。

Transcribe

Transcribe ~ Speech to Text は、音声テキスト変換を行うiOSアプリです。OpenAIのWhisper技術とAppleのニューラルエンジンを活用することで、音声ファイルの高精度な認識を実現し、オーディオやビデオファイルを直接読み取り可能なテキストに変換します。オフライン認識とクラウド認識の2つのモードに対応しており、あらゆる音声テキスト変換のニーズに対応し、シンプルで使いやすいアプリです。

Whisper Notes

Whisper Notes は、OpenAI の Whisper モデルを使用した正確な音声テキスト変換ツールです。インターネット接続不要で、ユーザーデータはアップロードされません。80以上の言語に対応しており、メモ取りやメッセージの素早い送信などに活用できます。

TextScan AI

TextScan AIは、画像からテキストを簡単に変換し、AIとチャットできる無料のモバイルアプリケーションです。手動入力の手間を省き、より迅速で正確なチャット体験をお届けします。スマートなメッセージ機能により、AIとのチャットがさらに便利になります。TextScan AIは、スマートで効率的なチャットツールとして、あなたのチャットをよりスマートで効率的にします。

TranscribeAI

TranscribeAIは、オーディオファイルをテキストに簡単に書き起こすことを目的とした、画期的なMacアプリケーションです。最先端の人工知能技術を採用しており、比類のない正確性と速度を提供することで、貴重な時間と労力を節約します。ジャーナリスト、研究者、コンテンツクリエイター、あるいは定期的にオーディオの書き起こしが必要な方にとって、TranscribeAIは最適なツールです。

VNSplit

VNSplitは、数秒で強力で詳細な音声メモの要約を提供するAI音声メモ要約ツールです。iMessageやWhatsAppで音声メモを聞く煩わしさから解放され、AIによる音声メモ要約を受け取ることができます。ご希望のプランを購読し、Stripeを通じてiMessageまたはWhatsApp番号を登録するだけで、AIボットからのメッセージが届きます。以降は、その番号にメッセージを転送するだけで要約が生成されます。

Speechless

Speechlessは、OpenAIのWhisper APIを基盤とした究極のアプリで、シームレスな音声転写と翻訳機能を提供します。Speechlessを使えば、音声ファイルを簡単にインポートし、正確な転写を瞬時に取得できます。リアルタイム翻訳で言語の壁を突破し、転写内容を簡単に共有することで、比類のない繋がりとコミュニケーションを実現します。SpeechlessはWhatsApp、ボイスメモなどのアプリに対応しており、音声の転写や翻訳を簡単に実行できます。

WisprNote

WisprNoteは、音声メモ、音声ファイル、動画ファイルの音声をテキストに変換するスマートなツールです。高い精度と変換速度を実現しながら、プライバシーの安全性を確保しています。会議記録、インタビューの文字起こし、学習ノート作成などに最適です。

ALog

ALogは、音声認識とAI技術を活用し、日々の出来事を手軽に記録できる革新的な日記アプリです。音声入力による日記作成、AIによるテキストへの正確な転写、感情分析、生活データ統計などの機能を搭載しており、いつでもどこでも簡単に生活を記録できます。音声で日記を記録したい方におすすめです。

ライブトランスクライブ：音声テキスト変換

ライブトランスクライブ：音声テキスト変換

ライブトランスクライブは、音声データをリアルタイムでテキストに変換するアプリケーションです。iPhoneを使って簡単に音声記録が行えます。

通話録音＆文字起こしアプリ

通話録音＆文字起こしアプリ

iOSとAndroidに対応した電話通話録音アプリです。IVR技術により高音質で通話を録音し、機械学習とAI技術を用いて、音声分離やタイムコードを含む読みやすいテキストファイルに文字起こしします。主な機能は、高音質通話録音、通話内容をテキストファイル化、録音とテキストファイルのメール送信、追加録音時間の購入、広告なし、サブスクリプション不要です。

NaturalReader - AI音声読み上げ

Naturalreader AI音声読み上げ

NaturalReader - AI音声読み上げは、Chrome拡張機能で、オンラインテキストを自然で滑らかな音声に変換します。再生ボタンをクリックするだけで、メール、ウェブページ、PDFファイル、Googleドキュメント、Kindle書籍を朗読してくれます！音声読み上げ機能を使用することで、読書よりも速い速度でテキストを聞き取り、通勤中、散歩中、料理中など、読書ができない時間帯でも効率的に作業を進めることができます。無料版は豊富な機能を備えており、予算に合わせて選択できる2つの有料プレミアムプランも用意されています。

音声テキスト化＆文字起こし

音声テキスト化＆文字起こし

音声テキスト化＆文字起こしは、話言葉をテキストに変換する便利なツールです。録音の文字起こしに最適です。オープンソースAI技術の進歩により、低音の音声でも正確かつ効率的に文字起こしできるようになりました。音声テキスト化の主な利点の一つは、オーディオ録音の音声をテキストに変換できることです。会議、インタビュー、その他のイベントを記録する必要があるジャーナリスト、研究者にとって特に役立ちます。このアプリはオーディオコンバーターを使用してオーディオファイルを読み込み、テキストに変換します。変換後のテキストは必要に応じて編集?共有できます。音声録音の文字起こしに加えて、音声テキスト化アプリは音声入力にも対応しており、アプリ内で直接話してリアルタイムでテキストに変換できます。文章作成が困難な方や、迅速かつ効率的にテキストドキュメントを作成する必要がある方にとって特に便利です。総じて、音声テキスト化アプリは時間を節約し、作業効率を向上させる貴重なツールです。音声録音の文字起こしや重要なイベントの記録を容易にします。オープンソースAI技術の向上により、これらのアプリはより正確で信頼できるものとなり、定期的にオーディオ録音を取り扱う方にとって不可欠なツールとなっています。

音声テキスト変換

音声テキスト変換

音声テキスト変換はChrome拡張機能で、音声入力またはコピー＆ペーストでメモを作成できます。背景画像やフォントを選択し、印刷することも可能です。感謝祭、祝祭日、その他の場面、あるいは単に話すことや書くことを楽しむためなど、様々な場面でご利用いただけます。

SpeechFlow - 高性能音声テキスト変換API

Speechflow 高性能音声テキスト変換API

SpeechFlowは、13言語に対応し、非常に高い精度で音声テキスト変換を行うパワフルなAPIです。音声からテキストへの変換、音声認識、オーディオからテキストへの変換を可能にする強力なツールです。クラウドおよびオンプレミスでの展開に対応し、信頼性が高く、容易に導入?拡張できるソリューションを提供します。また、高速処理を実現しており、最長1時間のオーディオファイルを数分で処理できます。

おすすめAI製品

Jules AI

Jules は、自動で煩雑なコーディングタスクを処理し、あなたに核心的なコーディングに時間をかけることを可能にする異步コーディングエージェントです。その主な強みは GitHub との統合で、Pull Request(PR) を自動化し、テストを実行し、クラウド仮想マシン上でコードを検証することで、開発効率を大幅に向上させています。Jules はさまざまな開発者に適しており、特に忙しいチームには効果的にプロジェクトとコードの品質を管理する支援を行います。

開発プログラミング

NoCode

NoCode はプログラミング経験を必要としないプラットフォームで、ユーザーが自然言語でアイデアを表現し、迅速にアプリケーションを生成することが可能です。これにより、開発の障壁を下げ、より多くの人が自身のアイデアを実現できるようになります。このプラットフォームはリアルタイムプレビュー機能とワンクリックデプロイ機能を提供しており、技術的な知識がないユーザーにも非常に使いやすい設計となっています。

開発プラットフォーム

ListenHub

ListenHub は軽量級の AI ポッドキャストジェネレーターであり、中国語と英語に対応しています。最先端の AI 技術を使用し、ユーザーが興味を持つポッドキャストコンテンツを迅速に生成できます。その主な利点には、自然な会話と超高品質な音声効果が含まれており、いつでもどこでも高品質な聴覚体験を楽しむことができます。ListenHub はコンテンツ生成速度を改善するだけでなく、モバイルデバイスにも対応しており、さまざまな場面で使いやすいです。情報取得の高効率なツールとして位置づけられており、幅広いリスナーのニーズに応えています。

中国語精選

腾讯混元画像 2.0

腾讯混元画像 2.0

腾讯混元画像 2.0 は腾讯が最新に発表したAI画像生成モデルで、生成スピードと画質が大幅に向上しました。超高圧縮倍率のエンコード?デコーダーと新しい拡散アーキテクチャを採用しており、画像生成速度はミリ秒級まで到達し、従来の時間のかかる生成を回避することが可能です。また、強化学習アルゴリズムと人間の美的知識の統合により、画像のリアリズムと詳細表現力を向上させ、デザイナー、クリエーターなどの専門ユーザーに適しています。

OpenMemory MCP

OpenMemoryはオープンソースの個人向けメモリレイヤーで、大規模言語モデル（LLM）に私密でポータブルなメモリ管理を提供します。ユーザーはデータに対する完全な制御権を持ち、AIアプリケーションを作成する際も安全性を保つことができます。このプロジェクトはDocker、Python、Node.jsをサポートしており、開発者が個別化されたAI体験を行うのに適しています。また、個人情報を漏らすことなくAIを利用したいユーザーにお勧めします。

オープンソース

FastVLM

FastVLM は、視覚言語モデル向けに設計された効果的な視覚符号化モデルです。イノベーティブな FastViTHD ミックスドビジュアル符号化エンジンを使用することで、高解像度画像の符号化時間と出力されるトークンの数を削減し、モデルのスループットと精度を向上させました。FastVLM の主な位置付けは、開発者が強力な視覚言語処理機能を得られるように支援し、特に迅速なレスポンスが必要なモバイルデバイス上で優れたパフォーマンスを発揮します。

ピカは、ユーザーが自身の創造的なアイデアをアップロードすると、AIがそれに基づいた動画を自動生成する動画制作プラットフォームです。主な機能は、多様なアイデアからの動画生成、プロフェッショナルな動画効果、シンプルで使いやすい操作性です。無料トライアル方式を採用しており、クリエイターや動画愛好家をターゲットとしています。

中国語精選

LiblibAI

LiblibAIは、中国をリードするAI創作プラットフォームです。強力なAI創作能力を提供し、クリエイターの創造性を支援します。プラットフォームは膨大な数の無料AI創作モデルを提供しており、ユーザーは検索してモデルを使用し、画像、テキスト、音声などの創作を行うことができます。また、ユーザーによる独自のAIモデルのトレーニングもサポートしています。幅広いクリエイターユーザーを対象としたプラットフォームとして、創作の機会を平等に提供し、クリエイティブ産業に貢献することで、誰もが創作の喜びを享受できるようにすることを目指しています。

AIbase

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

© 2025AIbase