
Realtimestt
RealtimeSTT是一個開源的語音識別模型,能夠即時將語音轉換為文本。它使用了先進的語音活動檢測技術,可以自動檢測語音的開始和結束,無需手動操作。此外,它還支持喚醒詞激活功能,用戶可以通過說出特定的喚醒詞來啟動語音識別。該模型具有低延遲、高效率的特點,適合需要即時語音轉錄的應用場景,如語音助手、會議記錄等。它基於Python開發,易於集成和使用,且在GitHub上開源,社區活躍,不斷有新的更新和改進。
語音識別
70.1K

Moonshine
Moonshine 是一系列為資源受限設備優化的語音轉文本模型,非常適合即時、設備上的應用程序,如現場轉錄和語音命令識別。在 HuggingFace 維護的 OpenASR 排行榜中使用的測試數據集上,Moonshine 的詞錯誤率(WER)優於同樣大小的 OpenAI Whisper 模型。此外,Moonshine 的計算需求隨著輸入音頻的長度而變化,這意味著較短的輸入音頻處理得更快,與 Whisper 模型不同,後者將所有內容都作為 30 秒的塊來處理。Moonshine 處理 10 秒音頻片段的速度是 Whisper 的 5 倍,同時保持相同或更好的 WER。
語音識別
64.0K
國外精選

Rev AI
Rev AI提供高精度的語音轉錄服務,支持58種以上語言,能夠將視頻和語音應用中的語音轉換為文本。它通過使用世界上最多樣化的聲音集合進行訓練,為視頻和語音應用設定了準確性標準。Rev AI還提供即時流媒體轉錄、人類轉錄、語言識別、情感分析、主題提取、總結和翻譯等服務。Rev AI的技術優勢在於低詞錯誤率、對性別和種族口音的最小偏見、支持更多語言以及提供最易讀的轉錄文本。此外,它還符合世界頂級的安全標準,包括SOC II、HIPAA、GDPR和PCI合規性。
AI語音轉文本
63.8K
優質新品

Jotme
JotMe是一款提供即時翻譯、轉錄和會議筆記生成服務的AI產品。它支持68種語言,包括中文和英文,幫助用戶在Google Meet上進行多語言會議。產品的主要優點包括高質量的即時翻譯、會議結束後的轉錄和翻譯存儲、會議摘要生成,以及通過複製轉錄內容到ChatGPT生成文檔或郵件草稿的功能。JotMe提高了跨語言溝通的效率,是多語言工作環境中的必備工具。
會議助手
55.2K

Mbox AI Meet
MBox AI Meet是一款免費Chrome擴展,專為Google Meet設計,提供即時轉錄和自動生成會議總結的功能。它利用AI技術幫助用戶在會議中專注於討論,而無需擔心記筆記。該工具通過即時轉錄捕捉會議的每一個細節,並在會議結束後自動生成總結,確保用戶不會錯過任何重要信息。MBox AI Meet的隱私優先策略確保會議安全,不存儲任何音頻或視頻內容。此外,該擴展還計劃在未來更新中增加更多AI功能,如發言人識別、即時AI助手等。
會議助手
53.5K

Friend
Friend是一款領先的開源AI穿戴設備,它通過連接移動設備,提供自動、高質量的會議、聊天和語音備忘錄的即時轉錄服務。它具備即時AI音頻處理能力,低功耗藍牙技術,以及開源軟件設計,使得用戶能夠方便地訪問和貢獻代碼。該產品以其便攜性、實用性和開源性,為需要高效記錄和管理對話內容的用戶提供了一個創新解決方案。
AI語音助手
61.3K
優質新品

Ipados 18
iPadOS 18是蘋果公司為iPad設備推出的最新操作系統,它通過Apple Pencil、應用程序體驗和個性化定製等新功能,進一步增強了iPad的生產力和創造力。該系統利用Apple Intelligence技術,根據用戶的個人上下文提供最有幫助和相關的智能服務。
AI生產力工具
56.0K

Voicetapp
Voicetapp是一個強大的基於雲端的人工智能軟件,通過最新的語音識別技術,幫助您將任何語音、音頻和視頻自動轉換為文字。具備高達99%的準確度。支持170種語言和方言。具備演講者識別、即時轉錄、多種音頻輸入格式等功能。提供不同的定價計劃。
語音轉文本
143.2K

Interview Copilot
Final Round AI是第一款也是唯一的面試Copilot AI系統。它像語音提示一樣可以即時幫助面試者從初試到終試全程應對自如。主要功能包括:根據簡歷和職位描述定製化應對策略、即時轉錄面試內容等。優勢是即時應對指導,可以顯著減輕面試焦慮,提高面試成功率。服務定價分多檔。定位是面試者的最佳AI輔助系統。
AI面試助手
208.1K

Speechpulse
SpeechPulse是一款語音識別和翻譯軟件。它使用OpenAI的Whisper語音到文本模型,實現即時的語音識別,支持多種語言。用戶可以使用麥克風輸入文字,也可以通過轉錄音視頻文件進行語音識別和翻譯。SpeechPulse可以在各種場景下使用,例如辦公文檔編輯、網頁瀏覽、文件轉錄、視頻字幕生成等。它具有極高的準確性和低延遲,並且完全離線使用。SpeechPulse提供免費版和付費版,付費版支持更多功能和更好的準確性。
語音識別
88.9K

Otter.ai
Otter.ai使用AI進行自動會議筆記,即時轉錄,記錄音頻,自動捕捉幻燈片,並生成會議摘要。它可以與Zoom、Microsoft Teams和Google Meet等平臺集成,即時轉錄會議內容,並生成自動化的會議筆記。用戶可以在Web、iOS或Android應用中即時跟進,並與團隊合作。此外,Otter還能自動捕捉並插入會議中共享的幻燈片,方便用戶回顧討論內容。如果錯過了會議的任何部分,Otter還會即時生成摘要,供用戶方便回顧。價格根據不同用戶類型有所不同。
會議助手
148.2K
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
81.4K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
64.3K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
51.3K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
48.6K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
138.8K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M