零樣本

# 零樣本

Spark-TTS

Spark-TTS 是一種基於大語言模型的高效文本到語音合成模型，具有單流解耦語音令牌的特性。它利用大語言模型的強大能力，直接從代碼預測的音頻進行重建，省略了額外的聲學特徵生成模型，從而提高了效率並降低了複雜性。該模型支持零樣本文本到語音合成，能夠跨語言和代碼切換場景，非常適合需要高自然度和準確性的語音合成應用。它還支持虛擬語音創建，用戶可以通過調整參數（如性別、音高和語速）來生成不同的語音。該模型的背景是為了解決傳統語音合成系統中效率低下和複雜性高的問題，旨在為研究和生產提供高效、靈活且強大的解決方案。目前，該模型主要面向學術研究和合法應用，如個性化語音合成、輔助技術和語言研究等。

文本轉聲音

Binoculars

Binoculars是一個先進的AI生成文本檢測工具,無需訓練數據即可零配置使用。它的檢測思路非常簡單明瞭:大多數只用decoder的因果語言模型在預訓練時使用了大量相同的數據集,例如Common Crawl、Pile等。更多關於該方法及其效果的信息請參閱我們的論文《用雙目鏡發現LLM: 機器生成文本的零樣本檢測》。

AnyDoor

AnyDoor 是一種基於擴散的圖像生成器，可以在用戶指定的位置將目標對象以和諧的方式傳送到新場景中。我們的模型只需要訓練一次，就可以輕鬆推廣到不同的對象和場景組合中，無需為每個對象調整參數。為了充分描述某個特定對象，我們除了使用常用的身份特徵外，還補充了細節特徵，這些特徵經過精心設計，既能保持紋理細節，又能允許多樣的局部變化（如光照、方向、姿勢等），從而使對象與不同的環境更好地融合。我們還提出從視頻數據集中借用知識的方法，在視頻數據集中可以觀察到同一對象的各種形態（沿時間軸），從而增強模型的泛化能力和魯棒性。大量實驗證明了我們方法的優越性，以及它在虛擬試穿和物體移動等實際應用中的巨大潛力。

AnimateZero

AnimateZero是一款零樣本圖像動畫生成器，通過分離外觀和運動生成視頻，解決了黑盒、低效、不可控等問題。它可以通過零樣本修改將預訓練的T2V模型轉換為I2V模型，從而實現零樣本圖像動畫生成。AnimateZero還可以用於視頻編輯、幀插值、循環視頻生成和真實圖像動畫等場景，具有較高的主觀質量和匹配度。

RERENDER A VIDEO

RERENDER A VIDEO

RERENDER A VIDEO是一種新穎的零樣本文本引導的視頻到視頻翻譯框架，用於將圖像模型應用於視頻領域。該框架包括兩個部分：關鍵幀翻譯和完整視頻翻譯。第一部分使用適應性擴散模型生成關鍵幀，並應用分層跨幀約束來確保形狀、紋理和顏色的一致性。第二部分通過時間感知的補丁匹配和幀混合將關鍵幀傳播到其他幀。我們的框架以低成本實現了全局風格和局部紋理的時間一致性（無需重新訓練或優化）。該適應性與現有的圖像擴散技術兼容，使我們的框架能夠利用它們，例如使用LoRA自定義特定主題，並使用ControlNet引入額外的空間引導。大量實驗證明了我們提出的框架在呈現高質量和時間一致性視頻方面的有效性。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase