零樣本學習

# 零樣本學習

Level-Navi Agent-Search

Level Navi Agent Search

Level-Navi Agent是一個開源的通用網絡搜索代理框架，能夠將複雜問題分解並逐步搜索互聯網上的信息，直至回答用戶問題。它通過提供Web24數據集，覆蓋金融、遊戲、體育、電影和事件等五大領域，為評估模型在搜索任務上的表現提供了基準。該框架支持零樣本和少樣本學習，為大語言模型在中文網絡搜索代理領域的應用提供了重要參考。

VideoGrain

VideoGrain 是一種基於擴散模型的視頻編輯技術，通過調節時空注意力機制實現多粒度視頻編輯。該技術解決了傳統方法中語義對齊和特徵耦合的問題，能夠對視頻內容進行精細控制。其主要優點包括零樣本編輯能力、高效的文本到區域控制以及特徵分離能力。該技術適用於需要對視頻進行復雜編輯的場景，如影視後期、廣告製作等，能夠顯著提升編輯效率和質量。

X-Dyna

X-Dyna是一種創新的零樣本人類圖像動畫生成技術，通過將驅動視頻中的面部表情和身體動作遷移到單張人類圖像上，生成逼真且富有表現力的動態效果。該技術基於擴散模型，通過Dynamics-Adapter模塊，將參考外觀上下文有效整合到擴散模型的空間注意力中，同時保留運動模塊合成流暢複雜動態細節的能力。它不僅能夠實現身體姿態控制，還能通過本地控制模塊捕捉與身份無關的面部表情，實現精確的表情傳遞。X-Dyna在多種人類和場景視頻的混合數據上進行訓練，能夠學習物理人體運動和自然場景動態，生成高度逼真和富有表現力的動畫。

Meta Motivo

Meta Motivo是由Meta FAIR發佈的首款行為基礎模型，通過一種新穎的無監督強化學習算法預訓練，用於控制複雜的虛擬人形代理完成全身任務。該模型能夠在測試時，通過提示解決未見過的任務，如動作跟蹤、姿勢達到和獎勵優化，無需額外學習或微調。這一技術的重要性在於其零樣本學習能力，能夠處理多種複雜任務，同時保持行為的魯棒性。Meta Motivo的開發背景是基於對更復雜任務和不同類型代理的泛化能力的追求，其開源的預訓練模型和訓練代碼鼓勵社區進一步發展行為基礎模型的研究。

Diffusion Self-Distillatio

Diffusion Self Distillatio

Diffusion Self-Distillation是一種基於擴散模型的自蒸餾技術，用於零樣本定製圖像生成。該技術允許藝術家和用戶在沒有大量配對數據的情況下，通過預訓練的文本到圖像的模型生成自己的數據集，進而微調模型以實現文本和圖像條件的圖像到圖像任務。這種方法在保持身份生成任務的性能上超越了現有的零樣本方法，並能與每個實例的調優技術相媲美，無需測試時優化。

Voicv

Voicv是一個尖端的語音克隆平臺，可在幾分鐘內將您的語音轉換為數字資產，支持多種語言和零樣本學習。該平臺結合了先進的AI技術和用戶友好的設計，提供專業級別的語音克隆能力。Voicv的主要優點包括零樣本語音克隆、多語言支持、即時處理、高準確性、跨平臺支持和企業級準備。產品背景信息顯示，Voicv致力於通過其技術幫助內容創作者、配音演員等用戶以多語言製作內容，同時保持個人品牌和聲音特徵。

SAMURAI

SAMURAI是一種基於Segment Anything Model 2 (SAM 2)的視覺對象跟蹤模型，專門設計用於處理快速移動或自遮擋對象的視覺跟蹤任務。它通過引入時間運動線索和運動感知記憶選擇機制，有效預測對象運動並優化掩膜選擇，無需重新訓練或微調即可實現魯棒、準確的跟蹤。SAMURAI能夠在即時環境中運行，並在多個基準數據集上展現出強大的零樣本性能，證明了其無需微調即可泛化的能力。在評估中，SAMURAI在成功率和精確度上相較於現有跟蹤器取得了顯著提升，例如在LaSOT-ext上AUC提升了7.1%，在GOT-10k上AO提升了3.5%。此外，與LaSOT上的全監督方法相比，SAMURAI也展現出了競爭力，強調了其在複雜跟蹤場景中的魯棒性以及在動態環境中的潛在實際應用價值。

零樣本學習

PromptFix

PromptFix是一個綜合框架，能夠使擴散模型遵循人類指令執行各種圖像處理任務。該框架通過構建大規模的指令遵循數據集，提出了高頻引導採樣方法來控制去噪過程，並設計了輔助提示適配器，利用視覺語言模型增強文本提示，提高模型的任務泛化能力。PromptFix在多種圖像處理任務中表現優於先前的方法，並在盲恢復和組合任務中展現出優越的零樣本能力。

ROCKET-1

ROCKET-1是一個視覺-語言模型(VLMs)，專門針對開放世界環境中的具身決策制定而設計。該模型通過視覺-時間上下文提示協議，將VLMs與策略模型之間的通信連接起來，利用來自過去和當前觀察的對象分割來指導策略-環境交互。ROCKET-1通過這種方式，能夠解鎖VLMs的視覺-語言推理能力，使其能夠解決複雜的創造性任務，尤其是在空間理解方面。ROCKET-1在Minecraft中的實驗表明，該方法使代理能夠完成以前無法實現的任務，突出了視覺-時間上下文提示在具身決策制定中的有效性。

模型訓練與部署

MaskGCT

MaskGCT是一個創新的零樣本文本到語音轉換（TTS）模型，它通過消除顯式對齊信息和音素級持續時間預測的需求，解決了自迴歸和非自迴歸系統中存在的問題。MaskGCT採用兩階段模型：第一階段使用文本預測從語音自監督學習（SSL）模型中提取的語義標記；第二階段，模型根據這些語義標記預測聲學標記。MaskGCT遵循掩碼和預測的學習範式，在訓練期間學習預測基於給定條件和提示的掩碼語義或聲學標記。在推理期間，模型以並行方式生成指定長度的標記。實驗表明，MaskGCT在質量、相似性和可理解性方面超越了當前最先進的零樣本TTS系統。

文本轉聲音

Whisper large-v3-turbo

Whisper Large V3 Turbo

Whisper large-v3-turbo是OpenAI提出的一種先進的自動語音識別(ASR)和語音翻譯模型。它在超過500萬小時的標記數據上進行訓練，能夠在零樣本設置中泛化到許多數據集和領域。該模型是Whisper large-v3的微調版本，解碼層從32減少到4，以提高速度，但可能會略微降低質量。

Omni-Zero-Couples

Omni Zero Couples

Omni-Zero-Couples是一個使用diffusers管道的零樣本風格化情侶肖像創作模型。它利用深度學習技術，無需預先定義的風格樣本，即可生成具有特定藝術風格的情侶肖像。這種技術在藝術創作、個性化禮物製作和數字娛樂領域具有廣泛的應用前景。

Seed-Music

Seed-Music 是一個音樂生成系統，它通過統一的框架支持生成具有表現力的多語言聲樂音樂，允許精確到音符級別的調整，並提供將用戶自己的聲音融入音樂創作的能力。該系統採用先進的語言模型和擴散模型，為音樂家提供多樣化的創作工具，滿足不同音樂製作需求。

seed-vc

seed-vc 是一個基於 SEED-TTS 架構的聲音轉換模型，能夠實現零樣本的聲音轉換，即無需特定人的聲音樣本即可轉換聲音。該技術在音頻質量和音色相似性方面表現出色，具有很高的研究和應用價值。

MimicBrush

MimicBrush是一種創新的圖像編輯模型，它允許用戶通過指定源圖像中的編輯區域和提供一張野外參考圖像來實現零樣本圖像編輯。該模型能夠自動捕捉兩者之間的語義對應關係，並一次性完成編輯。MimicBrush的開發基於擴散先驗，通過自監督學習捕捉不同圖像間的語義關係，實驗證明其在多種測試案例下的有效性及優越性。

Slicedit

Slicedit是一種零樣本視頻編輯技術，它利用文本到圖像的擴散模型，並結合時空切片來增強視頻編輯中的時序一致性。該技術能夠保留原始視頻的結構和運動，同時符合目標文本描述。通過廣泛的實驗，證明了Slicedit在編輯真實世界視頻方面具有明顯優勢。

NaturalSpeech 3

Naturalspeech 3

NaturalSpeech 3旨在通過分解語音的不同屬性（如內容、韻律、音色和聲學細節）並分別生成它們來提高語音合成的質量、相似性和韻律。該系統設計了一個神經編解碼器，使用分解的向量量化（FVQ）來解耦語音波形，並提出了一個分解的擴散模型來根據相應的提示生成每個子空間的屬性。

OpenVoice

OpenVoice是一個開源的語音克隆技術,可以準確地克隆參考音色,生成多種語言和口音的語音。它可以靈活地控制語音風格,如情感、口音等參數,以及節奏、停頓和語調等。它實現了零樣本跨語言語音克隆,即生成語音和參考語音的語言都不需要出現在訓練數據中。

Cola

Cola是一種使用語言模型（LM）來聚合2個或更多視覺-語言模型（VLM）輸出的方法。我們的模型組裝方法被稱為Cola（COordinative LAnguage model or visual reasoning）。Cola在LM微調（稱為Cola-FT）時效果最好。Cola在零樣本或少樣本上下文學習（稱為Cola-Zero）時也很有效。除了性能提升外，Cola還對VLM的錯誤更具魯棒性。我們展示了Cola可以應用於各種VLM（包括大型多模態模型如InstructBLIP）和7個數據集（VQA v2、OK-VQA、A-OKVQA、e-SNLI-VE、VSR、CLEVR、GQA），並且它始終提高了性能。

AI圖像檢測識別

Computer Vision with DirectAI

Computer Vision With DirectAI

DirectAI是一個基於大型語言模型和零樣本學習的平臺，可以根據您的描述即時構建適合您需求的模型，無需訓練數據。您可以在幾秒鐘內部署和迭代模型，省去了組裝訓練數據、標記數據、訓練模型和微調模型的時間和費用。DirectAI在紐約市總部，並獲得了風投支持，正在改變人們在現實世界中使用人工智能的方式。

模型訓練與部署

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase