自監督學習

# 自監督學習

SHMT

SHMT是一種自監督的層次化化妝遷移技術，通過潛在擴散模型實現。該技術能夠在不需要顯式標註的情況下，將一種面部妝容自然地遷移到另一種面部上。其主要優點在於能夠處理複雜的面部特徵和表情變化，提供高質量的遷移效果。該技術在NeurIPS 2024上被接受，展示了其在圖像處理領域的創新性和實用性。

1.58-bit FLUX

1.58-bit FLUX是一種先進的文本到圖像生成模型，通過使用1.58位權重（即{-1, 0, +1}中的值）來量化FLUX.1-dev模型，同時保持生成1024x1024圖像的可比性能。該方法無需訪問圖像數據，完全依賴於FLUX.1-dev模型的自監督。此外，開發了一種定製的內核，優化了1.58位操作，實現了模型存儲減少7.7倍，推理內存減少5.1倍，並改善了推理延遲。在GenEval和T2I Compbench基準測試中的廣泛評估表明，1.58-bit FLUX在保持生成質量的同時顯著提高了計算效率。

Sparsh

Sparsh是一系列通過自監督算法（如MAE、DINO和JEPA）訓練的通用觸覺表示。它能夠為DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，並在TacBench提出的下游任務中大幅度超越端到端模型，同時能夠為新下游任務的數據高效訓練提供支持。Sparsh項目包含PyTorch實現、預訓練模型和與Sparsh一起發佈的數據集。

Video-Foley

Video-Foley是一個創新的視頻到聲音生成系統，它通過使用均方根(RMS)作為時間事件條件，結合語義音色提示（音頻或文本），實現高控制性和同步性的視頻聲音合成。該系統採用無需標註的自監督學習框架，包括Video2RMS和RMS2Sound兩個階段，結合了RMS離散化和RMS-ControlNet等新穎概念，與預訓練的文本到音頻模型相結合。Video-Foley在聲音時間、強度、音色和細節的音視頻對齊和控制性方面達到了最先進的性能。

HOI-Swap

HOI-Swap是一個基於擴散模型的視頻編輯框架，專注於處理視頻編輯中手與物體交互的複雜性。該模型通過自監督訓練，能夠在單幀中實現物體交換，並學習根據物體屬性變化調整手的交互模式，如手的抓握方式。第二階段將單幀編輯擴展到整個視頻序列，通過運動對齊和視頻生成，實現高質量的視頻編輯。

MimicBrush

MimicBrush是一種創新的圖像編輯模型，它允許用戶通過指定源圖像中的編輯區域和提供一張野外參考圖像來實現零樣本圖像編輯。該模型能夠自動捕捉兩者之間的語義對應關係，並一次性完成編輯。MimicBrush的開發基於擴散先驗，通過自監督學習捕捉不同圖像間的語義關係，實驗證明其在多種測試案例下的有效性及優越性。

DenseAV

DenseAV是一種新穎的雙編碼器定位架構，通過觀看視頻學習高分辨率、語義有意義的視聽對齊特徵。它能夠無需明確定位監督即可發現單詞的“意義”和聲音的“位置”，並且自動發現並區分這兩種關聯類型。DenseAV的定位能力來自於一種新的多頭特徵聚合操作符，它直接比較密集的圖像和音頻表示進行對比學習。此外，DenseAV在語義分割任務上顯著超越了先前的藝術水平，並且在使用參數少於一半的情況下，在跨模態檢索上超越了ImageBind。

AniTalker

AniTalker是一個創新的框架，它能夠從單一的肖像生成逼真的對話面部動畫。它通過兩個自監督學習策略增強了動作表現力，同時通過度量學習開發了一個身份編碼器，有效減少了對標記數據的需求。AniTalker不僅能夠創建詳細且逼真的面部動作，還強調了其在現實世界應用中製作動態頭像的潛力。

AV-HuBERT

AV-HuBERT是一個自監督表示學習框架，專門用於音視覺語音處理。它在LRS3音視覺語音基準測試中實現了最先進的唇讀、自動語音識別（ASR）和音視覺語音識別結果。該框架通過掩蔽多模態聚類預測來學習音視覺語音表示，並且提供了魯棒的自監督音視覺語音識別。

miqu-1-70b

Miqu 1-70b是一個開源大規模語言模型,採用了新穎的自我監督學習方法,可以處理各種自然語言任務。該模型參數量達170億,支持多種prompt格式,可fine-tuning生成高質量的文本。其強大的理解和生成能力,使其可廣泛應用於聊天機器人、文本摘要、問答系統等領域。

A Vision Check-up

A Vision Check Up

這篇論文系統評估了大型語言模型（LLMs）生成和識別逐漸複雜的視覺概念的能力，並展示瞭如何使用文本模型訓練初步的視覺表示學習系統。雖然語言模型不能直接處理像素級的視覺信息，但使用代碼表示圖像進行研究。LLM 生成的圖像雖然不像自然圖像，但在圖像生成和糾正方面的結果表明，準確建模字符串可以教會語言模型許多關於視覺世界的方面。此外，利用文本模型生成的圖像進行自監督視覺表示學習的實驗，突出了只使用 LLMs 就能訓練能夠對自然圖像進行語義評估的視覺模型的潛力。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase