自监督学习

# 自监督学习

SHMT

SHMT是一种自监督的层次化化妆迁移技术，通过潜在扩散模型实现。该技术能够在不需要显式标注的情况下，将一种面部妆容自然地迁移到另一种面部上。其主要优点在于能够处理复杂的面部特征和表情变化，提供高质量的迁移效果。该技术在NeurIPS 2024上被接受，展示了其在图像处理领域的创新性和实用性。

1.58-bit FLUX

1.58-bit FLUX是一种先进的文本到图像生成模型，通过使用1.58位权重（即{-1, 0, +1}中的值）来量化FLUX.1-dev模型，同时保持生成1024x1024图像的可比性能。该方法无需访问图像数据，完全依赖于FLUX.1-dev模型的自监督。此外，开发了一种定制的内核，优化了1.58位操作，实现了模型存储减少7.7倍，推理内存减少5.1倍，并改善了推理延迟。在GenEval和T2I Compbench基准测试中的广泛评估表明，1.58-bit FLUX在保持生成质量的同时显著提高了计算效率。

Sparsh

Sparsh是一系列通过自监督算法（如MAE、DINO和JEPA）训练的通用触觉表示。它能够为DIGIT、Gelsight'17和Gelsight Mini生成有用的表示，并在TacBench提出的下游任务中大幅度超越端到端模型，同时能够为新下游任务的数据高效训练提供支持。Sparsh项目包含PyTorch实现、预训练模型和与Sparsh一起发布的数据集。

Video-Foley

Video-Foley是一个创新的视频到声音生成系统，它通过使用均方根(RMS)作为时间事件条件，结合语义音色提示（音频或文本），实现高控制性和同步性的视频声音合成。该系统采用无需标注的自监督学习框架，包括Video2RMS和RMS2Sound两个阶段，结合了RMS离散化和RMS-ControlNet等新颖概念，与预训练的文本到音频模型相结合。Video-Foley在声音时间、强度、音色和细节的音视频对齐和控制性方面达到了最先进的性能。

HOI-Swap

HOI-Swap是一个基于扩散模型的视频编辑框架，专注于处理视频编辑中手与物体交互的复杂性。该模型通过自监督训练，能够在单帧中实现物体交换，并学习根据物体属性变化调整手的交互模式，如手的抓握方式。第二阶段将单帧编辑扩展到整个视频序列，通过运动对齐和视频生成，实现高质量的视频编辑。

MimicBrush

MimicBrush是一种创新的图像编辑模型，它允许用户通过指定源图像中的编辑区域和提供一张野外参考图像来实现零样本图像编辑。该模型能够自动捕捉两者之间的语义对应关系，并一次性完成编辑。MimicBrush的开发基于扩散先验，通过自监督学习捕捉不同图像间的语义关系，实验证明其在多种测试案例下的有效性及优越性。

DenseAV

DenseAV是一种新颖的双编码器定位架构，通过观看视频学习高分辨率、语义有意义的视听对齐特征。它能够无需明确定位监督即可发现单词的“意义”和声音的“位置”，并且自动发现并区分这两种关联类型。DenseAV的定位能力来自于一种新的多头特征聚合操作符，它直接比较密集的图像和音频表示进行对比学习。此外，DenseAV在语义分割任务上显著超越了先前的艺术水平，并且在使用参数少于一半的情况下，在跨模态检索上超越了ImageBind。

AniTalker

AniTalker是一个创新的框架，它能够从单一的肖像生成逼真的对话面部动画。它通过两个自监督学习策略增强了动作表现力，同时通过度量学习开发了一个身份编码器，有效减少了对标记数据的需求。AniTalker不仅能够创建详细且逼真的面部动作，还强调了其在现实世界应用中制作动态头像的潜力。

AV-HuBERT

AV-HuBERT是一个自监督表示学习框架，专门用于音视觉语音处理。它在LRS3音视觉语音基准测试中实现了最先进的唇读、自动语音识别（ASR）和音视觉语音识别结果。该框架通过掩蔽多模态聚类预测来学习音视觉语音表示，并且提供了鲁棒的自监督音视觉语音识别。

miqu-1-70b

Miqu 1-70b是一个开源大规模语言模型,采用了新颖的自我监督学习方法,可以处理各种自然语言任务。该模型参数量达170亿,支持多种prompt格式,可fine-tuning生成高质量的文本。其强大的理解和生成能力,使其可广泛应用于聊天机器人、文本摘要、问答系统等领域。

A Vision Check-up

A Vision Check Up

这篇论文系统评估了大型语言模型（LLMs）生成和识别逐渐复杂的视觉概念的能力，并展示了如何使用文本模型训练初步的视觉表示学习系统。虽然语言模型不能直接处理像素级的视觉信息，但使用代码表示图像进行研究。LLM 生成的图像虽然不像自然图像，但在图像生成和纠正方面的结果表明，准确建模字符串可以教会语言模型许多关于视觉世界的方面。此外，利用文本模型生成的图像进行自监督视觉表示学习的实验，突出了只使用 LLMs 就能训练能够对自然图像进行语义评估的视觉模型的潜力。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase