计算机视觉

# 计算机视觉

CameraBench

CameraBench 是一个用于分析视频中相机运动的模型，旨在通过视频理解相机的运动模式。它的主要优点在于利用生成性视觉语言模型进行相机运动的原理分类和视频文本检索。通过与传统的结构从运动 (SfM) 和实时定位与*构建 (SLAM) 方法进行比较，该模型在捕捉场景语义方面显示出了显著的优势。该模型已开源，适合研究人员和开发者使用，且后续将推出更多改进版本。

Describe Anything

Describe Anything

Describe Anything 模型（DAM）能够处理图像或视频的特定区域，并生成详细描述。它的主要优点在于可以通过简单的标记（点、框、涂鸦或掩码）来生成高质量的本地化描述，极大地提升了计算机视觉领域的图像理解能力。该模型由 NVIDIA 和多所大学联合开发，适合用于研究、开发和实际应用中。

EasyControl

EasyControl 是一个为 Diffusion Transformer（扩散变换器）提供高效灵活控制的框架，旨在解决当前 DiT 生态系统中存在的效率瓶颈和模型适应性不足等问题。其主要优点包括：支持多种条件组合、提高生成灵活性和推理效率。该产品是基于最新研究成果开发的，适合在图像生成、风格转换等领域使用。

LHM

LHM（大规模可动画人类重建模型）利用多模态变压器架构进行高保真 3D 头像重建，支持从单张图像生成可动画的 3D 人类形象。该模型能够详细保留服装几何和纹理，尤其是在面部身份和细节恢复方面表现优异，适合对 3D 重建精度有较高要求的应用场景。

Thera

Thera 是一种先进的超分辨率技术，能够在不同尺度下生成高质量图像。其主要优点在于内置物理观察模型，有效避免了混叠现象。该技术由 ETH Zurich 的研究团队开发，适用于图像增强和计算机视觉领域，尤其在遥感和摄影测量中具有广泛应用。

MIDI

MIDI是一种创新的图像到3D场景生成技术，它利用多实例扩散模型，能够从单张图像中直接生成具有准确空间关系的多个3D实例。该技术的核心在于其多实例注意力机制，能够有效捕捉物体间的交互和空间一致性，无需复杂的多步骤处理。MIDI在图像到场景生成领域表现出色，适用于合成数据、真实场景数据以及由文本到图像扩散模型生成的风格化场景图像。其主要优点包括高效性、高保真度和强大的泛化能力。

GaussianCity

GaussianCity是一个专注于高效生成无边界3D城市的框架，基于3D高斯绘制技术。该技术通过紧凑的3D场景表示和空间感知的高斯属性解码器，解决了传统方法在生成大规模城市场景时面临的内存和计算瓶颈。其主要优点是能够在单次前向传递中快速生成大规模3D城市，显著优于现有技术。该产品由南洋理工大学S-Lab团队开发，相关论文发表于CVPR 2025，代码和模型已开源，适用于需要高效生成3D城市环境的研究人员和开发者。

MLGym

MLGym是由Meta的GenAI团队和UCSB NLP团队开发的一个开源框架和基准，用于训练和评估AI研究代理。它通过提供多样化的AI研究任务，推动强化学习算法的发展，帮助研究人员在真实世界的研究场景中训练和评估模型。该框架支持多种任务，包括计算机视觉、自然语言处理和强化学习等领域，旨在为AI研究提供一个标准化的测试平台。

模型训练与部署

Pippo

Pippo 是由 Meta Reality Labs 和多所高校合作开发的生成模型，能够从单张普通照片生成高分辨率的多人视角视频。该技术的核心优势在于无需额外输入（如参数化模型或相机参数），即可生成高质量的 1K 分辨率视频。它基于多视角扩散变换器架构，具有广泛的应用前景，如虚拟现实、影视制作等。Pippo 的代码已开源，但不包含预训练权重，用户需要自行训练模型。

VideoWorld

VideoWorld是一个专注于从纯视觉输入（无标签视频）中学习复杂知识的深度生成模型。它通过自回归视频生成技术，探索如何仅通过视觉信息学习任务规则、推理和规划能力。该模型的核心优势在于其创新的潜在动态模型（LDM），能够高效地表示多步视觉变化，从而显著提升学习效率和知识获取能力。VideoWorld在视频围棋和机器人控制任务中表现出色，展示了其强大的泛化能力和对复杂任务的学习能力。该模型的研究背景源于对生物体通过视觉而非语言学习知识的模仿，旨在为人工智能的知识获取开辟新的途径。

Video Depth Anything

Video Depth Anything

Video Depth Anything 是一个基于深度学习的视频深度估计模型，能够为超长视频提供高质量、时间一致的深度估计。该技术基于 Depth Anything V2 开发，具有强大的泛化能力和稳定性。其主要优点包括对任意长度视频的深度估计能力、时间一致性以及对开放世界视频的良好适应性。该模型由字节跳动的研究团队开发，旨在解决长视频深度估计中的挑战，如时间一致性问题和复杂场景的适应性问题。目前，该模型的代码和演示已公开，供研究人员和开发者使用。

ViTPose

ViTPose是一系列基于Transformer架构的人体姿态估计模型。它利用Transformer的强大特征提取能力，为人体姿态估计任务提供了简单而有效的基线。ViTPose模型在多个数据集上表现出色，具有较高的准确性和效率。该模型由悉尼大学社区维护和更新，提供了多种不同规模的版本，以满足不同应用场景的需求。在Hugging Face平台上，ViTPose模型以开源的形式供用户使用，用户可以方便地下载和部署这些模型，进行人体姿态估计相关的研究和应用开发。

TryOffAnyone

TryOffAnyone是一个用于从穿着人身上生成平铺布料的深度学习模型。该模型能够将穿着衣物的人的图片转换成布料平铺图，这对于服装设计、虚拟试衣等领域具有重要意义。它通过深度学习技术，实现了高度逼真的布料模拟，使得用户可以更直观地预览衣物的穿着效果。该模型的主要优点包括逼真的布料模拟效果和较高的自动化程度，可以减少实际试衣过程中的时间和成本。

FlagAI

FlagAI是由北京智源人工智能研究院推出的一站式、高质量开源项目，集成了全球各种主流大模型算法技术以及多种大模型并行处理和训练加速技术。它支持高效训练和微调，旨在降低大模型开发和应用的门槛，提高开发效率。FlagAI涵盖了多个领域明星模型，如语言大模型OPT、T5，视觉大模型ViT、Swin Transformer，多模态大模型CLIP等。智源研究院也持续将“悟道2.0”“悟道3.0”大模型项目成果开源至FlagAI，目前该项目已经加入Linux基金会，吸引全球科研力量共同创新、共同贡献。

模型训练与部署

video-analyzer

video-analyzer是一个视频分析工具，它结合了Llama的11B视觉模型和OpenAI的Whisper模型，通过提取关键帧、将它们输入视觉模型以获取细节，并结合每个帧的细节和可用的转录内容来描述视频中发生的事情。这个工具代表了计算机视觉、音频转录和自然语言处理的结合，能够生成视频内容的详细描述。它的主要优点包括完全本地运行无需云服务或API密钥、智能提取视频关键帧、使用OpenAI的Whisper进行高质量音频转录、使用Ollama和Llama3.2 11B视觉模型进行帧分析，以及生成自然语言描述的视频内容。

MegaSaM

MegaSaM是一个系统，它允许从动态场景的单目视频中准确、快速、稳健地估计相机参数和深度图。该系统突破了传统结构从运动和单目SLAM技术的局限，这些技术通常假设输入视频主要包含静态场景和大量视差。MegaSaM通过深度视觉SLAM框架的精心修改，能够扩展到真实世界中复杂动态场景的视频，包括具有未知视场和不受限制相机路径的视频。该技术在合成和真实视频上的广泛实验表明，与先前和并行工作相比，MegaSaM在相机姿态和深度估计方面更为准确和稳健，运行时间更快或相当。

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin Nano Super Developer Kit

NVIDIA Jetson Orin Nano Super Developer Kit是一款紧凑型生成型AI超级计算机，提供了更高的性能和更低的价格。它支持从商业AI开发者到业余爱好者和学生的广泛用户群体，提供了1.7倍的生成型AI推理性能提升，67 INT8 TOPS的性能提升，以及102GB/s的内存带宽提升。这款产品是开发基于检索增强生成的LLM聊天机器人、构建视觉AI代理或部署基于AI的机器人的理想选择。

开发与工具

Diffusion-Vas

这是一个由卡内基梅隆大学提出的视频非可见物体分割和内容补全的模型。该模型通过条件生成任务的方式，利用视频生成模型的基础知识，对视频中的可见物体序列进行处理，以生成包括可见和不可见部分的物体掩码和RGB内容。该技术的主要优点包括能够处理高度遮挡的情况，并且能够对变形物体进行有效的处理。此外，该模型在多个数据集上的表现均优于现有的先进方法，特别是在物体被遮挡区域的非可见分割上，性能提升高达13%。

StableAnimator

StableAnimator是首个端到端身份保留的视频扩散框架，能够在不进行后处理的情况下合成高质量视频。该技术通过参考图像和一系列姿势进行条件合成，确保了身份一致性。其主要优点在于无需依赖第三方工具，适合需要高质量人像动画的用户。

CHOIS

Controllable Human-Object Interaction Synthesis (CHOIS) 是一种先进的技术，它能够根据语言描述、初始物体和人类状态以及稀疏物体路径点来同时生成物体运动和人类运动。这项技术对于模拟真实的人类行为至关重要，尤其在需要精确手-物体接触和由地面支撑的适当接触的场景中。CHOIS通过引入物体几何损失作为额外的监督信息，以及在训练扩散模型的采样过程中设计指导项来强制执行接触约束，从而提高了生成物体运动与输入物体路径点之间的匹配度，并确保了交互的真实性。

PSHuman

PSHuman是一个创新的框架，它利用多视图扩散模型和显式重构技术，从单张图片中重建出逼真的3D人体模型。这项技术的重要性在于它能够处理复杂的自遮挡问题，并且在生成的面部细节上避免了几何失真。PSHuman通过跨尺度扩散模型联合建模全局全身形状和局部面部特征，实现了细节丰富且保持身份特征的新视角生成。此外，PSHuman还通过SMPL-X等参数化模型提供的身体先验，增强了不同人体姿态下的跨视图身体形状一致性。PSHuman的主要优点包括几何细节丰富、纹理保真度高以及泛化能力强。

text-to-pose

text-to-pose是一个研究项目，旨在通过文本描述生成人物姿态，并利用这些姿态生成图像。该技术结合了自然语言处理和计算机视觉，通过改进扩散模型的控制和质量，实现了从文本到图像的生成。项目背景基于NeurIPS 2024 Workshop上发表的论文，具有创新性和前沿性。该技术的主要优点包括提高图像生成的准确性和可控性，以及在艺术创作和虚拟现实等领域的应用潜力。

Phantomy AI

Phantomy AI是一款利用计算机视觉软件，通过屏幕对象检测和手势识别技术，增强用户交互和演示的先进工具。它无需额外硬件，即可通过直观的手势控制屏幕，为用户提供了一种无需接触的交互方式。Phantomy AI的主要优点包括高精准的屏幕对象检测、基于手势的控制、流畅的幻灯片导航、增强的用户体验和广泛的应用场景。产品背景信息显示，Phantomy AI由AI工程师Almajd Ismail开发，他拥有软件开发和全栈开发的背景。关于价格和定位，页面上没有提供具体信息。

计算机视觉

DINO-X

DINO-X是一个以物体感知为核心的视觉大模型，具备开集检测、智能问答、人体姿态、物体计数、服装换色等核心能力。它不仅能识别已知目标，还能灵活应对未知类别，凭借先进算法，模型具备出色的适应性和鲁棒性，能够精准应对各种不可预见的挑战，提供针对复杂视觉数据的全方位解决方案。DINO-X的应用场景广泛，包括机器人、农业、零售行业、安防监控、交通管理、制造业、智能家居、物流与仓储、娱乐媒体等，是DeepDataSpace公司在计算机视觉技术领域的旗舰产品。

Data Annotation Platform

Data Annotation Platform

Data Annotation Platform是一个端到端的数据标注平台，允许用户上传计算机视觉数据，选择标注类型，并下载结果，无需任何最低承诺。该平台支持多种数据标注类型，包括矩形、多边形、3D立方体、关键点、语义分割、实例分割和泛视觉分割等，服务于AI项目经理、机器学习工程师、AI初创公司和研究团队，解决他们在数据标注过程中遇到的挑战。平台以其无缝执行、成本计算器、指令生成器、免费任务、API接入和团队访问等特点，为用户提供了一个简单、高效、成本效益高的数据标注解决方案。

计算机视觉

AutoSeg-SAM2

AutoSeg-SAM2是一个基于Segment-Anything-2（SAM2）和Segment-Anything-1（SAM1）的自动全视频分割工具，它能够对视频中的每个对象进行追踪，并检测可能的新对象。该工具的重要性在于它能够提供静态分割结果，并利用SAM2对这些结果进行追踪，这对于视频内容分析、对象识别和视频编辑等领域具有重要意义。产品背景信息显示，它是由zrporz开发的，并且是基于Facebook Research的SAM2和zrporz自己的SAM1。价格方面，由于这是一个开源项目，因此它是免费的。

TurboLens

TurboLens是一个集OCR、计算机视觉和生成式AI于一体的全功能平台，它能够自动化地从非结构化图像中快速生成洞见，简化工作流程。产品背景信息显示，TurboLens旨在通过其创新的OCR技术和AI驱动的翻译及分析套件，从印刷和手写文档中提取定制化的洞见。此外，TurboLens还提供了数学公式和表格识别功能，将图像转换为可操作的数据，并将数学公式翻译成LaTeX格式，表格转换为Excel格式。产品价格方面，TurboLens提供免费和付费两种计划，满足不同用户的需求。

计算机视觉

LLaMA-Mesh

LLaMA-Mesh是一项将大型语言模型（LLMs）预训练在文本上扩展到生成3D网格的能力的技术。这项技术利用了LLMs中已经嵌入的空间知识，并实现了对话式3D生成和网格理解。LLaMA-Mesh的主要优势在于它能够将3D网格的顶点坐标和面定义表示为纯文本，允许与LLMs直接集成而无需扩展词汇表。该技术的主要优点包括能够从文本提示生成3D网格、按需产生交错的文本和3D网格输出，以及理解和解释3D网格。LLaMA-Mesh在保持强大的文本生成性能的同时，实现了与从头开始训练的模型相当的网格生成质量。

CountAnything

CountAnything是一个前沿应用，利用先进的计算机视觉算法实现自动、准确的物体计数。它适用于多种场景，包括工业、养殖业、建筑、医药和零售等。该产品的主要优点在于其高精度和高效率，能够显著提升计数工作的准确性和速度。产品背景信息显示，CountAnything目前已开放给非中国大陆地区用户使用，并且提供免费试用。

NVIDIA AI Blueprint

NVIDIA AI Blueprint

NVIDIA AI Blueprint for Video Search and Summarization是一个基于NVIDIA NIM微服务和生成式AI模型的参考工作流程，用于构建能够理解自然语言提示并执行视觉问题回答的视觉AI代理。这些代理可以部署在工厂、仓库、零售店、机场、交通路口等多种场景中，帮助运营团队从自然交互中生成的丰富洞察中做出更好的决策。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase