NVIDIA

# NVIDIA

parakeet-tdt-0.6b-v2

Parakeet Tdt 0.6b V2

parakeet-tdt-0.6b-v2 是一个 600 百万参数的自动语音识别（ASR）模型，旨在实现高质量的英语转录，具有准确的时间戳预测和自动标点符号、大小写支持。该模型基于 FastConformer 架构，能够高效地处理长达 24 分钟的音频片段，适合开发者、研究人员和各行业应用。

NVIDIA Project DIGITS

NVIDIA Project DIGITS

NVIDIA Project DIGITS 是一款基于 NVIDIA GB10 Grace Blackwell 超级芯片的桌面超级计算机，旨在为 AI 开发者提供强大的 AI 性能。它能够在功耗高效、紧凑的形态中提供每秒一千万亿次的 AI 性能。该产品预装了 NVIDIA AI 软件栈，并配备了 128GB 的内存，使开发者能够在本地原型设计、微调和推理高达 2000 亿参数的大型 AI 模型，并无缝部署到数据中心或云中。Project DIGITS 的推出标志着 NVIDIA 在推动 AI 开发和创新方面的又一重要里程碑，为开发者提供了一个强大的工具，以加速 AI 模型的开发和部署。

Sana_600M_512px

Sana 600M 512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，可以在笔记本电脑GPU上部署，代表了图像生成技术的一个重要进步。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，能够根据文本提示生成和修改图像。Sana的开源代码可在GitHub上找到，其研究和应用前景广阔，尤其在艺术创作、教育工具和模型研究等方面。

Sana_600M_1024px

Sana 600M 1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度和强大的文本图像对齐能力，使得在笔记本电脑GPU上也能部署。它是一个基于线性扩散变换器(text-to-image generative model)的模型，拥有1648M参数，专门用于生成1024px基础的多尺度高宽图像。Sana模型的主要优点包括高分辨率图像生成、快速的合成速度以及强大的文本图像对齐能力。Sana模型的背景信息显示，它是基于开源代码开发的，可以在GitHub上找到源代码，同时它也遵循特定的许可证（CC BY-NC-SA 4.0 License）。

Sana_1600M_1024px_MultiLing

Sana 1600M 1024px MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。该模型以惊人的速度合成高分辨率、高质量的图像，并保持强大的文本-图像对齐能力，可部署在笔记本电脑GPU上。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，支持Emoji、中文和英文以及混合提示。

Sana_1600M_512px_MultiLing

Sana 1600M 512px MultiLing

Sana是一个由NVIDIA开发的文本到图像的框架，能够高效生成高达4096×4096分辨率的图像。Sana能够以极快的速度合成高分辨率、高质量的图像，并且具有强烈的文本-图像对齐能力，可以在笔记本电脑GPU上部署。该模型基于线性扩散变换器，使用固定预训练的文本编码器和空间压缩的潜在特征编码器，支持英文、中文和表情符号混合提示。Sana的主要优点包括高效率、高分辨率图像生成能力以及多语言支持。

Sana_1600M_1024px

Sana 1600M 1024px

Sana是一个由NVIDIA开发的文本到图像生成框架，能够高效生成高达4096×4096分辨率的高清晰度、高文本-图像一致性的图像，并且速度极快，可以在笔记本电脑GPU上部署。Sana模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器。该技术的重要性在于其能够快速生成高质量的图像，对于艺术创作、设计和其他创意领域具有革命性的影响。Sana模型遵循CC BY-NC-SA 4.0许可协议，源代码可在GitHub上找到。

Sana_1600M_512px

Sana 1600M 512px

Sana是一个由NVIDIA开发的文本到图像的生成框架，能够高效生成高达4096×4096分辨率的图像。Sana以其快速的速度、强大的文本图像对齐能力以及可在笔记本电脑GPU上部署的特性而著称。该模型基于线性扩散变换器，使用预训练的文本编码器和空间压缩的潜在特征编码器，代表了文本到图像生成技术的最新进展。Sana的主要优点包括高分辨率图像生成、快速合成、笔记本电脑GPU上的可部署性，以及开源的代码，使其在研究和实际应用中具有重要价值。

Sana-1.6B

Sana-1.6B是一个高效的高分辨率图像合成模型，它基于线性扩散变换器技术，能够生成高质量的图像。该模型由NVIDIA实验室开发，使用DC-AE技术，具有32倍的潜在空间，能够在多个GPU上运行，提供强大的图像生成能力。Sana-1.6B以其高效的图像合成能力和高质量的输出结果而闻名，是图像合成领域的重要技术。

Star-Attention是NVIDIA提出的一种新型块稀疏注意力机制，旨在提高基于Transformer的大型语言模型（LLM）在长序列上的推理效率。该技术通过两个阶段的操作显著提高了推理速度，同时保持了95-100%的准确率。它与大多数基于Transformer的LLM兼容，无需额外训练或微调即可直接使用，并且可以与其他优化方法如Flash Attention和KV缓存压缩技术结合使用，进一步提升性能。

模型训练与部署

Fugatto

Fugatto（全称Foundational Generative Audio Transformer Opus 1）是由NVIDIA推出的一款生成式AI声音模型，能够通过文本和音频输入生成或转换任何描述的音乐、声音和语音组合。这款模型不仅能够根据文本提示创作音乐片段，还能从现有歌曲中添加或移除乐器，改变语音的口音或情感，甚至让人们创造出前所未有的声音。Fugatto的推出标志着音频合成和转换领域的一大进步，它不仅能够理解并生成声音，还具备多种音频生成和转换任务的能力，展现出了从其训练能力中涌现的新属性。

Llama-3.1-Nemotron-70B-Instruct

Llama 3.1 Nemotron 70B Instruct

Llama-3.1-Nemotron-70B-Instruct是NVIDIA定制的大型语言模型，专注于提升大型语言模型（LLM）生成回答的帮助性。该模型在多个自动对齐基准测试中表现优异，例如Arena Hard、AlpacaEval 2 LC和GPT-4-Turbo MT-Bench。它通过使用RLHF（特别是REINFORCE算法）、Llama-3.1-Nemotron-70B-Reward和HelpSteer2-Preference提示在Llama-3.1-70B-Instruct模型上进行训练。此模型不仅展示了NVIDIA在提升通用领域指令遵循帮助性方面的技术，还提供了与HuggingFace Transformers代码库兼容的模型转换格式，并可通过NVIDIA的build平台进行免费托管推理。

Llama-3.1-Nemotron-51B

Llama 3.1 Nemotron 51B

Llama-3.1-Nemotron-51B是由NVIDIA基于Meta的Llama-3.1-70B开发的新型语言模型，通过神经架构搜索（NAS）技术优化，实现了高准确率和高效率。该模型能够在单个NVIDIA H100 GPU上运行，显著降低了内存占用，减少了内存带宽和计算量，同时保持了优秀的准确性。它代表了AI语言模型在准确性和效率之间取得的新平衡，为开发者和企业提供了成本可控的高性能AI解决方案。

NVIDIA App

NVIDIA App 是一款专为PC游戏玩家和创作者设计的应用程序，它可以帮助用户及时升级到最新的NVIDIA驱动程序和技术。通过统一的GPU控制中心，用户可以优化游戏和应用设置，利用游戏内悬浮窗的强大录像工具捕捉精彩时刻，并轻松发现最新的NVIDIA工具和软件。

Llama3-70B-SteerLM-RM

Llama3 70B SteerLM RM

Llama3-70B-SteerLM-RM是一个70亿参数的语言模型，用作属性预测模型，一个多方面的奖励模型，它在多个方面对模型响应进行评分，而不是传统奖励模型中的单一分数。该模型使用HelpSteer2数据集训练，并通过NVIDIA NeMo-Aligner进行训练，这是一个可扩展的工具包，用于高效和高效的模型对齐。

Nemotron-4-340B-Base

Nemotron 4 340B Base

Nemotron-4-340B-Base是由NVIDIA开发的大型语言模型，拥有3400亿参数，支持4096个token的上下文长度，适用于生成合成数据，帮助研究人员和开发者构建自己的大型语言模型。模型经过9万亿token的预训练，涵盖50多种自然语言和40多种编程语言。NVIDIA开放模型许可允许商业使用和派生模型的创建与分发，不声明对使用模型或派生模型生成的任何输出拥有所有权。

NVIDIA RTX Remix

NVIDIA RTX Remix

NVIDIA RTX Remix 是一款由NVIDIA推出的开源模组创作工具包，它允许创作者和游戏开发者利用NVIDIA RTX技术的强大功能来增强他们的游戏和创作体验。这项技术利用实时光线追踪和AI驱动的图形增强，为游戏带来逼真的视觉效果。RTX Remix不仅为创作者提供了一个强大的平台，还通过开放的API和连接器，促进了与其他应用程序和服务的集成，从而推动了游戏和创作领域的创新。

NVIDIA ACE

NVIDIA ACE提供了一套先进的生成式AI模型和微服务，易于部署且性能优越。这些AI模型基于商业安全、负责任许可的数据进行训练，并通过微调和防护措施确保无论用户输入如何，都能提供准确、恰当、切题的结果。ACE支持灵活的部署选项，可以在云端或NVIDIA RTX AI PC上部署和运行。此外，ACE还提供了数字人类工作流程，允许开发者将ACE NIMs集成到他们的产品、工具、服务或游戏中，用于特定领域的AI工作流程，如NPC和客户服务助手。NVIDIA还与Inworld AI合作，展示了将NVIDIA ACE集成到一个端到端NPC平台中的示例，该平台在Unreal Engine 5中提供了尖端的视觉效果。

Llama3-ChatQA-1.5-8B

Llama3 ChatQA 1.5 8B

Llama3-ChatQA-1.5-8B是一款由NVIDIA开发的高级对话问答和检索增强生成(RAG)模型。该模型在ChatQA (1.0)的基础上进行了改进，通过增加对话问答数据来增强其表格和算术计算能力。它有两个变体：Llama3-ChatQA-1.5-8B和Llama3-ChatQA-1.5-70B，都是使用Megatron-LM进行训练，然后转换为Hugging Face格式。该模型在ChatRAG Bench的基准测试中表现出色，适用于需要复杂对话理解和生成的场景。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase