NVIDIA

# NVIDIA

parakeet-tdt-0.6b-v2

Parakeet Tdt 0.6b V2

parakeet-tdt-0.6b-v2 是一個 600 百萬參數的自動語音識別（ASR）模型，旨在實現高質量的英語轉錄，具有準確的時間戳預測和自動標點符號、大小寫支持。該模型基於 FastConformer 架構，能夠高效地處理長達 24 分鐘的音頻片段，適合開發者、研究人員和各行業應用。

NVIDIA Project DIGITS

NVIDIA Project DIGITS

NVIDIA Project DIGITS 是一款基於 NVIDIA GB10 Grace Blackwell 超級芯片的桌面超級計算機，旨在為 AI 開發者提供強大的 AI 性能。它能夠在功耗高效、緊湊的形態中提供每秒一千萬億次的 AI 性能。該產品預裝了 NVIDIA AI 軟件棧，並配備了 128GB 的內存，使開發者能夠在本地原型設計、微調和推理高達 2000 億參數的大型 AI 模型，並無縫部署到數據中心或雲中。Project DIGITS 的推出標誌著 NVIDIA 在推動 AI 開發和創新方面的又一重要里程碑，為開發者提供了一個強大的工具，以加速 AI 模型的開發和部署。

Sana_600M_512px

Sana 600M 512px

Sana是一個由NVIDIA開發的文本到圖像的生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力，可以在筆記本電腦GPU上部署，代表了圖像生成技術的一個重要進步。該模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，能夠根據文本提示生成和修改圖像。Sana的開源代碼可在GitHub上找到，其研究和應用前景廣闊，尤其在藝術創作、教育工具和模型研究等方面。

Sana_600M_1024px

Sana 600M 1024px

Sana是一個由NVIDIA開發的文本到圖像生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度和強大的文本圖像對齊能力，使得在筆記本電腦GPU上也能部署。它是一個基於線性擴散變換器(text-to-image generative model)的模型，擁有1648M參數，專門用於生成1024px基礎的多尺度高寬圖像。Sana模型的主要優點包括高分辨率圖像生成、快速的合成速度以及強大的文本圖像對齊能力。Sana模型的背景信息顯示，它是基於開源代碼開發的，可以在GitHub上找到源代碼，同時它也遵循特定的許可證（CC BY-NC-SA 4.0 License）。

Sana_1600M_1024px_MultiLing

Sana 1600M 1024px MultiLing

Sana是一個由NVIDIA開發的文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。該模型以驚人的速度合成高分辨率、高質量的圖像，並保持強大的文本-圖像對齊能力，可部署在筆記本電腦GPU上。Sana模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，支持Emoji、中文和英文以及混合提示。

Sana_1600M_512px_MultiLing

Sana 1600M 512px MultiLing

Sana是一個由NVIDIA開發的文本到圖像的框架，能夠高效生成高達4096×4096分辨率的圖像。Sana能夠以極快的速度合成高分辨率、高質量的圖像，並且具有強烈的文本-圖像對齊能力，可以在筆記本電腦GPU上部署。該模型基於線性擴散變換器，使用固定預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，支持英文、中文和表情符號混合提示。Sana的主要優點包括高效率、高分辨率圖像生成能力以及多語言支持。

Sana_1600M_1024px

Sana 1600M 1024px

Sana是一個由NVIDIA開發的文本到圖像生成框架，能夠高效生成高達4096×4096分辨率的高清晰度、高文本-圖像一致性的圖像，並且速度極快，可以在筆記本電腦GPU上部署。Sana模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器。該技術的重要性在於其能夠快速生成高質量的圖像，對於藝術創作、設計和其他創意領域具有革命性的影響。Sana模型遵循CC BY-NC-SA 4.0許可協議，源代碼可在GitHub上找到。

Sana_1600M_512px

Sana 1600M 512px

Sana是一個由NVIDIA開發的文本到圖像的生成框架，能夠高效生成高達4096×4096分辨率的圖像。Sana以其快速的速度、強大的文本圖像對齊能力以及可在筆記本電腦GPU上部署的特性而著稱。該模型基於線性擴散變換器，使用預訓練的文本編碼器和空間壓縮的潛在特徵編碼器，代表了文本到圖像生成技術的最新進展。Sana的主要優點包括高分辨率圖像生成、快速合成、筆記本電腦GPU上的可部署性，以及開源的代碼，使其在研究和實際應用中具有重要價值。

Sana-1.6B

Sana-1.6B是一個高效的高分辨率圖像合成模型，它基於線性擴散變換器技術，能夠生成高質量的圖像。該模型由NVIDIA實驗室開發，使用DC-AE技術，具有32倍的潛在空間，能夠在多個GPU上運行，提供強大的圖像生成能力。Sana-1.6B以其高效的圖像合成能力和高質量的輸出結果而聞名，是圖像合成領域的重要技術。

Star-Attention是NVIDIA提出的一種新型塊稀疏注意力機制，旨在提高基於Transformer的大型語言模型（LLM）在長序列上的推理效率。該技術通過兩個階段的操作顯著提高了推理速度，同時保持了95-100%的準確率。它與大多數基於Transformer的LLM兼容，無需額外訓練或微調即可直接使用，並且可以與其他優化方法如Flash Attention和KV緩存壓縮技術結合使用，進一步提升性能。

模型訓練與部署

Fugatto

Fugatto（全稱Foundational Generative Audio Transformer Opus 1）是由NVIDIA推出的一款生成式AI聲音模型，能夠通過文本和音頻輸入生成或轉換任何描述的音樂、聲音和語音組合。這款模型不僅能夠根據文本提示創作音樂片段，還能從現有歌曲中添加或移除樂器，改變語音的口音或情感，甚至讓人們創造出前所未有的聲音。Fugatto的推出標誌著音頻合成和轉換領域的一大進步，它不僅能夠理解並生成聲音，還具備多種音頻生成和轉換任務的能力，展現出了從其訓練能力中湧現的新屬性。

Llama-3.1-Nemotron-70B-Instruct

Llama 3.1 Nemotron 70B Instruct

Llama-3.1-Nemotron-70B-Instruct是NVIDIA定製的大型語言模型，專注於提升大型語言模型（LLM）生成回答的幫助性。該模型在多個自動對齊基準測試中表現優異，例如Arena Hard、AlpacaEval 2 LC和GPT-4-Turbo MT-Bench。它通過使用RLHF（特別是REINFORCE算法）、Llama-3.1-Nemotron-70B-Reward和HelpSteer2-Preference提示在Llama-3.1-70B-Instruct模型上進行訓練。此模型不僅展示了NVIDIA在提升通用領域指令遵循幫助性方面的技術，還提供了與HuggingFace Transformers代碼庫兼容的模型轉換格式，並可通過NVIDIA的build平臺進行免費託管推理。

Llama-3.1-Nemotron-51B

Llama 3.1 Nemotron 51B

Llama-3.1-Nemotron-51B是由NVIDIA基於Meta的Llama-3.1-70B開發的新型語言模型，通過神經架構搜索（NAS）技術優化，實現了高準確率和高效率。該模型能夠在單個NVIDIA H100 GPU上運行，顯著降低了內存佔用，減少了內存帶寬和計算量，同時保持了優秀的準確性。它代表了AI語言模型在準確性和效率之間取得的新平衡，為開發者和企業提供了成本可控的高性能AI解決方案。

NVIDIA App

NVIDIA App 是一款專為PC遊戲玩家和創作者設計的應用程序，它可以幫助用戶及時升級到最新的NVIDIA驅動程序和技術。通過統一的GPU控制中心，用戶可以優化遊戲和應用設置，利用遊戲內懸浮窗的強大錄像工具捕捉精彩時刻，並輕鬆發現最新的NVIDIA工具和軟件。

Llama3-70B-SteerLM-RM

Llama3 70B SteerLM RM

Llama3-70B-SteerLM-RM是一個70億參數的語言模型，用作屬性預測模型，一個多方面的獎勵模型，它在多個方面對模型響應進行評分，而不是傳統獎勵模型中的單一分數。該模型使用HelpSteer2數據集訓練，並通過NVIDIA NeMo-Aligner進行訓練，這是一個可擴展的工具包，用於高效和高效的模型對齊。

Nemotron-4-340B-Base

Nemotron 4 340B Base

Nemotron-4-340B-Base是由NVIDIA開發的大型語言模型，擁有3400億參數，支持4096個token的上下文長度，適用於生成合成數據，幫助研究人員和開發者構建自己的大型語言模型。模型經過9萬億token的預訓練，涵蓋50多種自然語言和40多種編程語言。NVIDIA開放模型許可允許商業使用和派生模型的創建與分發，不聲明對使用模型或派生模型生成的任何輸出擁有所有權。

NVIDIA RTX Remix

NVIDIA RTX Remix

NVIDIA RTX Remix 是一款由NVIDIA推出的開源模組創作工具包，它允許創作者和遊戲開發者利用NVIDIA RTX技術的強大功能來增強他們的遊戲和創作體驗。這項技術利用即時光線追蹤和AI驅動的圖形增強，為遊戲帶來逼真的視覺效果。RTX Remix不僅為創作者提供了一個強大的平臺，還通過開放的API和連接器，促進了與其他應用程序和服務的集成，從而推動了遊戲和創作領域的創新。

NVIDIA ACE

NVIDIA ACE提供了一套先進的生成式AI模型和微服務，易於部署且性能優越。這些AI模型基於商業安全、負責任許可的數據進行訓練，並通過微調和防護措施確保無論用戶輸入如何，都能提供準確、恰當、切題的結果。ACE支持靈活的部署選項，可以在雲端或NVIDIA RTX AI PC上部署和運行。此外，ACE還提供了數字人類工作流程，允許開發者將ACE NIMs集成到他們的產品、工具、服務或遊戲中，用於特定領域的AI工作流程，如NPC和客戶服務助手。NVIDIA還與Inworld AI合作，展示了將NVIDIA ACE集成到一個端到端NPC平臺中的示例，該平臺在Unreal Engine 5中提供了尖端的視覺效果。

Llama3-ChatQA-1.5-8B

Llama3 ChatQA 1.5 8B

Llama3-ChatQA-1.5-8B是一款由NVIDIA開發的高級對話問答和檢索增強生成(RAG)模型。該模型在ChatQA (1.0)的基礎上進行了改進，通過增加對話問答數據來增強其表格和算術計算能力。它有兩個變體：Llama3-ChatQA-1.5-8B和Llama3-ChatQA-1.5-70B，都是使用Megatron-LM進行訓練，然後轉換為Hugging Face格式。該模型在ChatRAG Bench的基準測試中表現出色，適用於需要複雜對話理解和生成的場景。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase