物理模擬

# 物理模擬

Wan 2.1 AI

Wan 2.1 AI 是由阿里巴巴開發的開源大規模視頻生成 AI 模型。它支持文本到視頻（T2V）和圖像到視頻（I2V）的生成，能夠將簡單的輸入轉化為高質量的視頻內容。該模型在視頻生成領域具有重要意義，能夠極大地簡化視頻創作流程，降低創作門檻，提高創作效率，為用戶提供豐富多樣的視頻創作可能性。其主要優點包括高質量的視頻生成效果、複雜動作的流暢展現、逼真的物理模擬以及豐富的藝術風格等。目前該產品已完全開源，用戶可以免費使用其基礎功能，對於有視頻創作需求但缺乏專業技能或設備的個人和企業來說，具有很高的實用價值。

Genie 2

Genie 2是由Google DeepMind開發的一款大規模基礎世界模型，能夠基於單一提示圖像生成無盡的、可操作的、可玩的3D環境，用於訓練和評估具身智能體。Genie 2代表了深度學習和人工智能領域的一大進步，它通過模擬虛擬世界及其行動後果，展示了在大規模生成模型中的多種緊急能力，如物體交互、複雜角色動畫、物理模擬等。Genie 2的研究推動了新的創意工作流程，用於原型化交互體驗，併為未來更通用的AI系統和智能體的研究提供了新的可能性。

Oasis

Oasis是由Decart AI開發的首個可玩、即時、開放世界的AI模型，它是一個互動視頻遊戲，由Transformer端到端生成，基於逐幀生成。Oasis能夠接收用戶鍵盤和鼠標輸入，即時生成遊戲玩法，內部模擬物理、遊戲規則和圖形。該模型通過直接觀察遊戲玩法學習，允許用戶移動、跳躍、拾取物品、破壞方塊等。Oasis被視為研究更復雜交互世界的基礎模型的第一步，未來可能取代傳統的遊戲引擎。Oasis的實現需要模型架構的改進和模型推理技術的突破，以實現用戶與模型的即時交互。Decart AI採用了最新的擴散訓練和Transformer模型方法，並結合了大型語言模型（LLMs）來訓練一個自迴歸模型，該模型可以根據用戶即時動作生成視頻。此外，Decart AI還開發了專有的推理框架，以提供NVIDIA H100 Tensor Core GPU的峰值利用率，並支持Etched即將推出的Sohu芯片。

PhysGen

PhysGen是一個創新的圖像到視頻生成方法，它能夠將單張圖片和輸入條件（例如，對圖片中物體施加的力和扭矩）轉換成現實、物理上合理且時間上連貫的視頻。該技術通過將基於模型的物理模擬與數據驅動的視頻生成過程相結合，實現了在圖像空間中的動態模擬。PhysGen的主要優點包括生成的視頻在物理和外觀上都顯得逼真，並且可以精確控制，通過定量比較和全面的用戶研究，展示了其在現有數據驅動的圖像到視頻生成工作中的優越性。

ProtoMotions

ProtoMotions是一個致力於創建交互式物理模擬虛擬代理的項目。它支持IsaacGym和IsaacSim，並且基於Hydra和OmegaConfig構建，使得配置組合變得簡單。這個項目為研究者和開發者提供了一個平臺，用於開發和測試基於物理的角色動畫技術。它不僅能夠用於學術研究，還能在遊戲、電影和虛擬現實等領域中應用。

PhysDreamer

PhysDreamer是一個基於物理的方法，它通過利用視頻生成模型學習到的對象動力學先驗，為靜態3D對象賦予交互式動力學。這種方法允許在缺乏真實物體物理屬性數據的情況下，模擬出對新穎交互（如外力或代理操作）的真實反應。PhysDreamer通過用戶研究評估合成交互的真實性，推動了更吸引人和真實的虛擬體驗的發展。

Video2Game

Video2Game是一項技術，可以將單一視頻轉換成具有即時、互動、真實感和瀏覽器兼容性的高質量虛擬環境。它通過構建大規模的NeRF模型來實現高質量的表面幾何形狀，然後將該模型轉換為帶有對應剛體動力學的網格表示，以支持交互。使用UV映射的神經紋理，既能表達豐富，又與遊戲引擎兼容。最終得到的是一個虛擬環境，虛擬角色可以與之互動，響應用戶控制，並能從新的相機視角即時提供高分辨率渲染。

insactor

InsActor是一個基於物理模擬的角色控制系統。它可以通過自然語言指令驅動角色在複雜環境中完成各種交互任務。該系統利用條件與對抗擴散模型進行多級規劃,並與低級控制器相結合,實現穩定、魯棒的控制。具有控制流暢、交互自然的優勢,適用於創意內容生成、互動娛樂、人機交互等應用場景。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase