
Π0
π0是一個通用型機器人基礎模型,旨在通過實體化訓練讓AI系統獲得物理智能,能夠執行各種任務,就像大型語言模型和聊天機器人助手一樣。π0通過訓練在機器人上的實體經驗獲得物理智能,能夠直接輸出低級電機命令,控制多種不同的機器人,並可以針對特定應用場景進行微調。π0的開發代表了人工智能在物理世界應用方面的重要進步,它通過結合大規模多任務和多機器人數據收集以及新的網絡架構,提供了迄今為止最有能力、最靈巧的通用型機器人政策。
智能體
61.3K

GR 2
GR-2是一個先進的通用機器人代理,專為多樣化和可泛化的機器人操作而設計。它首先在大量互聯網視頻上進行預訓練,以捕捉世界的動態。這種大規模預訓練涉及3800萬視頻剪輯和超過500億個標記,使GR-2能夠在隨後的策略學習中跨廣泛範圍的機器人任務和環境進行泛化。隨後,GR-2針對視頻生成和動作預測進行了微調,使用機器人軌跡。它展示了令人印象深刻的多任務學習能力,在100多個任務中平均成功率達到97.7%。此外,GR-2在新的、以前未見過的場景中表現出色,包括新的背景、環境、對象和任務。值得注意的是,GR-2隨著模型大小的增加而高效擴展,突顯了其持續增長和應用的潛力。
AI模型
48.3K
優質新品

Gemma 2 9b It
Gemma-2-9b-it是由Google開發的一系列輕量級、最先進的開放模型,基於與Gemini模型相同的研究和技術構建而成。這些模型是文本到文本的解碼器僅大型語言模型,以英文提供,適用於問答、摘要和推理等多樣化文本生成任務。由於其相對較小的尺寸,可以在資源有限的環境中部署,如筆記本電腦、桌面或個人雲基礎設施,使先進的AI模型更加普及,促進創新。
AI模型
53.3K

Florence 2 Base Ft
Florence-2是由微軟開發的高級視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行諸如圖像描述、目標檢測和分割等任務。它利用FLD-5B數據集,包含54億個註釋,覆蓋1.26億張圖像,精通多任務學習。其序列到序列的架構使其在零樣本和微調設置中均表現出色,證明是一個有競爭力的視覺基礎模型。
AI圖像生成
67.9K

Florence 2 Large Ft
Florence-2-large-ft是由微軟開發的高級視覺基礎模型,使用基於提示的方法來處理廣泛的視覺和視覺-語言任務。該模型能夠通過簡單的文本提示執行諸如圖像描述、目標檢測和分割等任務。它利用FLD-5B數據集,包含54億個註釋,覆蓋1.26億張圖像,實現多任務學習。模型的序列到序列架構使其在零樣本和微調設置中均表現出色,證明其為有競爭力的視覺基礎模型。
AI圖像生成
75.6K

Florence 2 Base
Florence-2是由微軟開發的高級視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示,執行如描述、目標檢測和分割等任務。它利用包含54億個註釋的5.4億張圖像的FLD-5B數據集,精通多任務學習。模型的序列到序列架構使其在零樣本和微調設置中都表現出色,證明其為有競爭力的視覺基礎模型。
AI圖像生成
60.7K

Florence 2 Large
Florence-2-large是由微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺-語言任務。該模型能夠解釋簡單的文本提示來執行如圖像描述、目標檢測和分割等任務。它利用包含54億註釋的5.4億圖像的FLD-5B數據集,精通多任務學習。其序列到序列的架構使其在零樣本和微調設置中均表現出色,證明是一個有競爭力的視覺基礎模型。
AI圖像生成
58.8K
優質新品

Florence 2
Florence-2是一個新型的視覺基礎模型,它通過統一的、基於提示的表示方式,能夠處理多種計算機視覺和視覺-語言任務。它設計為接受文本提示作為任務指令,並以文本形式生成期望的結果,無論是圖像描述、目標檢測、定位還是分割。這種多任務學習設置需要大規模、高質量的註釋數據。為此,我們共同開發了FLD-5B,它包含了54億個綜合視覺註釋,涵蓋1.26億張圖像,使用了自動化圖像註釋和模型細化的迭代策略。我們採用了序列到序列的結構來訓練Florence-2,以執行多樣化和全面的視覺任務。廣泛的評估表明,Florence-2是一個強大的視覺基礎模型競爭者,具有前所未有的零樣本和微調能力。
AI圖像生成
59.1K
優質新品

Streamspeech
StreamSpeech是一款基於多任務學習的即時語音到語音翻譯模型。它通過統一框架同時學習翻譯和同步策略,有效識別流式語音輸入中的翻譯時機,實現高質量的即時通信體驗。該模型在CVSS基準測試中取得了領先的性能,並能提供低延遲的中間結果,如ASR或翻譯結果。
AI翻譯
95.2K
優質新品

Pile T5
Pile-T5是EleutherAI推出的一款自然語言處理模型,它在原有的T5模型基礎上,採用了Pile數據集和LLAMA分詞器進行訓練,以改善對代碼任務的理解能力。該模型經過了2萬億個token的訓練,是原T5模型訓練量的兩倍。Pile-T5在多項下游任務中表現出色,尤其是在代碼相關任務上。此外,EleutherAI還提供了中間檢查點,以便研究人員研究模型隨時間的演變。
模型訓練與部署
56.9K

VSP LLM
VSP-LLM是一個結合視覺語音處理(Visual Speech Processing)與大型語言模型(LLMs)的框架,旨在通過LLMs的強大能力最大化上下文建模能力。VSP-LLM設計用於執行視覺語音識別和翻譯的多任務,通過自監督視覺語音模型將輸入視頻映射到LLM的輸入潛在空間。該框架通過提出一種新穎的去重方法和低秩適配器(LoRA),可以高效地進行訓練。
AI模型
176.4K

Internlm2
「書生·浦語2.0」InternLM2是一個面向中文和英文的大型多語言預訓練語言模型。它具有語言理解、自然語言生成、多模式推理、代碼理解等強大的能力。模型採用Transformer架構並進行海量數據的預訓練,在長文本理解、對話、數學運算等多個方向上都達到了業界領先水平。該系列模型包含多種規模,用戶可以選擇合適的模型進行下游任務微調或構建聊天機器人等應用。
AI模型
314.6K

Emu Edit
Emu Edit是一款多任務圖像編輯模型,通過識別和生成任務完成精準圖像編輯,並在此領域內取得了最新的技術突破。Emu Edit的架構針對多任務學習進行了優化,並在眾多任務上進行訓練,包括基於區域的編輯、自由形式的編輯以及檢測和分割等計算機視覺任務。除此之外,為了更有效地處理這多種任務,我們引入了學習到的任務嵌入概念,用於指導生成過程以正確執行編輯指令。我們的模型經過多任務訓練和使用學習到的任務嵌入都能顯著提升準確執行編輯指令的能力。
Emu Edit還支持對未見任務的快速適應,通過任務倒轉實現少樣本學習。在這個過程中,我們保持模型權重不變,僅更新任務嵌入來適應新任務。我們的實驗證明,Emu Edit能夠迅速適應新任務,如超分辨率、輪廓檢測等。這使得在標註樣本有限或計算預算有限的情況下,使用Emu Edit進行任務倒轉特別有優勢。
為了支持對基於指令的圖像編輯模型的嚴格且有根據的評估,我們還收集並公開發布了一個新的基準數據集,其中包含七種不同的圖像編輯任務:背景修改(background)、綜合圖像變化(global)、風格修改(style)、對象移除(remove)、對象添加(add)、局部修改(local)以及顏色/紋理修改(texture)。此外,為了與Emu Edit進行正確比較,我們還分享了Emu Edit在數據集上的生成結果。
Emu Edit 2023 Meta保留所有版權
AI圖像編輯
119.5K
精選AI產品推薦
中文精選

騰訊混元圖像 2.0
騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型,顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構,使得圖像生成速度可達到毫秒級,避免了傳統生成的等待時間。同時,模型通過強化學習算法與人類美學知識的結合,提升了圖像的真實感和細節表現,適合設計師、創作者等專業用戶使用。
圖片生成
91.4K
國外精選

Lovart
Lovart 是一款革命性的 AI 設計代理,能夠將創意提示轉化為藝術作品,支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程,節省時間並提升創意靈感。Lovart 當前處於測試階段,用戶可加入等候名單,隨時體驗設計的樂趣。
AI設計工具
73.1K

Fastvlm
FastVLM 是一種高效的視覺編碼模型,專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器,減少了高分辨率圖像的編碼時間和輸出的 token 數量,使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力,適用於各種應用場景,尤其在需要快速響應的移動設備上表現優異。
AI模型
56.3K

Keysync
KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題,同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果,適用於自動配音等實際應用場景。
視頻編輯
54.9K

Manus
Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品,能夠直接交付完整的任務成果,而不僅僅是提供建議或答案。它採用 Multiple Agent 架構,運行在獨立虛擬機中,能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現,展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’,幫助用戶高效完成各種複雜任務。
個人助理
1.5M

Trae國內版
Trae是一款專為中文開發場景設計的AI原生IDE,將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能,顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白,滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具,旨在為專業開發者提供強大的技術支持,目前尚未明確公開價格,但預計會採用付費模式以匹配其高端定位。
開發與工具
145.5K
國外精選

Pika
Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。
視頻生成
18.7M
中文精選

Liblibai
LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。
AI模型
8.0M