模型

# 模型

DeepSeek R1-0528

Deepseek R1 0528

DeepSeek R1-0528 是知名開源大模型平臺 DeepSeek 發佈的最新版本，具有高性能的自然語言處理和編程能力。它的發佈引起了廣泛關注，因其在編程任務中表現出色，能夠準確回答複雜問題。該模型支持多種應用場景，是開發者和 AI 研究者的重要工具。預計後續將發佈更詳細的模型信息和使用指南，增強其功能和應用廣度。

ModAstera

ModAstera提供一站式的醫療AI開發平臺，利用AI輔助數據標註和醫療AI工程代理加速研發進程，降低開發成本，並比競爭對手更快地推向市場。產品符合醫療健康行業的數字化轉型需求。

Windsurf Wave 9

Windsurf Wave 9

SWE-1 是windsurf_ai首個為整個軟件工程流程優化的模型家族，旨在加速軟件開發 99%。與傳統的僅能編寫代碼的模型相比，SWE-1 不僅能編寫代碼，還能處理終端操作、訪問其他知識和互聯網、測試產品和理解用戶反饋。SWE-1 系列包括 SWE-1、SWE-1-lite 和 SWE-1-mini 三種模型，旨在滿足不同用戶的需求。

DeepSeek-Prover-V2-671B

Deepseek Prover V2 671B

DeepSeek-Prover-V2-671B 是一個先進的人工智能模型，旨在提供強大的推理能力。它基於最新的技術，適用於多種應用場景。該模型是開源的，旨在促進人工智能技術的民主化與普及，降低技術壁壘，使更多開發者和研究者能夠利用 AI 技術進行創新。通過使用該模型，用戶可以提升他們的工作效率，推動各類項目的進展。

Kimi-Audio

Kimi-Audio 是一個先進的開源音頻基礎模型，旨在處理多種音頻處理任務，如語音識別和音頻對話。該模型在超過 1300 萬小時的多樣化音頻數據和文本數據上進行了大規模預訓練，具有強大的音頻推理和語言理解能力。它的主要優點包括優秀的性能和靈活性，適合研究人員和開發者進行音頻相關的研究與開發。

Wan2.1-FLF2V-14B

Wan2.1 FLF2V 14B

Wan2.1-FLF2V-14B 是一個開源的大規模視頻生成模型，旨在推動視頻生成領域的進步。該模型在多項基準測試中表現優異，支持消費者級 GPU，能夠高效生成 480P 和 720P 的視頻。它在文本到視頻、圖像到視頻等多個任務中表現出色，具有強大的視覺文本生成能力，適用於各種實際應用場景。

Quasar Alpha

openrouter 是一個創新的多模型聊天界面，允許用戶在瀏覽器中輕鬆與不同的語言模型進行交互。它通過簡單的界面使得聊天變得更加直觀和有趣，適合各種用戶需求，包括角色扮演、編程輔助等。該產品存儲數據在本地，確保用戶的隱私和數據安全。由於它是一個網頁應用，用戶無需安裝任何軟件，即可隨時隨地訪問，提升了使用的便捷性和靈活性。

聊天機器人

EasyControl Ghibli

Easycontrol Ghibli

EasyControl Ghibli 是一個新發布的模型，基於 Hugging Face 平臺，旨在簡化控制和管理各種人工智能任務。該模型結合了先進的技術和用戶友好的界面，允許用戶以更直觀的方式與 AI 交互。它的主要優勢在於易用性和強大的功能，使其適合不同背景的用戶，不論是初學者還是專業人士都能輕鬆上手。

開發與工具

Selene API

Selene API 是 Atla AI 推出的一款先進的人工智能評估模型。它通過使用世界領先的 LLM-as-a-Judge 技術，能夠對 AI 應用進行精準的評估。該產品的主要優點是其高準確性和可靠性，能夠在各種評估基準上超越前沿模型。它不僅能夠提供準確的評分，還能生成具有可操作性的反饋意見，幫助開發者優化他們的 AI 應用。Selene API 的背景信息顯示，它是由 Atla AI 公司開發的，該公司致力於構建安全的人工智能未來。目前，該產品提供免費試用，並採用基於使用量的定價模式。

R1-Omni

R1-Omni 是一個創新的多模態情緒識別模型，通過強化學習提升模型的推理能力和泛化能力。該模型基於 HumanOmni-0.5B 開發，專注於情緒識別任務，能夠通過視覺和音頻模態信息進行情緒分析。其主要優點包括強大的推理能力、顯著提升的情緒識別性能以及在分佈外數據上的出色表現。該模型適用於需要多模態理解的場景，如情感分析、智能客服等領域，具有重要的研究和應用價值。

markdownify-mcp

Markdownify MCP

Markdownify是一個基於Model Context Protocol的服務器工具，能夠將多種文件類型和網絡內容轉換為Markdown格式。它支持PDF、圖片、音頻（含轉錄）、DOCX、XLSX、PPTX等多種文件格式的轉換，還能將YouTube視頻字幕、Bing搜索結果和網頁內容轉換為Markdown。該工具對於需要高效整理和分享信息的用戶來說非常實用，尤其是在處理大量非結構化數據時，能夠快速生成可讀性強的Markdown文本，提高工作效率。

AI co-scientist

AI Co Scientist

AI co-scientist 是谷歌研究團隊開發的一款多智能體 AI 系統，旨在通過人工智能技術輔助科學研究。該系統基於 Gemini 2.0 構建，能夠模擬科學方法的推理過程，生成新的研究假設和實驗方案。它通過多智能體協作，利用生成、反思、排名、進化等多種機制，不斷優化輸出結果。AI co-scientist 的主要優點包括高效生成新穎的科學假設、強大的跨學科知識整合能力以及與科學家的協作能力。該系統目前處於研究階段，通過與全球頂尖科研機構合作，驗證其在生物醫學等領域的應用潛力。

OmniParser V2

OmniParser V2 是微軟研究團隊開發的一種先進的人工智能模型，旨在將大型語言模型（LLM）轉化為能夠理解和操作圖形用戶界面（GUI）的智能代理。該技術通過將界面截圖從像素空間轉換為可解釋的結構化元素，使 LLM 能夠更準確地識別可交互圖標，並在屏幕上執行預定動作。OmniParser V2 在檢測小圖標和快速推理方面取得了顯著進步，其結合 GPT-4o 在 ScreenSpot Pro 基準測試中達到了 39.6% 的平均準確率，遠超原始模型的 0.8%。此外，OmniParser V2 還提供了 OmniTool 工具，支持與多種 LLM 結合使用，進一步推動了 GUI 自動化的發展。

自動化工作流

Goku

Goku 是一個專注於視頻生成的人工智能模型，能夠根據文本提示生成高質量的視頻內容。該模型基於先進的流式生成技術，能夠生成流暢且具有吸引力的視頻，適用於多種場景，如廣告、娛樂和創意內容製作。Goku 的主要優點在於其高效的生成能力和對複雜場景的出色表現能力，能夠顯著降低視頻製作成本，同時提升內容的吸引力。該模型由香港大學和字節跳動的研究團隊共同開發，旨在推動視頻生成技術的發展。

Qwen2.5-Max

Qwen2.5-Max是一個大規模的Mixture-of-Expert (MoE)模型，經過超過20萬億tokens的預訓練和監督微調與人類反饋強化學習的後訓練。它在多個基準測試中表現優異，展示了強大的知識和編碼能力。該模型通過阿里巴巴雲提供API接口，支持開發者在各種應用場景中使用。其主要優點包括強大的性能、靈活的部署方式和高效的訓練技術，旨在為人工智能領域提供更智能的解決方案。

PengChengStarling

Pengchengstarling

PengChengStarling 是一個專注於多語言自動語音識別（ASR）的開源工具包，基於 icefall 項目開發。它支持完整的 ASR 流程，包括數據處理、模型訓練、推理、微調和部署。該工具包通過優化參數配置和集成語言 ID 到 RNN-Transducer 架構中，顯著提升了多語言 ASR 系統的性能。其主要優點包括高效的多語言支持、靈活的配置設計以及強大的推理性能。PengChengStarling 的模型在多種語言上表現出色，且模型規模較小，推理速度極快，適合需要高效語音識別的場景。

Humiris AI

Humiris AI提供先進的AI基礎設施，幫助用戶構建各類應用。其主要優點包括高精度、高速度、低成本以及靈活的部署選項。產品面向需要高效AI解決方案的企業和開發者，提供SaaS環境訪問或自部署選項，滿足不同行業的需求。目前官網未明確標出具體價格，需聯繫獲取詳細報價。

QVQ-72B-Preview

QVQ 72B Preview

QVQ-72B-Preview是由Qwen團隊開發的實驗性研究模型，專注於增強視覺推理能力。該模型在多學科理解和推理方面展現出強大的能力，特別是在數學推理任務上取得了顯著的進步。儘管在視覺推理方面取得了進步，但QVQ並不完全取代Qwen2-VL-72B的能力，在多步視覺推理中可能會逐漸失去對圖像內容的關注，導致幻覺。此外，QVQ在基本識別任務上並沒有顯示出比Qwen2-VL-72B更顯著的改進。

LiteMCP

LiteMCP是一個TypeScript框架，用於優雅地構建MCP（Model Context Protocol）服務器。它支持簡單的工具、資源、提示定義，提供完整的TypeScript支持，並內置了錯誤處理和CLI工具，方便測試和調試。LiteMCP的出現為開發者提供了一個高效、易用的平臺，用於開發和部署MCP服務器，從而推動了人工智能和機器學習模型的交互和協作。LiteMCP是開源的，遵循MIT許可證，適合希望快速構建和部署MCP服務器的開發者和企業使用。

開發與工具

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork O1 Open PRM Qwen 2.5 1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5B是Skywork團隊開發的一系列模型，這些模型結合了o1風格的慢思考和推理能力。該模型專門設計用於通過增量過程獎勵增強推理能力，適合解決小規模的複雜問題。與簡單的OpenAI o1模型復現不同，Skywork o1 Open系列模型不僅在輸出中展現出固有的思考、規劃和反思能力，而且在標準基準測試中的推理技能有顯著提升。這一系列代表了AI能力的一次戰略性進步，將原本較弱的基礎模型推向了推理任務的最新技術（SOTA）。

Skywork-o1-Open-Llama-3.1-8B

Skywork O1 Open Llama 3.1 8B

Skywork-o1-Open-Llama-3.1-8B是由崑崙科技Skywork團隊開發的一系列模型，這些模型結合了o1風格的慢思考和推理能力。該系列模型不僅在輸出中展現出天生的思考、規劃和反思能力，而且在標準基準測試中的推理技能有顯著提升。這一系列代表了AI能力的戰略進步，將原本較弱的基礎模型推向了推理任務的最新技術（SOTA）。

LTXV Documentation

LTXV Documentation

LTXV Documentation 提供了關於LTX視頻技術的詳細文檔和資源鏈接，包括快速入門指南、集成和訪問方式、技術文檔以及社區支持。這項技術的重要性在於它能夠支持視頻內容的創建和管理，特別是通過集成和模型訪問，為用戶提供了一個強大的視頻處理和分析平臺。LTXV技術背景信息顯示，它由Lightricks公司開發，該公司在視頻技術領域有著深厚的技術積累和影響力。產品定位為專業視頻技術文檔，適合需要深入瞭解視頻技術細節的開發者和研究人員使用。

Google AI for Developers

Google AI For Developers

Gemini API是Google AI Studio提供的一個強大的人工智能模型，它允許開發者輕鬆地將Google最大的AI模型集成到他們的應用程序中。這個API支持多種編程語言和平臺，包括Python、Node.js、Go、Android、Dart (Flutter)和Swift。Gemini API的主要優點是其強大的生成能力，能夠處理複雜的AI任務，如內容生成、語言理解等。此外，它還提供了Gemma開放模型，這些模型具有靈活性和可定製性，以加速負責任的AI開發。Gemini API是為那些希望利用最新AI技術來提升其應用程序的開發者設計的，無論是在生產力、圖像處理、視頻編輯還是其他領域。目前，Gemini API是免費的，但具體的定價策略可能會隨著時間和服務的發展而變化。

開發與工具

CriticGPT

CriticGPT 是基於 GPT-4 模型開發的工具，旨在幫助人類審查 ChatGPT 的代碼輸出。通過識別錯誤並提供評論，提高訓練師審查的準確性和效率。該工具能有效捕捉潛在問題，為 AI 模型的改進提供有力支持。

AIModels.fyi

AIModels.fyi是一個專注於AI領域的平臺，提供每日更新的AI論文、模型和工具的摘要。它通過算法篩選出具有重大影響力的AI發展，並將複雜的模型和論文轉化為簡短、清晰的指南，幫助用戶快速吸收和應用。此外，訂閱者還可以獲得個性化的AI內容，無需博士學位即可理解的頂級模型、論文和工具指南，以及與AI專家和構建者交流的獨家Discord社區訪問權限。

BasicPrompt

BasicPrompt是一個可以幫助您構建、部署和測試通用提示語的工具。它提供了一個編輯器，您可以使用其中的U塊來編寫通用的提示語。BasicPrompt會自動優化您的提示語以適應不同的語言模型。您可以通過內置的測試工具來評估提示語在不同模型上的性能。BasicPrompt還支持一鍵部署提示語到應用程序中，無需編碼。通過BasicPrompt，您可以快速構建、部署和共享提示語，讓團隊成員輕鬆貢獻。

開發與工具

allnewmodels

AllNewModels是一個網站，提供了許多最新的llms模型。該網站的主要優點是用戶可以在一個訂閱中使用所有最新的llms模型。它為用戶提供了更多選擇和靈活性，無需單獨購買和使用不同的模型。AllNewModels的定位是為專業人士提供的。

Line2Depth SD 1.5

Line2depth SD 1.5

Line2Depth SD 1.5是一個模型，可以利用像Canny、線條、Softedge等控制網絡，僅通過線條創建具有深度感的圖像。在提示中添加'depth, 3d'。Lora文件名後的數字表示合併的Lora數量，每個將產生不同的結果，因此請選擇一個效果較好的。

Mistral-22B-v0.2

Mistral 22B V0.2

Mistral-22b-v.02 是一個強大的模型，展現出出色的數學才能和編程能力。相較於V1，V2模型在連貫性和多輪對話能力方面有顯著提升。該模型經過重新調整取消了審查，能夠回答任何問題。訓練數據主要包括多輪對話，特別強調編程內容。此外，模型具備智能體能力，可執行真實世界任務。訓練採用了32k的上下文長度。在使用時需遵循GUANACO提示格式。

Gemini 1.5 Pro

Gemini 1.5 Pro是Google開發者平臺推出的下一代AI模型,支持語音理解、系統指令、JSON輸出等新功能,並推出了新一代文本嵌入模型Gecko,性能大幅提升。開發者可以在Google AI Studio中獲取API密鑰並開始使用。

精選AI產品推薦

騰訊混元圖像 2.0

騰訊混元圖像 2.0

騰訊混元圖像 2.0 是騰訊最新發布的 AI 圖像生成模型，顯著提升了生成速度和畫質。通過超高壓縮倍率的編解碼器和全新擴散架構，使得圖像生成速度可達到毫秒級，避免了傳統生成的等待時間。同時，模型通過強化學習算法與人類美學知識的結合，提升了圖像的真實感和細節表現，適合設計師、創作者等專業用戶使用。

Lovart

Lovart 是一款革命性的 AI 設計代理，能夠將創意提示轉化為藝術作品，支持從故事板到品牌視覺的多種設計需求。其重要性在於打破傳統設計流程，節省時間並提升創意靈感。Lovart 當前處於測試階段，用戶可加入等候名單，隨時體驗設計的樂趣。

FastVLM

FastVLM 是一種高效的視覺編碼模型，專為視覺語言模型設計。它通過創新的 FastViTHD 混合視覺編碼器，減少了高分辨率圖像的編碼時間和輸出的 token 數量，使得模型在速度和精度上表現出色。FastVLM 的主要定位是為開發者提供強大的視覺語言處理能力，適用於各種應用場景，尤其在需要快速響應的移動設備上表現優異。

KeySync

KeySync 是一個針對高分辨率視頻的無洩漏唇同步框架。它解決了傳統唇同步技術中的時間一致性問題，同時通過巧妙的遮罩策略處理表情洩漏和麵部遮擋。KeySync 的優越性體現在其在唇重建和跨同步方面的先進成果，適用於自動配音等實際應用場景。

Manus

Manus 是由 Monica.im 研發的全球首款真正自主的 AI 代理產品，能夠直接交付完整的任務成果，而不僅僅是提供建議或答案。它採用 Multiple Agent 架構，運行在獨立虛擬機中，能夠通過編寫和執行代碼、瀏覽網頁、操作應用等方式直接完成任務。Manus 在 GAIA 基準測試中取得了 SOTA 表現，展現了強大的任務執行能力。其目標是成為用戶在數字世界的‘代理人’，幫助用戶高效完成各種複雜任務。

Trae國內版

Trae是一款專為中文開發場景設計的AI原生IDE，將AI技術深度集成於開發環境中。它通過智能代碼補全、上下文理解等功能，顯著提升開發效率和代碼質量。Trae的出現填補了國內AI集成開發工具的空白，滿足了中文開發者對高效開發工具的需求。其定位為高端開發工具，旨在為專業開發者提供強大的技術支持，目前尚未明確公開價格，但預計會採用付費模式以匹配其高端定位。

開發與工具

Pika

Pika是一個視頻製作平臺,用戶可以上傳自己的創意想法,Pika會自動生成相關的視頻。主要功能有:支持多種創意想法轉視頻,視頻效果專業,操作簡單易用。平臺採用免費試用模式,定位面向創意者和視頻愛好者。

LiblibAI

LiblibAI是一箇中國領先的AI創作平臺,提供強大的AI創作能力,幫助創作者實現創意。平臺提供海量免費AI創作模型,用戶可以搜索使用模型進行圖像、文字、音頻等創作。平臺還支持用戶訓練自己的AI模型。平臺定位於廣大創作者用戶,致力於創造條件普惠,服務創意產業,讓每個人都享有創作的樂趣。

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase