模型

# 模型

DeepSeek R1-0528

Deepseek R1 0528

DeepSeek R1-0528 是知名开源大模型平台 DeepSeek 发布的最新版本，具有高性能的自然语言处理和编程能力。它的发布引起了广泛关注，因其在编程任务中表现出色，能够准确回答复杂问题。该模型支持多种应用场景，是开发者和 AI 研究者的重要工具。预计后续将发布更详细的模型信息和使用指南，增强其功能和应用广度。

ModAstera

ModAstera提供一站式的医疗AI开发平台，利用AI辅助数据标注和医疗AI工程代理加速研发进程，降低开发成本，并比竞争对手更快地推向市场。产品符合医疗健康行业的数字化转型需求。

Windsurf Wave 9

Windsurf Wave 9

SWE-1 是windsurf_ai首个为整个软件工程流程优化的模型家族，旨在加速软件开发 99%。与传统的仅能编写代码的模型相比，SWE-1 不仅能编写代码，还能处理终端操作、访问其他知识和互联网、测试产品和理解用户反馈。SWE-1 系列包括 SWE-1、SWE-1-lite 和 SWE-1-mini 三种模型，旨在满足不同用户的需求。

DeepSeek-Prover-V2-671B

Deepseek Prover V2 671B

DeepSeek-Prover-V2-671B 是一个先进的人工智能模型，旨在提供强大的推理能力。它基于最新的技术，适用于多种应用场景。该模型是开源的，旨在促进人工智能技术的民主化与普及，降低技术壁垒，使更多开发者和研究者能够利用 AI 技术进行创新。通过使用该模型，用户可以提升他们的工作效率，推动各类项目的进展。

Kimi-Audio

Kimi-Audio 是一个先进的开源音频基础模型，旨在处理多种音频处理任务，如语音识别和音频对话。该模型在超过 1300 万小时的多样化音频数据和文本数据上进行了大规模预训练，具有强大的音频推理和语言理解能力。它的主要优点包括优秀的性能和灵活性，适合研究人员和开发者进行音频相关的研究与开发。

Wan2.1-FLF2V-14B

Wan2.1 FLF2V 14B

Wan2.1-FLF2V-14B 是一个开源的大规模视频生成模型，旨在推动视频生成领域的进步。该模型在多项基准测试中表现优异，支持消费者级 GPU，能够高效生成 480P 和 720P 的视频。它在文本到视频、图像到视频等多个任务中表现出色，具有强大的视觉文本生成能力，适用于各种实际应用场景。

Quasar Alpha

openrouter 是一个创新的多模型聊天界面，允许用户在浏览器中轻松与不同的语言模型进行交互。它通过简单的界面使得聊天变得更加直观和有趣，适合各种用户需求，包括角色扮演、编程辅助等。该产品存储数据在本地，确保用户的隐私和数据安全。由于它是一个网页应用，用户无需安装任何软件，即可随时随地访问，提升了使用的便捷性和灵活性。

聊天机器人

EasyControl Ghibli

Easycontrol Ghibli

EasyControl Ghibli 是一个新发布的模型，基于 Hugging Face 平台，旨在简化控制和管理各种人工智能任务。该模型结合了先进的技术和用户友好的界面，允许用户以更直观的方式与 AI 交互。它的主要优势在于易用性和强大的功能，使其适合不同背景的用户，不论是初学者还是专业人士都能轻松上手。

开发与工具

Selene API

Selene API 是 Atla AI 推出的一款先进的人工智能评估模型。它通过使用世界领先的 LLM-as-a-Judge 技术，能够对 AI 应用进行精准的评估。该产品的主要优点是其高准确性和可靠性，能够在各种评估基准上超越前沿模型。它不仅能够提供准确的评分，还能生成具有可操作性的反馈意见，帮助开发者优化他们的 AI 应用。Selene API 的背景信息显示，它是由 Atla AI 公司开发的，该公司致力于构建安全的人工智能未来。目前，该产品提供免费试用，并采用基于使用量的定价模式。

R1-Omni

R1-Omni 是一个创新的多模态情绪识别模型，通过强化学习提升模型的推理能力和泛化能力。该模型基于 HumanOmni-0.5B 开发，专注于情绪识别任务，能够通过视觉和音频模态信息进行情绪分析。其主要优点包括强大的推理能力、显著提升的情绪识别性能以及在分布外数据上的出色表现。该模型适用于需要多模态理解的场景，如情感分析、智能客服等领域，具有重要的研究和应用价值。

markdownify-mcp

Markdownify MCP

Markdownify是一个基于Model Context Protocol的服务器工具，能够将多种文件类型和网络内容转换为Markdown格式。它支持PDF、图片、音频（含转录）、DOCX、XLSX、PPTX等多种文件格式的转换，还能将YouTube视频字幕、Bing搜索结果和网页内容转换为Markdown。该工具对于需要高效整理和分享信息的用户来说非常实用，尤其是在处理大量非结构化数据时，能够快速生成可读性强的Markdown文本，提高工作效率。

AI co-scientist

AI Co Scientist

AI co-scientist 是谷歌研究团队开发的一款多智能体 AI 系统，旨在通过人工智能技术辅助科学研究。该系统基于 Gemini 2.0 构建，能够模拟科学方法的推理过程，生成新的研究假设和实验方案。它通过多智能体协作，利用生成、反思、排名、进化等多种机制，不断优化输出结果。AI co-scientist 的主要优点包括高效生成新颖的科学假设、强大的跨学科知识整合能力以及与科学家的协作能力。该系统目前处于研究阶段，通过与全球顶尖科研机构合作，验证其在生物医学等领域的应用潜力。

OmniParser V2

OmniParser V2 是微软研究团队开发的一种先进的人工智能模型，旨在将大型语言模型（LLM）转化为能够理解和操作图形用户界面（GUI）的智能代理。该技术通过将界面截图从像素空间转换为可解释的结构化元素，使 LLM 能够更准确地识别可交互图标，并在屏幕上执行预定动作。OmniParser V2 在检测小图标和快速推理方面取得了显著进步，其结合 GPT-4o 在 ScreenSpot Pro 基准测试中达到了 39.6% 的平均准确率，远超原始模型的 0.8%。此外，OmniParser V2 还提供了 OmniTool 工具，支持与多种 LLM 结合使用，进一步推动了 GUI 自动化的发展。

自动化工作流

Goku

Goku 是一个专注于视频生成的人工智能模型，能够根据文本提示生成高质量的视频内容。该模型基于先进的流式生成技术，能够生成流畅且具有吸引力的视频，适用于多种场景，如广告、娱乐和创意内容制作。Goku 的主要优点在于其高效的生成能力和对复杂场景的出色表现能力，能够显著降低视频制作成本，同时提升内容的吸引力。该模型由香港大学和字节跳动的研究团队共同开发，旨在推动视频生成技术的发展。

Qwen2.5-Max

Qwen2.5-Max是一个大规模的Mixture-of-Expert (MoE)模型，经过超过20万亿tokens的预训练和监督微调与人类反馈强化学习的后训练。它在多个基准测试中表现优异，展示了强大的知识和编码能力。该模型通过阿里巴巴云提供API接口，支持开发者在各种应用场景中使用。其主要优点包括强大的性能、灵活的部署方式和高效的训练技术，旨在为人工智能领域提供更智能的解决方案。

PengChengStarling

Pengchengstarling

PengChengStarling 是一个专注于多语言自动语音识别（ASR）的开源工具包，基于 icefall 项目开发。它支持完整的 ASR 流程，包括数据处理、模型训练、推理、微调和部署。该工具包通过优化参数配置和集成语言 ID 到 RNN-Transducer 架构中，显著提升了多语言 ASR 系统的性能。其主要优点包括高效的多语言支持、灵活的配置设计以及强大的推理性能。PengChengStarling 的模型在多种语言上表现出色，且模型规模较小，推理速度极快，适合需要高效语音识别的场景。

Humiris AI

Humiris AI提供先进的AI基础设施，帮助用户构建各类应用。其主要优点包括高精度、高速度、低成本以及灵活的部署选项。产品面向需要高效AI解决方案的企业和开发者，提供SaaS环境访问或自部署选项，满足不同行业的需求。目前官网未明确标出具体价格，需联系获取详细报价。

QVQ-72B-Preview

QVQ 72B Preview

QVQ-72B-Preview是由Qwen团队开发的实验性研究模型，专注于增强视觉推理能力。该模型在多学科理解和推理方面展现出强大的能力，特别是在数学推理任务上取得了显著的进步。尽管在视觉推理方面取得了进步，但QVQ并不完全取代Qwen2-VL-72B的能力，在多步视觉推理中可能会逐渐失去对图像内容的关注，导致幻觉。此外，QVQ在基本识别任务上并没有显示出比Qwen2-VL-72B更显著的改进。

LiteMCP

LiteMCP是一个TypeScript框架，用于优雅地构建MCP（Model Context Protocol）服务器。它支持简单的工具、资源、提示定义，提供完整的TypeScript支持，并内置了错误处理和CLI工具，方便测试和调试。LiteMCP的出现为开发者提供了一个高效、易用的平台，用于开发和部署MCP服务器，从而推动了人工智能和机器学习模型的交互和协作。LiteMCP是开源的，遵循MIT许可证，适合希望快速构建和部署MCP服务器的开发者和企业使用。

开发与工具

Skywork-o1-Open-PRM-Qwen-2.5-1.5B

Skywork O1 Open PRM Qwen 2.5 1.5B

Skywork-o1-Open-PRM-Qwen-2.5-1.5B是Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该模型专门设计用于通过增量过程奖励增强推理能力，适合解决小规模的复杂问题。与简单的OpenAI o1模型复现不同，Skywork o1 Open系列模型不仅在输出中展现出固有的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的一次战略性进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

Skywork-o1-Open-Llama-3.1-8B

Skywork O1 Open Llama 3.1 8B

Skywork-o1-Open-Llama-3.1-8B是由昆仑科技Skywork团队开发的一系列模型，这些模型结合了o1风格的慢思考和推理能力。该系列模型不仅在输出中展现出天生的思考、规划和反思能力，而且在标准基准测试中的推理技能有显著提升。这一系列代表了AI能力的战略进步，将原本较弱的基础模型推向了推理任务的最新技术（SOTA）。

LTXV Documentation

LTXV Documentation

LTXV Documentation 提供了关于LTX视频技术的详细文档和资源链接，包括快速入门指南、集成和访问方式、技术文档以及社区支持。这项技术的重要性在于它能够支持视频内容的创建和管理，特别是通过集成和模型访问，为用户提供了一个强大的视频处理和分析平台。LTXV技术背景信息显示，它由Lightricks公司开发，该公司在视频技术领域有着深厚的技术积累和影响力。产品定位为专业视频技术文档，适合需要深入了解视频技术细节的开发者和研究人员使用。

Google AI for Developers

Google AI For Developers

Gemini API是Google AI Studio提供的一个强大的人工智能模型，它允许开发者轻松地将Google最大的AI模型集成到他们的应用程序中。这个API支持多种编程语言和平台，包括Python、Node.js、Go、Android、Dart (Flutter)和Swift。Gemini API的主要优点是其强大的生成能力，能够处理复杂的AI任务，如内容生成、语言理解等。此外，它还提供了Gemma开放模型，这些模型具有灵活性和可定制性，以加速负责任的AI开发。Gemini API是为那些希望利用最新AI技术来提升其应用程序的开发者设计的，无论是在生产力、图像处理、视频编辑还是其他领域。目前，Gemini API是免费的，但具体的定价策略可能会随着时间和服务的发展而变化。

开发与工具

CriticGPT

CriticGPT 是基于 GPT-4 模型开发的工具，旨在帮助人类审查 ChatGPT 的代码输出。通过识别错误并提供评论，提高训练师审查的准确性和效率。该工具能有效捕捉潜在问题，为 AI 模型的改进提供有力支持。

AIModels.fyi

AIModels.fyi是一个专注于AI领域的平台，提供每日更新的AI论文、模型和工具的摘要。它通过算法筛选出具有重大影响力的AI发展，并将复杂的模型和论文转化为简短、清晰的指南，帮助用户快速吸收和应用。此外，订阅者还可以获得个性化的AI内容，无需博士学位即可理解的顶级模型、论文和工具指南，以及与AI专家和构建者交流的独家Discord社区访问权限。

BasicPrompt

BasicPrompt是一个可以帮助您构建、部署和测试通用提示语的工具。它提供了一个编辑器，您可以使用其中的U块来编写通用的提示语。BasicPrompt会自动优化您的提示语以适应不同的语言模型。您可以通过内置的测试工具来评估提示语在不同模型上的性能。BasicPrompt还支持一键部署提示语到应用程序中，无需编码。通过BasicPrompt，您可以快速构建、部署和共享提示语，让团队成员轻松贡献。

开发与工具

allnewmodels

AllNewModels是一个网站，提供了许多最新的llms模型。该网站的主要优点是用户可以在一个订阅中使用所有最新的llms模型。它为用户提供了更多选择和灵活性，无需单独购买和使用不同的模型。AllNewModels的定位是为专业人士提供的。

Line2Depth SD 1.5

Line2depth SD 1.5

Line2Depth SD 1.5是一个模型，可以利用像Canny、线条、Softedge等控制网络，仅通过线条创建具有深度感的图像。在提示中添加'depth, 3d'。Lora文件名后的数字表示合并的Lora数量，每个将产生不同的结果，因此请选择一个效果较好的。

Mistral-22B-v0.2

Mistral 22B V0.2

Mistral-22b-v.02 是一个强大的模型，展现出出色的数学才能和编程能力。相较于V1，V2模型在连贯性和多轮对话能力方面有显著提升。该模型经过重新调整取消了审查，能够回答任何问题。训练数据主要包括多轮对话，特别强调编程内容。此外，模型具备智能体能力，可执行真实世界任务。训练采用了32k的上下文长度。在使用时需遵循GUANACO提示格式。

Gemini 1.5 Pro

Gemini 1.5 Pro是Google开发者平台推出的下一代AI模型,支持语音理解、系统指令、JSON输出等新功能,并推出了新一代文本嵌入模型Gecko,性能大幅提升。开发者可以在Google AI Studio中获取API密钥并开始使用。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase