大规模模型

# 大规模模型

Tülu 3 405B

Tülu 3 405B 是由 Allen Institute for AI 开发的开源语言模型，具有 4050 亿参数。该模型通过创新的强化学习框架（RLVR）提升性能，尤其在数学和指令跟随任务中表现出色。它基于 Llama-405B 模型进行优化，采用监督微调、偏好优化等技术。Tülu 3 405B 的开源性质使其成为研究和开发领域的强大工具，适用于需要高性能语言模型的各种应用场景。

DeepSeek-V3

DeepSeek-V3是一个强大的Mixture-of-Experts (MoE) 语言模型，拥有671B的总参数量，每次激活37B参数。它采用了Multi-head Latent Attention (MLA) 和 DeepSeekMoE架构，这些架构在DeepSeek-V2中得到了充分的验证。此外，DeepSeek-V3首次采用了无辅助损失的负载均衡策略，并设置了多令牌预测训练目标，以实现更强大的性能。DeepSeek-V3在14.8万亿高质量令牌上进行了预训练，随后进行了监督式微调和强化学习阶段，以充分利用其能力。综合评估显示，DeepSeek-V3超越了其他开源模型，并达到了与领先的闭源模型相当的性能。尽管性能出色，DeepSeek-V3的完整训练仅需要2.788M H800 GPU小时，并且训练过程非常稳定。

DRT-o1-14B

DRT-o1-14B是一个神经机器翻译模型，旨在通过长链推理来提升翻译的深度和准确性。该模型通过挖掘含有比喻或隐喻的英文句子，并采用多代理框架（包括翻译者、顾问和评估者）来合成长思考的机器翻译样本。DRT-o1-14B基于Qwen2.5-14B-Instruct作为主干进行训练，具有14.8B的参数量，支持BF16张量类型。该模型的重要性在于其能够处理复杂的翻译任务，尤其是在需要深入理解和推理的情况下，提供了一种新的解决方案。

Skywork-MoE-Base-FP8

Skywork MoE Base FP8

Skywork-MoE是一个具有146亿参数的高性能混合专家(MoE)模型，拥有16个专家和22亿激活参数。该模型从Skywork-13B模型的密集型检查点初始化而来。引入了两种创新技术：门控逻辑归一化，增强专家多样化；自适应辅助损失系数，允许层特定的辅助损失系数调整。Skywork-MoE在各种流行基准测试中，如C-Eval、MMLU、CMMLU、GSM8K、MATH和HumanEval，展现出与参数更多或激活参数更多的模型相当的或更优越的性能。

Vidu是由生数科技联合清华大学发布的中国首个长时长、高一致性、高动态性视频大模型。该模型采用原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu不仅能够模拟真实物理世界，还拥有丰富想象力，具备多镜头生成、时空一致性高等特点。其快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。Vidu的问世代表了生数科技在多模态原生大模型领域的持续创新能力和领先性，面向未来，灵活架构将能够兼容更广泛的模态，进一步拓展多模态通用能力的边界。

MoE-LLaVA

MoE-LLaVA是一种基于大规模视觉-语言模型的专家混合模型，展现出在多模态学习中出色的性能。其具有较少的参数，但表现出较高的性能，并且可以在短时间内完成训练。该模型支持Gradio Web UI和CLI推理，并提供模型库、需求和安装、训练和验证、自定义、可视化、API等功能。

Vary

Vary 是一个用于大规模视觉语言模型的官方代码实现。它通过扩展视觉词汇来提高模型的性能。该模型具有强大的图像理解和语言生成能力，可以在多个领域进行应用。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase