预训练模型

# 预训练模型

DataLearner预训练模型平台

Datalearner预训练模型平台

该平台是一个专注于AI预训练模型的资源平台，整合了大量不同类型、规模和应用场景的预训练模型。其重要性在于为AI开发者和研究人员提供了便捷的模型获取渠道，降低了模型开发的门槛。主要优点包括模型分类细致、多维度筛选功能强大、信息展示详细且提供智能推荐。产品背景是随着AI技术的发展，对预训练模型的需求日益增长，平台应运而生。平台主要定位为AI模型资源平台，部分模型免费商用，部分可能需要付费，具体价格因模型而异。

Magma

Magma 是微软研究团队推出的一个多模态基础模型，旨在通过视觉、语言和动作的结合，实现复杂任务的规划和执行。它通过大规模的视觉语言数据预训练，具备了语言理解、空间智能和动作规划的能力，能够在 UI 导航、机器人操作等任务中表现出色。该模型的出现为多模态 AI 代理任务提供了一个强大的基础框架，具有广泛的应用前景。

MILS

MILS是一个由Facebook Research发布的开源项目，旨在展示大型语言模型（LLMs）在未经过任何训练的情况下，能够处理视觉和听觉任务的能力。该技术通过利用预训练的模型和优化算法，实现了对图像、音频和视频的自动描述生成。这一技术突破为多模态人工智能的发展提供了新的思路，展示了LLMs在跨模态任务中的潜力。该模型主要面向研究人员和开发者，为他们提供了一个强大的工具来探索多模态应用。目前该项目是免费开源的，旨在推动学术研究和技术发展。

timesfm-2.0-500m-pytorch

Timesfm 2.0 500m Pytorch

TimesFM是一个由Google Research开发的预训练时间序列预测模型，用于时间序列预测任务。该模型在多个数据集上进行了预训练，能够处理不同频率和长度的时间序列数据。其主要优点包括高性能、可扩展性强以及易于使用。该模型适用于需要准确预测时间序列数据的各种应用场景，如金融、气象、能源等领域。该模型在Hugging Face平台上免费提供，用户可以方便地下载和使用。

OpenEMMA

OpenEMMA是一个开源项目，复现了Waymo的EMMA模型，提供了一个端到端框架用于自动驾驶车辆的运动规划。该模型利用预训练的视觉语言模型（VLMs）如GPT-4和LLaVA，整合文本和前视摄像头输入，实现对未来自身路径点的精确预测，并提供决策理由。OpenEMMA的目标是为研究人员和开发者提供易于获取的工具，以推进自动驾驶研究和应用。

模型训练与部署

ModernBERT-base

Modernbert Base

ModernBERT-base是一个现代化的双向编码器Transformer模型，预训练于2万亿英文和代码数据，原生支持长达8192个token的上下文。该模型采用了Rotary Positional Embeddings (RoPE)、Local-Global Alternating Attention和Unpadding等最新架构改进，使其在长文本处理任务中表现出色。ModernBERT-base适用于需要处理长文档的任务，如检索、分类和大型语料库中的语义搜索。模型训练数据主要为英文和代码，因此可能在其他语言上的表现会有所降低。

SynCamMaster

SynCamMaster是一种先进的视频生成技术，它能够从多样化的视角同步生成多摄像机视频。这项技术通过预训练的文本到视频模型，增强了视频内容在不同视角下的动态一致性，对于虚拟拍摄等应用场景具有重要意义。该技术的主要优点包括能够处理开放世界视频的任意视角生成，整合6自由度摄像机姿态，并设计了一种渐进式训练方案，利用多摄像机图像和单目视频作为补充，显著提升了模型性能。

InternVL2_5-26B

Internvl2 5 26B

InternVL2_5-26B是一个先进的多模态大型语言模型（MLLM），在InternVL 2.0的基础上，通过引入显著的训练和测试策略增强以及数据质量提升，进一步发展而来。该模型保持了其前身的“ViT-MLP-LLM”核心模型架构，并集成了新增量预训练的InternViT与各种预训练的大型语言模型（LLMs），例如InternLM 2.5和Qwen 2.5，使用随机初始化的MLP投影器。InternVL 2.5系列模型在多模态任务中展现出卓越的性能，尤其在视觉感知和多模态能力方面。

Meta Llama 3.3

Meta Llama 3.3是一个70B参数的多语言大型预训练语言模型（LLM），专为多语言对话用例优化，并在常见行业基准测试中表现优于许多现有的开源和封闭聊天模型。该模型采用优化的Transformer架构，并使用监督式微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类的有用性和安全性偏好。

聊天机器人

ClearerVoice-Studio

Clearervoice Studio

ClearerVoice-Studio是一个开源的AI驱动语音处理工具包，专为研究人员、开发者和最终用户设计。它提供了语音增强、语音分离、目标说话人提取等功能，并提供了最新的预训练模型以及训练和推理脚本，全部可通过此仓库访问。该工具包以其预训练模型、易用性、全面功能和社区驱动的特点而受到青睐。

开发与工具

Aria-Base-64K

Aria-Base-64K是Aria系列的基础模型之一，专为研究目的和继续训练而设计。该模型在长文本预训练阶段后形成，经过33B个token（21B多模态，12B语言，69%为长文本）的训练。它适合于长视频问答数据集或长文档问答数据集的继续预训练或微调，即使在资源有限的情况下，也可以通过短指令调优数据集进行后训练，并转移到长文本问答场景。该模型能够理解多达250张高分辨率图像或多达500张中等分辨率图像，并在语言和多模态场景中保持强大的基础性能。

olmo-mix-1124

allenai/olmo-mix-1124数据集是由Hugging Face提供的一个大规模多模态预训练数据集，主要用于训练和优化自然语言处理模型。该数据集包含了大量的文本信息，覆盖了多种语言，并且可以用于各种文本生成任务。它的重要性在于提供了一个丰富的资源，使得研究人员和开发者能够训练出更加精准和高效的语言模型，进而推动自然语言处理技术的发展。

ViTLP

ViTLP是一个视觉引导的生成文本布局预训练模型，旨在提高文档智能处理的效率和准确性。该模型结合了OCR文本定位和识别功能，能够在文档图像上进行快速准确的文本检测和识别。ViTLP模型的预训练版本ViTLP-medium（380M参数）在计算资源和预训练数据集规模的限制下，提供了一个平衡的解决方案，既保证了模型的性能，又优化了推理速度和内存使用。ViTLP的推理速度在Nvidia 4090上处理一页文档图像通常在5到10秒内，与大多数OCR引擎相比具有竞争力。

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4

Qwen2.5 Coder 32B Instruct GPTQ Int4

Qwen2.5-Coder-32B-Instruct-GPTQ-Int4是基于Qwen2.5的代码生成大型语言模型，具有32.5亿参数量，支持长文本处理，最大支持128K tokens。该模型在代码生成、代码推理和代码修复方面有显著提升，是当前开源代码语言模型中的佼佼者。它不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

Qwen2.5-Coder-0.5B-Instruct

Qwen2.5 Coder 0.5B Instruct

Qwen2.5-Coder是Qwen大型语言模型的最新系列，专注于代码生成、代码推理和代码修复。基于强大的Qwen2.5，通过扩展训练令牌到5.5万亿，包括源代码、文本代码基础、合成数据等，Qwen2.5-Coder-32B已成为当前最先进的开源代码LLM，其编码能力与GPT-4o相匹配。该模型不仅增强了编码能力，还保持了在数学和通用能力方面的优势，为实际应用如代码代理提供了更全面的基础。

Qwen2.5-Coder-3B

Qwen2.5 Coder 3B

Qwen2.5-Coder-3B是Qwen2.5-Coder系列中的一个大型语言模型，专注于代码生成、推理和修复。基于强大的Qwen2.5，该模型通过增加训练令牌至5.5万亿，包括源代码、文本代码基础、合成数据等，实现了在代码生成、推理和修复方面的显著改进。Qwen2.5-Coder-32B已成为当前最先进的开源代码大型语言模型，其编码能力与GPT-4o相匹配。此外，Qwen2.5-Coder-3B还为现实世界的应用提供了更全面的基础，如代码代理，不仅增强了编码能力，还保持了在数学和通用能力方面的优势。

Qwen2.5-Coder Technical Report

Qwen2.5 Coder Technical Report

Qwen2.5-Coder系列是基于Qwen2.5架构的代码特定模型，包括Qwen2.5-Coder-1.5B和Qwen2.5-Coder-7B两个模型。这些模型在超过5.5万亿个token的大规模语料库上继续预训练，并通过精细的数据清洗、可扩展的合成数据生成和平衡的数据混合，展现出令人印象深刻的代码生成能力，同时保持了通用性。Qwen2.5-Coder在包括代码生成、补全、推理和修复在内的多种代码相关任务上取得了超过10个基准测试的最新性能，并且一致性地超越了同等大小的更大模型。该系列的发布不仅推动了代码智能研究的边界，而且通过其许可授权，鼓励开发者在现实世界的应用中更广泛地采用。

Aya Expanse-8b

Aya Expanse是一个具有高级多语言能力的开放权重研究模型。它专注于将高性能的预训练模型与Cohere For AI一年的研究成果相结合，包括数据套利、多语言偏好训练、安全调整和模型合并。该模型是一个强大的多语言大型语言模型，服务于23种语言，包括阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语、印地语、印尼语、意大利语、日语、韩语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、土耳其语、乌克兰语和越南语。

DTLR

DTLR是一个基于检测的手写文本行识别模型，基于DINO-DETR进行改进，用于文本识别和字符检测。该模型在合成数据上预训练，然后在真实数据集上进行微调。它对于OCR（光学字符识别）领域具有重要意义，特别是在处理手写文本时，能够提高识别的准确性和效率。

OLMoE

OLMoE是一个完全开放的、最先进的专家混合模型，具有1.3亿活跃参数和6.9亿总参数。该模型的所有数据、代码和日志都已发布。它提供了论文'OLMoE: Open Mixture-of-Experts Language Models'的所有资源概览。该模型在预训练、微调、适应和评估方面都具有重要应用，是自然语言处理领域的一个里程碑。

OpenCity

OpenCity是一个开源的时空基础模型，专注于交通预测领域。该模型通过整合Transformer架构和图神经网络，有效捕捉和标准化交通数据中的复杂时空依赖关系，实现对不同城市环境的零样本泛化。它在大规模、异构的交通数据集上进行预训练，学习到丰富、可泛化的表示，能够无缝应用于多种交通预测场景。

EXAONE-3.0-7.8B-Instruct

EXAONE 3.0 7.8B Instruct

EXAONE-3.0-7.8B-Instruct是LG AI Research开发的一款具有7.8亿参数的双语（英语和韩语）预训练生成模型。模型通过8T的精选token进行预训练，并经过监督式微调和直接偏好优化进行后训练，展现出与同类大小的开放模型相比极具竞争力的基准性能。

Llama3

Meta Llama 3 是 Meta 推出的最新大型语言模型，旨在为个人、创作者、研究人员和各类企业解锁大型语言模型的能力。该模型包含从8B到70B参数的不同规模版本，支持预训练和指令调优。模型通过 GitHub 仓库提供，用户可以通过下载模型权重和分词器进行本地推理。Meta Llama 3 的发布标志着大型语言模型技术的进一步普及和应用，具有广泛的研究和商业潜力。

Meta Llama 3.1-405B

Meta Llama 3.1 405B

Meta Llama 3.1-405B 是由 Meta 开发的一系列大型多语言预训练语言模型，包含8B、70B和405B三种规模的模型。这些模型经过优化的变压器架构，使用监督式微调（SFT）和强化学习与人类反馈（RLHF）进行调优，以符合人类对帮助性和安全性的偏好。Llama 3.1 模型支持多种语言，包括英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。该模型在多种自然语言生成任务中表现出色，并在行业基准测试中超越了许多现有的开源和封闭聊天模型。

ViTMatte

ViTMatte是一个基于预训练纯视觉变换器（Plain Vision Transformers, ViTs）的图像抠图系统。它利用混合注意力机制和卷积颈部来优化性能与计算之间的平衡，并引入了细节捕获模块以补充抠图所需的细节信息。ViTMatte是首个通过简洁的适配释放ViT在图像抠图领域潜力的工作，继承了ViT在预训练策略、简洁的架构设计和灵活的推理策略等方面的优势。在Composition-1k和Distinctions-646这两个最常用的图像抠图基准测试中，ViTMatte达到了最先进的性能，并以较大优势超越了先前的工作。

Index-1.9B-Pure

Index 1.9B Pure

Index-1.9B-Pure是Index系列模型中的轻量版本，专为文本生成而设计。它在2.8T的中英文语料上进行了预训练，与同等级模型相比，在多个评测基准上表现领先。该模型特别过滤了所有指令相关数据，以验证指令对benchmark的影响，适用于需要高质量文本生成的领域。

Index-1.9B-Chat

Index 1.9B Chat

Index-1.9B-Chat是一个基于19亿参数的对话生成模型，它通过SFT和DPO对齐技术，结合RAG实现fewshots角色扮演定制，具有较高的对话趣味性和定制性。该模型在2.8T中英文为主的语料上预训练，并且在多个评测基准上表现领先。

AI聊天机器人

雅意信息抽取大模型

雅意信息抽取大模型

雅意信息抽取大模型（YAYI-UIE）由中科闻歌算法团队研发，是一款在百万级人工构造的高质量信息抽取数据上进行指令微调的模型。它能够统一训练信息抽取任务，包括命名实体识别（NER）、关系抽取（RE）和事件抽取（EE），覆盖了通用、安全、金融、生物、医疗、商业等多个场景的结构化抽取。该模型的开源旨在促进中文预训练大模型开源社区的发展，并通过开源共建雅意大模型生态。

Qwen2

Qwen2是一系列经过预训练和指令调整的模型，支持多达27种语言，包括英语和中文。这些模型在多个基准测试中表现出色，特别是在编码和数学方面有显著提升。Qwen2模型的上下文长度支持高达128K个token，适用于处理长文本任务。此外，Qwen2-72B-Instruct模型在安全性方面与GPT-4相当，显著优于Mistral-8x22B模型。

GLM-4V-9B

GLM-4V-9B是智谱AI推出的新一代预训练模型，支持1120*1120高分辨率下的中英双语多轮对话，以及视觉理解能力。在多模态评测中，GLM-4V-9B展现出超越GPT-4-turbo-2024-04-09、Gemini 1.0 Pro、Qwen-VL-Max和Claude 3 Opus的卓越性能。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase