大语言模型

# 大语言模型

WeClone

WeClone 是一个基于微信聊天记录微调大语言模型的项目，主要用于实现高质量的声音克隆和数字分身。它结合了微信语音消息和 0.5B 大模型，允许用户通过聊天机器人与自己的数字分身互动。该技术在数字永生和声音克隆领域具有重要的应用价值，可以让用户在不在场的情况下继续与他人交流。此项目正在快速迭代中，适合对 AI 和语言模型感兴趣的用户，且目前处于免费的开发阶段。

Dream 7B

Dream 7B 是由香港大学 NLP 组和华为诺亚方舟实验室联合推出的最新扩散大语言模型。它在文本生成领域展现了优异的性能，特别是在复杂推理、长期规划和上下文连贯性等方面。该模型采用了先进的训练方法，具有强大的计划能力和灵活的推理能力，为各类 AI 应用提供了更为强大的支持。

Argo

Xark-Argo是一款桌面客户端产品，旨在帮助用户轻松构建和使用自己的大语言模型。它支持多种操作系统，包括MacOS和Windows，提供了强大的本地化模型部署能力。通过集成ollama技术，用户可以一键下载开源模型，并支持大模型API，如ChatGPT、Claude、Siliconflow等，大大降低了使用门槛。该产品适用于需要高效处理文本和知识管理的个人和企业用户，具有高度的灵活性和扩展性。目前暂无明确价格信息，但其功能定位表明它可能面向中高端用户群体。

开发与工具

NotaGen

NotaGen 是一款创新的符号音乐生成模型，通过预训练、微调和强化学习三个阶段提升音乐生成质量。它利用大语言模型技术，能够生成高质量的古典乐谱，为音乐创作带来新的可能性。该模型的主要优点包括高效生成、风格多样和高质量输出。它适用于音乐创作、教育和研究等领域，具有广泛的应用前景。

AoT

Atom of Thoughts (AoT) 是一种新型推理框架，通过将解决方案表示为原子问题的组合，将推理过程转化为马尔可夫过程。该框架通过分解和收缩机制，显著提升了大语言模型在推理任务上的性能，同时减少了计算资源的浪费。AoT 不仅可以作为独立的推理方法，还可以作为现有测试时扩展方法的插件，灵活结合不同方法的优势。该框架开源且基于 Python 实现，适合研究人员和开发者在自然语言处理和大语言模型领域进行实验和应用。

模型训练与部署

Spark-TTS

Spark-TTS 是一种基于大语言模型的高效文本到语音合成模型，具有单流解耦语音令牌的特性。它利用大语言模型的强大能力，直接从代码预测的音频进行重建，省略了额外的声学特征生成模型，从而提高了效率并降低了复杂性。该模型支持零样本文本到语音合成，能够跨语言和代码切换场景，非常适合需要高自然度和准确性的语音合成应用。它还支持虚拟语音创建，用户可以通过调整参数（如性别、音高和语速）来生成不同的语音。该模型的背景是为了解决传统语音合成系统中效率低下和复杂性高的问题，旨在为研究和生产提供高效、灵活且强大的解决方案。目前，该模型主要面向学术研究和合法应用，如个性化语音合成、辅助技术和语言研究等。

文本转声音

Level-Navi Agent-Search

Level Navi Agent Search

Level-Navi Agent是一个开源的通用网络搜索代理框架，能够将复杂问题分解并逐步搜索互联网上的信息，直至回答用户问题。它通过提供Web24数据集，覆盖金融、游戏、体育、电影和事件等五大领域，为评估模型在搜索任务上的表现提供了基准。该框架支持零样本和少样本学习，为大语言模型在中文网络搜索代理领域的应用提供了重要参考。

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

TableGPT2-7B

TableGPT2-7B 是由浙江大学开发的大规模解码器模型，专门用于处理数据密集型任务，尤其是表格数据的解读和分析。该模型基于 Qwen2.5 架构，通过持续预训练（CPT）和监督微调（SFT）优化，能够处理复杂的表格查询和商业智能（BI）应用。它支持中文查询，适合需要高效处理结构化数据的企业和研究机构。模型目前免费开源，未来可能会推出更专业的版本。

MoBA

MoBA（Mixture of Block Attention）是一种创新的注意力机制，专为长文本上下文的大语言模型设计。它通过将上下文划分为块，并让每个查询令牌学习关注最相关的块，从而实现高效的长序列处理。MoBA 的主要优点是能够在全注意力和稀疏注意力之间无缝切换，既保证了性能，又提高了计算效率。该技术适用于需要处理长文本的任务，如文档分析、代码生成等，能够显著降低计算成本，同时保持模型的高性能表现。MoBA 的开源实现为研究人员和开发者提供了强大的工具，推动了大语言模型在长文本处理领域的应用。

模型训练与部署

MNN 大模型 Android App

MNN 大模型 Android App

MNN 大模型 Android App 是阿里巴巴开发的一款基于大语言模型（LLM）的安卓应用。它支持多种模态输入和输出，包括文本生成、图像识别、音频转录等。该应用通过优化推理性能，确保在移动设备上高效运行，同时保护用户数据隐私，所有处理均在本地完成。它支持多种领先的模型提供商，如 Qwen、Gemma、Llama 等，适用于多种场景。

Baichuan-M1-14B

Baichuan M1 14B

Baichuan-M1-14B 是由百川智能开发的开源大语言模型，专为医疗场景优化。它基于20万亿token的高质量医疗与通用数据训练，覆盖20多个医疗科室，具备强大的上下文理解和长序列任务表现能力。该模型在医疗领域表现出色，同时在通用任务中也达到了同尺寸模型的效果。其创新的模型结构和训练方法使其在医疗推理、病症判断等复杂任务中表现出色，为医疗领域的人工智能应用提供了强大的支持。

Doubao-1.5-pro

Doubao-1.5-pro 是由豆包团队开发的高性能稀疏 MoE（Mixture of Experts）大语言模型。该模型通过训练-推理一体化设计，实现了模型性能与推理性能的极致平衡。它在多个公开评测基准上表现出色，尤其在推理效率和多模态能力方面具有显著优势。该模型适用于需要高效推理和多模态交互的场景，如自然语言处理、图像识别和语音交互等。其技术背景基于稀疏激活的 MoE 架构，通过优化激活参数比例和训练算法，实现了比传统稠密模型更高的性能杠杆。此外，该模型还支持动态调整参数，以适应不同的应用场景和成本需求。

PaSa

PaSa 是由字节跳动开发的一种先进学术论文搜索代理，基于大语言模型（LLM）技术，能够自主调用搜索工具、阅读论文并筛选相关参考文献，以获取复杂学术查询的全面准确结果。该技术通过强化学习优化，使用合成数据集 AutoScholarQuery 进行训练，并在真实世界查询数据集 RealScholarQuery 上表现出色，显著优于传统搜索引擎和基于 GPT 的方法。PaSa 的主要优势在于其高召回率和精准率，能够为研究人员提供更高效的学术搜索体验。

VITA-1.5

VITA-1.5 是一款开源的多模态大语言模型，旨在实现接近实时的视觉和语音交互。它通过显著降低交互延迟和提升多模态性能，为用户提供更流畅的交互体验。该模型支持英语和中文，适用于多种应用场景，如图像识别、语音识别和自然语言处理等。其主要优点包括高效的语音处理能力和强大的多模态理解能力。

InternVL2-8B-MPO

Internvl2 8B MPO

InternVL2-8B-MPO是一个多模态大语言模型（MLLM），通过引入混合偏好优化（MPO）过程，增强了模型的多模态推理能力。该模型在数据方面设计了自动化的偏好数据构建管线，并构建了MMPR这一大规模多模态推理偏好数据集。在模型方面，InternVL2-8B-MPO基于InternVL2-8B初始化，并使用MMPR数据集进行微调，展现出更强的多模态推理能力，且幻觉现象更少。该模型在MathVista上取得了67.0%的准确率，超越InternVL2-8B 8.7个点，且表现接近于大10倍的InternVL2-76B。

FlagEval

FlagEval是一个模型评测平台，专注于大语言模型和多模态模型的评测。它提供了一个公正、透明的环境，让不同的模型在同一标准下进行比较，帮助研究者和开发者了解模型性能，推动人工智能技术的发展。该平台涵盖了对话模型、视觉语言模型等多种模型类型，支持开源和闭源模型的评测，并提供专项评测如K12学科测验和金融量化交易评测。

ChatHi

ChatHi是一个多功能AI智能助手平台，提供包括文案创作、知识问答、代码编程、逻辑推演、数理推算等服务。平台依托于先进的大语言模型技术，如天工大模型、Claude系列模型以及G-3.5、G-4.0等，旨在提升用户工作效率和信息处理能力。产品背景信息显示，ChatHi由中国公司昆仑万维自研，对标国际先进的ChatGPT技术，具有强大的本土化优势和价格竞争力。

卡卡字幕助手

卡卡字幕助手

卡卡字幕助手（VideoCaptioner）是一款功能强大的视频字幕配制软件，利用大语言模型进行字幕智能断句、校正、优化、翻译，实现字幕视频全流程一键处理。产品无需高配置，操作简单，内置基础LLM模型，保证开箱即用，且消耗模型Token少，适合视频制作者和内容创作者。

FakeShield

FakeShield是一个多模态框架，旨在解决图像检测和定位（IFDL）领域中的两个主要挑战：检测原理的黑箱性和在不同篡改方法间的有限泛化能力。FakeShield通过利用GPT-4o增强现有的IFDL数据集，创建了多模态篡改描述数据集（MMTD-Set），用于训练FakeShield的篡改分析能力。该框架包括领域标签引导的可解释检测模块（DTE-FDM）和定位模块（MFLM），能够处理各种类型的篡改检测解释，并实现由详细文本描述引导的定位。FakeShield在检测准确性和F1分数上优于其他方法，提供了一个可解释且优越的解决方案。

awesome-LLM-resourses

Awesome LLM Resourses

awesome-LLM-resourses是一个汇总了全球大语言模型（LLM）资源的平台，提供了从数据获取、微调、推理、评估到实际应用等一系列资源和工具。它的重要性在于为研究人员和开发者提供了一个全面的资源库，以便于他们能够更高效地开发和优化自己的语言模型。该平台由王荣胜维护，持续更新，为LLM领域的发展提供了强有力的支持。

AI工具网址目录

VirtualWife

VirtualWife是一个虚拟数字人项目，旨在打造一个拥有自己“灵魂”的虚拟伴侣。该项目支持B站直播，并且兼容openai、ollama等大语言模型。VirtualWife不仅能够提供情感陪伴，还能作为恋爱导师和心理咨询师，满足人类的情感需求。项目处于孵化阶段，作者投入了大量的业余时间进行开发，希望用户能够通过点star来支持项目的发展。

Open-O1

Open O1是一个开源项目，旨在通过开源创新，匹配专有的强大O1模型能力。该项目通过策划一组O1风格的思考数据，用于训练LLaMA和Qwen模型，赋予了这些较小模型更强大的长期推理和解决问题的能力。随着Open O1项目的推进，我们将继续推动大型语言模型的可能性，我们的愿景是创建一个不仅能够实现类似O1的性能，而且在测试时扩展性方面也处于领先地位的模型，使高级AI能力为所有人所用。通过社区驱动的开发和对道德实践的承诺，Open O1将成为AI进步的基石，确保技术的未来发展是开放的，并对所有人有益。

Diabetica

Diabetica是一个专门针对糖尿病治疗和护理而开发的高级语言模型。它通过深度学习和大数据分析，能够提供包括诊断、治疗建议、药物管理、生活方式建议和患者教育在内的多种服务。Diabetica的模型Diabetica-7B和Diabetica-1.5B在多个糖尿病相关任务上展示了卓越的性能，并且提供了一个可复现的框架，使得其他医学领域也能受益于此类AI技术。

WaveCoder

WaveCoder是由微软亚洲研究院开发的代码大语言模型，通过指令微调增强代码大语言模型的广泛性和多功能性。它在代码摘要、生成、翻译、修复等多个编程任务上展现出卓越的性能。WaveCoder的创新之处在于其使用的数据合成框架和两阶段指令数据生成策略，确保了数据的高质量和多样性。该模型的开源，为开发者提供了一个强大的编程辅助工具，有助于提高开发效率和代码质量。

RD-Agent

RD-Agent是微软亚洲研究院推出的一款自动化研究与开发工具，依托大语言模型的强大能力，开创了以人工智能驱动R&D流程自动化的新模式。它通过整合数据驱动的R&D系统，可以借助人工智能能力驱动创新与开发的自动化，不仅提高了研发效率，还利用智能化的决策和反馈机制，为未来的跨领域创新与知识迁移提供了无限可能。

PresentationGen

Presentationgen

PresentationGen是一个基于SpringBoot框架开发的Web应用程序，它通过集成大语言模型（LLM）来自动化生成PPT文件。该技术通过预处理大量单页模板，并在用户使用时根据需求实时组合，实现快速生成PPTX文件。它支持文本替换，使得生成的演示文稿更加个性化和专业。该产品主要面向需要快速制作演示文稿的用户，如商务人士、教育工作者和设计师，帮助他们节省时间并提高工作效率。

AI演示幻灯片

汉王天地大模型

汉王天地大模型

汉王天地大模型是汉王科技推出的一款专注于人工智能领域的大语言模型，拥有30年的行业积累。它能够实现多轮对话，高效处理任务，并深耕办公、教育、人文等多个垂直细分领域。该模型通过从人类反馈中进行强化学习，不断优化自身智能，提供包括智能校对、自动翻译、法律咨询、绘画生成、文案生成等在内的多样化服务，以赋能法律、人文、办公、教育、医养等行业，提升效率和创意。

AMchat

AMchat是一个集成了数学知识和高等数学习题及其解答的大语言模型。它基于InternLM2-Math-7B模型，通过xtuner微调，专门设计用于解答高等数学问题。该项目在2024浦源大模型系列挑战赛（春季赛）中获得Top12和创新创意奖，体现了其在高等数学领域的专业能力和创新性。

Index-1.9B

Index-1.9B系列是哔哩哔哩公司自主研发的轻量级大语言模型，包含多种版本，如base、pure、chat和character等，适用于中英文为主的语料预训练，并在多个评测基准上表现优异。模型支持SFT和DPO对齐，以及RAG技术实现角色扮演定制，适用于对话生成、角色扮演等场景。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase