边缘计算

# 边缘计算

Hailo AI

Hailo AI on the Edge Processors提供AI加速器和视觉处理器，支持边缘设备解决方案，旨在实现新时代的AI边缘处理和视频增强。产品定位于提供高性能深度学习应用，同时支持感知和视频增强。

RF-DETR

RF-DETR 是一个基于变压器的实时目标检测模型，旨在为边缘设备提供高精度和实时性能。它在 Microsoft COCO 基准测试中超过了 60 AP，具有竞争力的性能和快速的推理速度，适合各种实际应用场景。RF-DETR 旨在解决现实世界中的物体检测问题，适用于需要高效且准确检测的行业，如安防、自动驾驶和智能监控等。

OmniAudio-2.6B

OmniAudio-2.6B是一个2.6B参数的多模态模型，能够无缝处理文本和音频输入。该模型结合了Gemma-2B、Whisper turbo和一个自定义投影模块，与传统的将ASR和LLM模型串联的方法不同，它将这两种能力统一在一个高效的架构中，以最小的延迟和资源开销实现。这使得它能够安全、快速地在智能手机、笔记本电脑和机器人等边缘设备上直接处理音频文本。

SmolVLM

SmolVLM是一个小型但功能强大的视觉语言模型（VLM），拥有2B参数，以其较小的内存占用和高效性能在同类模型中处于领先地位。SmolVLM完全开源，包括所有模型检查点、VLM数据集、训练配方和工具均在Apache 2.0许可下发布。该模型适合在浏览器或边缘设备上进行本地部署，降低推理成本，并允许用户自定义。

Workers AI

Workers AI是Cloudflare推出的一款在边缘计算环境中运行机器学习模型的产品。它允许用户在全球范围内的Cloudflare网络节点上部署和运行AI应用，这些应用可以是图像分类、文本生成、目标检测等多种类型。Workers AI的推出标志着Cloudflare在全球网络中部署了GPU资源，使得开发者能够构建和部署接近用户的雄心勃勃的AI应用。该产品的主要优点包括全球分布式部署、低延迟、高性能和可靠性，同时支持免费和付费计划。

Moonshine

Moonshine 是一系列为资源受限设备优化的语音转文本模型，非常适合实时、设备上的应用程序，如现场转录和语音命令识别。在 HuggingFace 维护的 OpenASR 排行榜中使用的测试数据集上，Moonshine 的词错误率（WER）优于同样大小的 OpenAI Whisper 模型。此外，Moonshine 的计算需求随着输入音频的长度而变化，这意味着较短的输入音频处理得更快，与 Whisper 模型不同，后者将所有内容都作为 30 秒的块来处理。Moonshine 处理 10 秒音频片段的速度是 Whisper 的 5 倍，同时保持相同或更好的 WER。

quantized Llama

Quantized Llama

Llama模型是Meta公司推出的大型语言模型，通过量化技术，使得模型体积更小、运行速度更快，同时保持了模型的质量和安全性。这些模型特别适用于移动设备和边缘部署，能够在资源受限的设备上提供快速的设备内推理，同时减少内存占用。量化Llama模型的开发，标志着在移动AI领域的一个重要进步，使得更多的开发者能够在不需要大量计算资源的情况下，构建和部署高质量的AI应用。

模型训练与部署

Ministral-8B-Instruct-2410

Ministral 8B Instruct 2410

Ministral-8B-Instruct-2410是由Mistral AI团队开发的一款大型语言模型，专为本地智能、设备端计算和边缘使用场景设计。该模型在类似的大小模型中表现优异，支持128k上下文窗口和交错滑动窗口注意力机制，能够在多语言和代码数据上进行训练，支持函数调用，词汇量达到131k。Ministral-8B-Instruct-2410模型在各种基准测试中表现出色，包括知识与常识、代码与数学以及多语言支持等方面。该模型在聊天/竞技场（gpt-4o判断）中的性能尤为突出，能够处理复杂的对话和任务。

Llama 3.2

Llama 3.2是一系列大型语言模型（LLMs），预训练和微调在1B和3B大小的多语言文本模型，以及11B和90B大小的文本和图像输入输出文本的模型。这些模型可以用于开发高性能和高效率的应用。Llama 3.2的模型可以在移动设备和边缘设备上运行，支持多种编程语言，并且可以通过Llama Stack构建代理应用程序。

Grounding DINO 1.5 API

Grounding DINO 1.5 API

Grounding DINO 1.5是由IDEA Research开发，旨在推进开放世界目标检测技术边界的高级模型系列。该系列包含两个模型：Grounding DINO 1.5 Pro和Grounding DINO 1.5 Edge，分别针对广泛的应用场景和边缘计算场景进行了优化。

AI图像检测识别

VILA

VILA是一个预训练的视觉语言模型（VLM），它通过大规模的交错图像-文本数据进行预训练，从而实现视频理解和多图像理解能力。VILA通过AWQ 4bit量化和TinyChat框架在边缘设备上可部署。主要优点包括：1) 交错图像-文本数据对于提升性能至关重要；2) 在交错图像-文本预训练期间不冻结大型语言模型（LLM）可以促进上下文学习；3) 重新混合文本指令数据对于提升VLM和纯文本性能至关重要；4) 标记压缩可以扩展视频帧数。VILA展示了包括视频推理、上下文学习、视觉思维链和更好的世界知识等引人入胜的能力。

Octopus-V2

Octopus-V2-2B是由斯坦福大学NexaAI开发的开源大型语言模型，具有20亿参数，专门为Android API的功能调用定制。它采用了独特的功能性标记策略，用于训练和推理阶段，使其达到与GPT-4相当的性能水平，并提高了推理速度。Octopus-V2-2B特别适合边缘计算设备，能够在设备上直接运行，支持广泛的应用场景。

Chooch AI Vision

Chooch AI Vision

Chooch AI Vision Platform是一款AI视觉平台，通过AI算法实现对图像和视频的实时分析和识别。该平台可帮助企业快速检测和分析成千上万种视觉对象、图像或动作，并在图像被识别出时立即采取行动。具有高度精确和高效的操作，能够提升业务运营性能。Chooch AI Vision Platform提供多种预训练的AI模型，可快速部署并支持在云端或边缘设备上使用。定价根据具体需求定制。

Blaize

Blaize 是一款 AI 边缘计算硬件和软件平台，更高效、更灵活、更准确、更经济实惠。它能够在边缘部署 AI 而无需牺牲性能，为市场转型和工作生活方式改善带来了巨大的价值。

开发与工具

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase