下一代 AI 引擎

牧马人本地推理引擎

在云端算力付费的时代，牧马人本地引擎为你提供一种全新的私有化 AI 生产力方案。作为专为高性能硬件优化的本地部署工具，它不仅集成几十余种大模型供你选择，还能为你节省海量 Token 花费，真正实现“AI 自由”。

立即下载返回首页

Qwen3.6WinML NPUDeepseekGptOssGemmaLlamaGLM-4.7Zimage-turboMimo V2

智能模式选择

速度、平衡、质量三种模式任你选，auto模式自动匹配最优本地模型

速度优先

平衡模式

质量优先

多样化图片生成

文生图、图生图、精确图片编辑，创意玩法随心所欲

文生图

图生图

精确编辑

多语种翻译

支持文档上传，自定义风格一键翻译

PDF上传

翻译模型

一键生成

丰富模型库

上百种模型任君挑选，满足各种AI应用需求

LLM模型

生图模型

音频模型

核心功能

为什么选择牧马人本地引擎

专为高性能 AI 推理设计的下一代引擎

节省 Token 成本

牧马人引擎将大模型部署在你本地硬件上，无论是长文文档总结，还是不停歇的代码生成，所有推理成本都等于你的电费。

丰富硬件生态

深度适配 Windows 系统，搭配推荐硬件可实现显存分配优化，即使在多任务并行环境下也能确保执行稳定。

更快的响应

优化推理路径并重构模型参数权重，小白也能轻松上手控制自己的“大模型”；面向极客群体，牧马人引擎还开放大模型 API，简单易用，自由度由你掌控。

隐私安全

在牧马人引擎的世界里，你的数据就是你的资产。无需联网、本地运行，从根源杜绝敏感信息泄露至云端的风险。

多模型支持

内置几十余种覆盖多模态、大语言等最新大模型，支持 OpenClaw 系列，只需一键即可完成从下载到部署全流程，小白也能一键启用。

个性化越用越懂你

结合本地数据（文档、习惯、日程等），FlowyAIPC 搭配牧马人 AI 推理引擎，可实现数据自我迭代，越用越懂你。

Intel 平台性能优化

大幅提升 Qwen3.5 系列模型在 Intel Panther Lake 平台的性能

llama-bench | 响应速度 (t/s) FA=1 对比
模型	FA	版本	512 tok	1k tok	2k tok	4k tok	8k tok	16k tok	32k tok	256k tok
Qwen3.5-35B-Q4_K_M	FA=1	初始版本	808.7	956.5	898.6	776.3	615.7	433.2	266.1	266.1
	FA=1	牧马人	1111	1183	1224.6	1195	1127.6	1106.6	825.3	825.3
	FA=1	性能对比	1.37x	1.24x	1.36x	1.54x	1.83x	2.55x	3.10x	3.10x

llama-bench | 对话生成速度 (t/s) FA=1 对比
模型	FA	版本	512 ctx	1k ctx	2k ctx	4k ctx	8k ctx	16k ctx	32k ctx	256k ctx
Qwen3.5-35B-Q4_K_M	FA=1	初始版本	31.1	30.4	30.2	28.6	26.8	24	20.2	20.2
	FA=1	牧马人	38.93	38.33	36.89	36.44	35.47	32.04	35.5	37
	FA=1	性能对比	1.25x	1.26x	1.22x	1.27x	1.33x	1.33x	1.76x	1.83x

3.10x

响应速度最大提升

32k tokens 上下文

1.83x

对话生成速度最大提升

256k tokens 上下文

2.01x

平均响应速度提升

全上下文范围

1.41x

平均对话生成速度提升

全上下文范围

OpenViking 核心技术

节省 Token 成本

避免窗口溢出 | 省 Token | 精准降本

使用轻量级 L0/L1 上下文进行规划，仅在执行时通过 URI 获取 L2 详情，大幅降低 Token 成本并消除截断风险。

L0 概要

一句概括，快速判断

Token 消耗

< 100 tokens

极简摘要，快速决策

L1 核心

核心信息，规划决策

Token 消耗

< 2k tokens

关键信息，智能规划

L2 详情

完整细节，按需加载

Token 消耗

按需加载

完整数据，深度执行

降低 90% Token 成本

智能分层加载

零窗口溢出

告别截断风险

3 倍响应速度

轻量上下文

安全保障

隐私安全

你的聊天记录、文档、照片上传到云端总觉得不踏实？牧马人本地引擎让数据留在本地，真正做到“我的数据我做主”。

本地存储

所有数据存储在本地设备，不上传到云端，完全掌控数据所有权。

端到端加密

数据传输采用银行级加密标准，确保信息安全不被窃取。

隐私保护

不收集用户行为数据，不进行任何形式的用户分析和追踪。

更快的响应

不受网络波动、适配 Windows 系统、降低成本

云端模型

受网络波动影响大

任务进入排队等待

算力费用高

本地模型

模型一经加载，即用即停，响应迅速✓ 更优

可丝滑接入其他生产力工具，提供 API 接口✓ 更优

本地直连，Token 输出如泉涌✓ 更优

买硬件送6个月免费

选择适合您的方案

购买FlowyAIPC硬件即享6个月免费完整功能，或选择灵活订阅方案

限时免费

HARDWARE

硬件免费版

购买FlowyAIPC硬件即可0元体验算力服务

此处硬件指的是一体机设备

免费

6个月完整功能

免费包含

解锁硬件满血性能，赠送6个月ultra服务
完整ultra功能体验
全球顶尖大模型池
完整API开放
极速响应通道
7x24专属支持

需在硬件绑定后30天内激活

加载方案中...

牧马人本地推理引擎

智能模式选择

多样化图片生成

多语种翻译

丰富模型库

为什么选择牧马人本地引擎

节省 Token 成本

丰富硬件生态

更快的响应

隐私安全

多模型支持

个性化越用越懂你

大幅提升 Qwen3.5 系列模型在 Intel Panther Lake 平台的性能

节省 Token 成本

L0 概要

L1 核心

L2 详情

隐私安全

本地存储

端到端加密

隐私保护

更快的响应

云端模型

本地模型

选择适合您的方案

HARDWARE

已有Flowy Ultra年付套餐？