Holo 3.1 模型本地 Agent 部署实测：免费无限 Token，接入 OpenClaw ，速度确实很快！！

H Company 最新发布的 Holo 3.1 模型专为本地 Agent 场景设计，在性能上超越 Qwen 3.5 35B A3B，且完全免费、无 Token 限制。本文详细介绍了通过 llama.cpp 部署 Holo 3.1 并接入 OpenClaw 框架的完整流程，涵盖模型选择、启动脚本配置、API 对接等关键步骤。实测表明，在 RTX 4090 等中高端显卡上，Holo 3.1 执行浏览器自动化等 Agent 任务时响应极快，几乎无需等待，是当前本地部署 AI Agent 的最佳开源选择。

Holo 3.1：本地 Agent 的新标杆

近年来，AI Agent 从概念走向实用，从 OpenAI Codex 到 Anthropic Claude Code，AI 已能自主理解指令、调用工具、编写代码甚至操作电脑。然而，主流方案多依赖云端 API 或订阅服务，高频使用下 Token 消耗和费用不容忽视。

法国 AI 公司 H Company 最新发布的 Holo 3.1 Agent 模型打破了这一局面。它支持完全本地部署，可对接 OpenClaw 等 Agent 框架，赋予 AI 真实的电脑操作能力。对于拥有中高端显卡的用户，这意味着可以搭建一套完全本地化的 AI Agent 系统，零订阅费用、无 Token 限制，实现真正的“无限使用”。

更关键的是，Holo 3.1 在各项性能指标上全面超越 Qwen 3.5 35B A3B 模型，成为当前本地部署 AI Agent 的最佳开源选择。

部署教程：三步搭建本地 Agent

1. 安装 llama.cpp

本次部署选用 llama.cpp，因为其在速度和性能上均优于 Ollama 和 LMStudio，是 Agent 场景下的最优选择。

方案	速度	易用性	适合场景
llama.cpp	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	Agent 部署
LM Studio	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	日常使用
Ollama	⭐⭐⭐⭐	⭐⭐⭐⭐	API 调用
SGLang	⭐⭐⭐⭐⭐⭐	⭐	极限性能

从 GitHub 下载 llama.cpp 后解压，在根目录新建 models 文件夹用于存放模型文件。

2. 模型下载与选择

根据显卡配置选择对应尺寸的 GGUF 格式模型：

配置	推荐模型
RTX 4090 24GB	35B-A3B Q4_K_M
RTX 3090 24GB	35B-A3B Q4_K_M
RTX 5070Ti 16GB	9B
RTX 4060Ti 16GB	9B
Apple Silicon	9B GGUF

注意：使用 llama.cpp 加载本地模型必须选择 GGUF 格式，且需同时下载主模型和视觉模型（mmproj）文件。

3. 启动脚本配置

将以下内容保存为 .bat 批处理文件，或使用预制的启动脚本。脚本已针对不同显存配置优化了启动参数：

@echo off
chcp 65001 >nul
title Holo 3.1 VLM 一键启动器

set LLAMA=llama-server.exe

:MENU
cls
echo ==========================================
echo         Holo 3.1 VLM 启动器
echo ==========================================
echo.
echo 1. 8GB显卡推荐（0.8B）
echo 2. 12GB显卡推荐（4B）
echo 3. 16GB显卡推荐（9B）
echo 4. 24GB显卡推荐（35B-A3B）
echo.
echo 5. CPU模式（4B）
echo.
echo 0. 退出
echo.

set /p CHOICE=请选择：

if "%CHOICE%"=="1" goto GPU8
if "%CHOICE%"=="2" goto GPU12
if "%CHOICE%"=="3" goto GPU16
if "%CHOICE%"=="4" goto GPU24
if "%CHOICE%"=="5" goto CPU
if "%CHOICE%"=="0" exit

goto MENU

:GPU24
"%LLAMA%" ^
-m models\q4_k_m.gguf ^
--mmproj models\mmproj.f16.gguf ^
-ngl 999 ^
-c 65536 ^
--flash-attn on ^
--cache-type-k q8_0 ^
--cache-type-v q8_0 ^
--temp 0.2 ^
--top-p 0.9 ^
--repeat-penalty 1.05 ^
--host 127.0.0.1 ^
--port 1234

pause
goto MENU

注意：脚本中的模型名称和路径可根据实际下载文件自定义修改。启动后选择对应显卡配置即可运行。

4. 接入 OpenClaw 框架

模型部署完成后，将其对接到 Agent 框架。以 OpenClaw（小龙虾）为例，在管理员权限的 PowerShell 中执行一键安装命令：

powershell -c "irm https://openclaw.ai/install.ps1 | iex"

macOS/Linux 用户执行：

curl -fsSL https://openclaw.ai/install.sh | bash

在模型提供商设置中，API Base URL 填写 http://127.0.0.1:1234/v1，密钥留空。启动模式选择“浏览器启动”，即可进入 OpenClaw 的可视化操作界面。

成功启动后，建议安装浏览器自动化 skills：

openclaw skills install agent-browser-cli
openclaw skills install use-my-browser

安装后执行 openclaw gateway 重启即可生效。

实测体验：速度惊人，丝滑流畅

在 RTX 4090 上运行 35B-A3B 模型，接入 OpenClaw 后执行浏览器自动化任务，响应速度远超预期。相比之前的 Qwen 3.5 模型，Holo 3.1 几乎无需等待，任务秒级执行，操作丝滑流畅。

对于任务复杂度不高、无需极高推理难度的场景，Holo 3.1 完全可替代付费 API。只需一张性能不错的独立显卡，即可实现真正的本地 AI Agent 自由——完全免费、无需 Token、无需绑定任何付费套餐。