最近,AI 圈发生了一件让很多开发者措手不及的事情。Anthropic 最新发布的 Claude 最强模型在美国政府要求下,对海外用户实施了严格的访问限制。对于绝大多数中国用户和海外开发者来说,这几乎等同于无法使用。

这件事也让越来越多人开始重新思考一个问题:当你的工作流、代码开发甚至商业项目都建立在某个闭源模型之上时,你真的拥有这项能力吗?模型提供商可以随时调整价格、修改规则、限制地区访问,甚至直接关闭服务。

为什么开源模型是更好的选择?

与闭源模型形成鲜明对比的是近年来快速崛起的开源模型生态。从 Qwen 3.6 到 Gemma 4,从本地部署到私有化运行,越来越多用户开始意识到,性能或许不是唯一标准,可控性和自主权同样重要。

开源模型的核心优势在于:

  • 完全可控:模型文件在你手中,没有任何平台可以限制你的使用
  • 隐私安全:数据无需上传到第三方服务器,敏感信息完全本地化
  • 零成本调用:部署后无需按 Token 付费,适合高频使用场景
  • 无审查限制:越狱模型去除了内容安全过滤,回答更加开放

三款实测推荐的开源越狱模型

经过多次实际测试,以下三款模型在性能和无审查力度上表现最佳,综合考虑 8GB~24GB 显存的主流配置,筛选如下:

1. Qwen3.6-35B-A3B-Uncensored(推荐)

量化版本IQ2_M
显存需求约 11.7 GB
特色支持视觉输入,速度最快,显存占用最低
推荐指数★★★★★

基于通义千问 Qwen 3.6 架构的越狱版本,采用 MoE 架构(35B 总参数,仅激活 3B),在极低显存消耗下提供了出色的性能表现,是目前本地部署的首选。

2. Gemma-4-31B-Jang-Crack Q3_K_M

量化版本Q3_K_M
显存需求约 15.3 GB
特色质量与速度的平衡之选
推荐指数★★★★☆

3. Gemma-4-31B-Jang-Crack Q4_K_M

量化版本Q4_K_M
显存需求约 18.7 GB
特色当前画质最佳
推荐指数★★★★★

本地部署教程

第一步:下载模型文件

Qwen3.6-35B-A3B-Uncensored: HuggingFace 下载

Gemma-4-31B-Jang-Crack: HuggingFace 下载

第二步:安装显卡驱动与 CUDA

建议安装最新的显卡驱动:NVIDIA 驱动下载。N 卡用户强烈建议安装 CUDA 加速引擎,可以大幅提升推理速度。

第三步:下载 llama.cpp

访问 llama.cpp GitHub 仓库 下载最新版本(目前为 b9667),解压到本地目录。

将下载的 GGUF 模型文件放入 llama.cpp 目录下的 models/ 文件夹中。

第四步:启动模型

以下是一个完整的启动脚本示例,保存为 start.bat 并放入 llama.cpp 根目录:

@echo off
chcp 65001 >nul
title AI 本地模型启动器
cd /d "%~dp0"

echo ========================================
echo  选择要启动的模型:
echo   1 - Qwen3.6-35B (11.7GB, 支持视觉)
echo   2 - Gemma-4-31B Q3_K_M (15.3GB)
echo   3 - Gemma-4-31B Q4_K_M (18.7GB)
echo ========================================

set /p choice=请输入编号:

if "%choice%"=="1" (
    llama-server.exe -m models\qwen3.6-35b.gguf --mmproj models\mmproj.gguf -ngl 999 -c 32768 -fa on --host 127.0.0.1 --port 8080
)
if "%choice%"=="2" (
    llama-server.exe -m models\gemma-4-31b-q3.gguf -ngl 999 -c 16384 -fa on --host 127.0.0.1 --port 8080
)
if "%choice%"=="3" (
    llama-server.exe -m models\gemma-4-31b-q4.gguf -ngl 999 -c 12288 -fa on --host 127.0.0.1 --port 8080
)
pause

第五步:对接客户端

模型启动后,会提供一个兼容 OpenAI API 的接口:

http://127.0.0.1:8080/v1

可以对接以下客户端使用:

  • OpenClaw:开源的 Claude 客户端替代品
  • Hermes Agent:桌面版 AI 助手
  • Claude Code:配置第三方 API 地址即可使用
  • OpenAI Codex:同样支持自定义 API 端点

总结

Claude 的访问限制虽然给开发者带来了不便,但也加速了开源模型的普及。以 Qwen 3.6 和 Gemma 4 为代表的越狱模型,在性能和自由度上已经能够满足大多数日常使用场景。

无论你是追求极致性能的 Q4 量化版,还是注重显存效率的 IQ2 量化版,都能在消费级显卡上获得流畅的体验。当你的 AI 工具完全运行在本地时,才真正拥有了这项技术的主导权。