Claude 被禁后怎么办？3 款开源越狱模型实测推荐，可本地部署替代方案

最近，AI 圈发生了一件让很多开发者措手不及的事情。Anthropic 最新发布的 Claude 最强模型在美国政府要求下，对海外用户实施了严格的访问限制。对于绝大多数中国用户和海外开发者来说，这几乎等同于无法使用。

这件事也让越来越多人开始重新思考一个问题：当你的工作流、代码开发甚至商业项目都建立在某个闭源模型之上时，你真的拥有这项能力吗？模型提供商可以随时调整价格、修改规则、限制地区访问，甚至直接关闭服务。

为什么开源模型是更好的选择？

与闭源模型形成鲜明对比的是近年来快速崛起的开源模型生态。从 Qwen 3.6 到 Gemma 4，从本地部署到私有化运行，越来越多用户开始意识到，性能或许不是唯一标准，可控性和自主权同样重要。

开源模型的核心优势在于：

完全可控：模型文件在你手中，没有任何平台可以限制你的使用
隐私安全：数据无需上传到第三方服务器，敏感信息完全本地化
零成本调用：部署后无需按 Token 付费，适合高频使用场景
无审查限制：越狱模型去除了内容安全过滤，回答更加开放

三款实测推荐的开源越狱模型

经过多次实际测试，以下三款模型在性能和无审查力度上表现最佳，综合考虑 8GB~24GB 显存的主流配置，筛选如下：

1. Qwen3.6-35B-A3B-Uncensored（推荐）

量化版本	IQ2_M
显存需求	约 11.7 GB
特色	支持视觉输入，速度最快，显存占用最低
推荐指数	★★★★★

基于通义千问 Qwen 3.6 架构的越狱版本，采用 MoE 架构（35B 总参数，仅激活 3B），在极低显存消耗下提供了出色的性能表现，是目前本地部署的首选。

2. Gemma-4-31B-Jang-Crack Q3_K_M

量化版本	Q3_K_M
显存需求	约 15.3 GB
特色	质量与速度的平衡之选
推荐指数	★★★★☆

3. Gemma-4-31B-Jang-Crack Q4_K_M

量化版本	Q4_K_M
显存需求	约 18.7 GB
特色	当前画质最佳
推荐指数	★★★★★

本地部署教程

第一步：下载模型文件

Qwen3.6-35B-A3B-Uncensored： HuggingFace 下载

Gemma-4-31B-Jang-Crack： HuggingFace 下载

第二步：安装显卡驱动与 CUDA

建议安装最新的显卡驱动：NVIDIA 驱动下载。N 卡用户强烈建议安装 CUDA 加速引擎，可以大幅提升推理速度。

第三步：下载 llama.cpp

访问 llama.cpp GitHub 仓库下载最新版本（目前为 b9667），解压到本地目录。

将下载的 GGUF 模型文件放入 llama.cpp 目录下的 models/ 文件夹中。

第四步：启动模型

以下是一个完整的启动脚本示例，保存为 start.bat 并放入 llama.cpp 根目录：

@echo off
chcp 65001 >nul
title AI 本地模型启动器
cd /d "%~dp0"

echo ========================================
echo  选择要启动的模型：
echo   1 - Qwen3.6-35B (11.7GB, 支持视觉)
echo   2 - Gemma-4-31B Q3_K_M (15.3GB)
echo   3 - Gemma-4-31B Q4_K_M (18.7GB)
echo ========================================

set /p choice=请输入编号:

if "%choice%"=="1" (
    llama-server.exe -m models\qwen3.6-35b.gguf --mmproj models\mmproj.gguf -ngl 999 -c 32768 -fa on --host 127.0.0.1 --port 8080
)
if "%choice%"=="2" (
    llama-server.exe -m models\gemma-4-31b-q3.gguf -ngl 999 -c 16384 -fa on --host 127.0.0.1 --port 8080
)
if "%choice%"=="3" (
    llama-server.exe -m models\gemma-4-31b-q4.gguf -ngl 999 -c 12288 -fa on --host 127.0.0.1 --port 8080
)
pause

第五步：对接客户端

模型启动后，会提供一个兼容 OpenAI API 的接口：

http://127.0.0.1:8080/v1

可以对接以下客户端使用：

OpenClaw：开源的 Claude 客户端替代品
Hermes Agent：桌面版 AI 助手
Claude Code：配置第三方 API 地址即可使用
OpenAI Codex：同样支持自定义 API 端点

总结

Claude 的访问限制虽然给开发者带来了不便，但也加速了开源模型的普及。以 Qwen 3.6 和 Gemma 4 为代表的越狱模型，在性能和自由度上已经能够满足大多数日常使用场景。

无论你是追求极致性能的 Q4 量化版，还是注重显存效率的 IQ2 量化版，都能在消费级显卡上获得流畅的体验。当你的 AI 工具完全运行在本地时，才真正拥有了这项技术的主导权。