有。BUZZ 控制台按模型、时间、API key 维度分别展示 token 用量。脚本装的 Claude Code 状态栏插件还会在 CLI 里直接显示实时余额。

Engineering · Cost · Claude Code

Claude Code 怎么用得便宜又不掉功能:走 BUZZ 网关的完整方案

Q: 我官方的 Anthropic key 在 Claude Code 之外的工具里还能继续用吗?

可以。网关是按终端会话生效的。Claude Code 只读取 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN,所以 BUZZ 的值只在你导出的那个 shell 里起作用。其他用 Anthropic SDK 加自己的 ANTHROPIC_API_KEY 的工具,继续直连 api.anthropic.com,完全不受影响。

Q: Extended Thinking 通过网关还能用吗?

能用。网关原样转发 thinking 参数和流式 thinking blocks。Claude Code 能向官方请求的所有功能,包括 reasoning budget,行为完全一样。

Q: Tool Use 还是流式吗?

是。网关把 server-sent events 拿到就转,tool_use blocks、JSON 片段、content chunks 都按字节级转发,Claude Code 看到的增量输出和官方端点完全一致。

Q: 怎么切回官方 Anthropic 端点?

把那两个环境变量取消或覆盖即可:从 shell profile 里删掉 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN,或者在当前 shell 跑 unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN。安装脚本也提供了 --uninstall 参数,会自动清理环境变量行和状态栏插件。

Q: 我发给 Claude Code 的源代码会被记录吗?

BUZZ 执行零数据留存策略。请求和响应的 body 不落盘。只记录计费元数据:模型名、token 计数、时间戳。字节流过即逝。

Q: Claude Code 的 MCP server 还能用吗?

能用。MCP server 跑在 Claude Code 本地进程里,通过同一套 Messages API 把工具定义和结果传给模型。换 base URL 不会改变 Claude Code 与 MCP 之间的交互方式,只改了模型请求发到哪里。

Q: Prompt Cache 还能继续降本吗?

能。cache_control 字段和 cache 输入用量都原样透传。网关按 cache 命中价计费,Claude Code 长会话只要 system prompt 和上下文稳定,缓存命中带来的折扣依然兑现。

Q: 我能把模型钉死吗?网关会不会偷换?

你在 Claude Code 里选哪个模型,跑的就是哪个。没有静默降级,没有影子路由。请求标的是 Opus,网关就把它转给 Opus。

Claude Code 是大多数工程师用过最强的 agentic 编程 CLI,账单也对得起这个名头。一个 base URL 改完,所有功能照常,Token 单价同时往下走。

Claude Code 的口碑不是吹出来的。它读你的仓库、改文件、跑命令、调 MCP server,把一长串工具调用串在一次对话里直到任务真正做完。这种能力的代价是 Token。一个心无旁骛的下午就能在 Anthropic 余额上砸出明显的坑;团队天天用,账单上的眉头会越皱越紧。

好在那根降本的杠杆其实很短。Claude Code 从环境变量里读 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN,把它指向 BUZZ AI 网关只要在终端敲一行命令。CLI 行为分毫不变,账单转去 BUZZ,Token 单价低于官方价目表上写的数字。你发的代码、agent 拼出来的 prompt、流回的响应一个字节都不会改。改的只是计价表。

这篇文章把几件事讲透:Claude Code 为什么这么烧 Token、降本两条真正的路、60 秒搭好的步骤,以及把网关放在前面之后,什么不会变、什么会变。

Claude Code 为什么这么烧 API 额度

Token 单价跟谁在调没关系,但 Claude Code 的用法形态本身就把 Token 数量翻了又翻。在动手优化前,先看清这个循环。

每一轮 agent 交互都是一次完整请求。CLI 把 system prompt、tool 定义、整段对话历史、agent 已经读进上下文的文件内容、上一步的 tool 结果,一股脑打包成一次 Messages API 调用。模型回一段 assistant 文本加若干 tool_use blocks,Claude Code 在本地跑工具,把结果追加进对话,再发一次。这就是 agentic loop。

它在账单上的表现是:

Input tokens 涨得很快。每一份历史 tool 结果、每一个 agent 读过的文件、每一条之前的消息,都会一直留在上下文窗口里直到会话结束。
Output tokens 单轮不算多,但轮次密。一个用户指令很容易在背后扇出 10 到 20 次模型调用。
带 reasoning 的模型会额外消耗 thinking blocks 的 output tokens —— 你看不到那段内容,但你为它买单。

一个粗略估算就能看清形状。一个聚精会神写代码的工作日,假设跑 50 轮 agent 交互,平均每轮 50,000 个 input tokens(中等程度的上下文)、5,000 个 output tokens。按 Opus 级别每百万 input $5、每百万 output $25 算:

cost_per_turn   = (50,000 * $5  +  5,000 * $25) / 1,000,000
                = ($250,000 + $125,000) / 1,000,000
                = $0.375

cost_per_day    = 50 turns * $0.375
                = $18.75

这是一个工程师一天的花销,而且这里设的轮次大小很容易被超过 —— agent 把几个文件一并读进上下文就上去了。算上一个团队,或者一个一边 Claude Code 后台跑一边解更难问题的工程师,月账单就不再是个小数点后的零头。

另外两件事让账单进一步发酵。第一,Prompt Cache 很有用,但前提是请求前缀稳定;Claude Code 在 agent 改文件时会重写对话的某些部分,缓存命中率被冲淡。第二,Opus 的 input 价格大约是 Sonnet 的 5 倍、output 大约 3 倍,只要会话钉死 Opus,这条曲线就会更陡。

降本的两条路

把这个数字往下压,有两条干净的路径。它们不互斥,大多数团队两条都用。

1. 按任务分级用模型

不是每一轮 Claude Code 交互都配得上 Opus。最强的推理模型在真正难的场景才合适:跨文件的模糊重构、刁钻的并发 bug、新架构决策。其余时间,Sonnet 写 agentic 代码完全够用,Haiku 处理简单文件改动、正则替换、批量重排版也够。

策略很直接:

日常开发默认走 Sonnet。
Sonnet 真的搞不定、或者答错代价高的时候才切 Opus。
已经知道改动形状的清理类任务交给 Haiku。

纯粹靠分级有一个明显的缺点:它改变了你的工作方式。你得记着切档,而且经常要为"Sonnet 试一遍失败再退到 Opus"付一份钱。这是一根真杠杆,但只动了一半。

2. 走网关

另一条路是改计价表,而不是改模型。BUZZ AI 是 Anthropic API 前面的一层网关。Claude Code CLI 发同样的请求,网关原样转给 Anthropic,响应原样回流。BUZZ 的 Token 单价低于官方价目表;每个模型的实时数字以价格 API和模型广场为准。

降本的形状很简单:Claude Code 本来发给 Anthropic 的每一个 Token 还是发给了 Anthropic,账单去到 BUZZ 而且单价更低。没有需要适应的行为变化,键盘前没有要记的开关,几秒钟就能切回去。

最强的版本是两根杠杆同时拉:模型按场景分级,所有调用都走网关。

60 秒接通 Claude Code 和 BUZZ

一条命令搞定全程:

curl -fsSL https://buzzai.cc/sh/claudecode.sh | bash

这个安装脚本完全在你的 home 目录里跑,除非系统包管理器要求,否则不会要 sudo。完整流程是:

识别 shell 环境。macOS、Linux、WSL、Alpine、Windows 上的 Git Bash 都覆盖了。脚本会自动选对应的 shell 配置文件(.zshrc、.bashrc、.bash_profile 或 .profile)写入持久化配置。
缺失时安装 Claude Code CLI。优先调用 Anthropic 官方安装器(就是 claude.ai/install.sh 那个),再退到平台包管理器(Homebrew、apt、dnf、apk、winget),都不行就退到 npm。如果 Claude Code 已经用别的方式装过,会询问是否升级到原生构建。
配置网关端点。把 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN 写入 shell 配置,保存前先打一次网关的 /v1/models 验证 key。失败会直接告诉你为什么,而不是闷头继续。
装上余额状态栏插件。一个小脚本(Node、Python 或纯 Bash,挑你机器上有的运行时)会被注册成 Claude Code 的 statusLine 命令。它每分钟从网关读一次余额,在 CLI 里把模型名和剩余余额打印在一起。终端里就有了一块实时成本表。
设置 onboarding 标志。把 ~/.claude.json 标记为已 onboard,这样 CLI 不会再跳出官方浏览器登录流程。

脚本结束后开一个新终端让环境变量生效,在任意项目里跑 claude。状态栏会显示当前模型和剩余 USD 余额。这就是验证 —— 余额能渲染,网关就在工作。

非交互式安装。用于 CI 镜像或批量分发时,可以直接传 API key、跳过提示:

curl -fsSL https://buzzai.cc/sh/claudecode.sh | bash -s -- \
  --yes --api-key=YOUR_BUZZ_KEY --base-url=https://buzzai.cc

脚本还接受 --install-only、--configure-only、--statusline-only、--uninstall 这些只跑一部分流程的开关。

什么不变,什么变

这一块才是关键。一个偷偷重写 prompt、悄悄降级模型的中转站,并不是真的在帮你省钱,只是在改你买的东西。值得用的网关只有一种:完全透明的那种。下面是逐项对照:

维度	直连 Anthropic	走 BUZZ 网关
模型行为	Anthropic Messages API	一致,字节级转发。
Extended Thinking	支持	支持。`thinking` 参数和 blocks 透传。
Tool Use	支持,流式	支持,流式,字节级转发。
Prompt Cache	支持	支持。Cache 读取按命中价计费。
MCP server	Claude Code 本地进程	不变。网关只看模型调用。
SDK 兼容	Anthropic SDK	Anthropic SDK 和 OpenAI SDK 都能用。
模型选择	你说了算	你说了算。没有静默替换,Opus 就是 Opus。
Token 单价	官方价目表	低于官方(以价格 API为准)。
账单去向	Anthropic	BUZZ
认证 header	`x-api-key: sk-ant-...`	同样的 Anthropic 风格 header,BUZZ 签发的 key。
请求留存	按 Anthropic 政策	零留存。只记计费元数据。

一句话总结:行为一致,账单不同。你在 Claude Code 里选 Opus,跑的就是 Opus。网关转发 request body 时不重写 model 字段、不动 system prompt、不动 tool 定义。没有暗中把"难请求"降级到 Sonnet 的影子路由。值得信任的网关只有一种:你发出去的请求,就是上游模型收到的请求。

在 Claude Code 里怎么用模型分级

当成本不再是绑手绑脚的红线,真正有意思的问题是:这次该用哪个模型?一个粗略但有用的划分:

Opus 档 —— 答案比速度重要的时候

架构决策和设计评审,错了代价大。
动到类型系统、公开 API、并发模型的跨文件重构。
失败模式不直观的硬骨头 debug。
初次规划阶段,你希望 agent 真的"想"过再动手。

Sonnet 档 —— 日常主力

已知代码库里的功能开发。
写测试,尤其是从已有测试照葫芦画瓢。
有清晰复现路径的常规 bug 修复。
聚焦 diff 上的代码评审。

Haiku 档 —— 形状已经定型

不需要判断的批量正则编辑和重命名。
从明确模板生成的样板代码。
一问一答式的快速查询,速度优先于深度。

把这个搭配上 Prompt Cache。Claude Code 发出去的 system prompt 和 tool 定义是稳定的;给它们加上 cache 标记,后续轮次就能吃到 cache 命中价。在长会话里,这个折扣会持续累加。网关按命中价计费,所以省下的钱是落进口袋的,不是 PPT 上的。

常见问题

我官方的 Anthropic key 在 Claude Code 之外的工具里还能继续用吗?

可以。网关是按终端会话生效的。Claude Code 只读取 ANTHROPIC_BASE_URL 和 ANTHROPIC_AUTH_TOKEN,所以 BUZZ 的值只在你导出的那个 shell 里起作用。其他用 Anthropic SDK 加自己的 ANTHROPIC_API_KEY 的工具,继续直连 api.anthropic.com,完全不受影响。想做更细的隔离,就只在跑 Claude Code 的项目 shell 里设网关变量。

Extended Thinking 通过网关还能用吗?

能用。thinking 参数、reasoning budget、流式 thinking blocks 全部原样透传。Claude Code 能向官方请求的所有功能,包括可见的 reasoning 摘要,行为完全一样。

Tool Use 还是流式吗?

是。网关把上游 server-sent events 拿到就转。tool_use blocks、partial JSON 参数、content chunks 都按字节级转发,Claude Code 看到的增量输出和首 token 延迟分布,跟走官方端点一致。

怎么切回官方 Anthropic 端点?

两种方式。一次性覆盖:在当前 shell 里跑 unset ANTHROPIC_BASE_URL ANTHROPIC_AUTH_TOKEN,然后把 ANTHROPIC_API_KEY 设成你的官方 key。永久切换:跑 bash claudecode.sh --uninstall,脚本会从 shell 配置里清掉网关相关的环境变量,并卸载状态栏插件。Claude Code CLI 本身不会被动到。

有用量看板吗?

有。BUZZ 控制台按模型、时间窗口、单个 API key 维度展示 Token 用量。安装脚本装的状态栏插件还会在 Claude Code CLI 里直接显示实时余额,余额低时还会变色。日常巡检不用专门开网页。

我发给 Claude Code 的源代码会被记录吗?

BUZZ 执行零数据留存策略。请求和响应的 body 不落盘。只记录计费元数据:模型名、input/output token 计数、cache 读写计数、状态码、时间戳。字节流过即逝。如果你的团队有"源代码不能落到第三方存储"的硬规则,网关这个形态是和它兼容的。

Claude Code 的 MCP server 还能用吗?

能用。MCP server 跑在 Claude Code 本地进程里,CLI 通过 stdio 或本地 socket 跟它通信,然后把它们的工具定义放进同一份 Messages API 请求发给模型。网关只看到模型调用那一段。换 base URL 不会改变 Claude Code 怎么启动 MCP server,也不会改变它怎么跟 MCP server 说话。

Prompt Cache 还能继续降本吗?

能。cache_control header,以及 cache_read_input_tokens、cache_creation_input_tokens 这些用量字段都原样透传。网关按 cache 命中价计费,所以系统提示稳定、仓库上下文规模大的长会话,缓存命中带来的折扣依然兑现。

我能把模型钉死吗?网关会不会偷换?

你在 Claude Code 里选哪个模型,跑的就是哪个。没有静默降级,没有影子路由。请求里写的是 Opus,网关就转给 Opus;写 Sonnet 就跑 Sonnet。网关也不会注入 prompt、不会裁 context、不会重写 tool 定义。这是一个透明网关和一个便宜中转站的根本区别 —— 后者省下的那一点不值得。

Anthropic 出故障的时候会怎么样?

网关只是 Anthropic 前面薄薄一层。Anthropic 挂了,请求会带着上游状态码失败给你。网关不会假装"换个模型给你答一个",失败是诚实的,Claude Code 自己的重试逻辑照常生效。

结语

Claude Code 这种工具,跑得动的时候自己就回本;Token 单价往下走、其他什么都不变,这个回本比就更好看。网关这个形态把杠杆给到你,不需要重组流程、不需要让团队再学一个工具、也不需要忍受一个被偷偷调过的 agent。

整个心法短到能记在脑子里:

每台机器跑一次安装脚本。
按任务分级用模型。日常 Sonnet,硬骨头 Opus,机械活 Haiku。
把稳定的 system prompt 标成 cacheable,让长会话把前缀成本摊薄。
看着状态栏里的实时余额节奏调整。

Claude Code 直连 Anthropic 能做的一切,走 BUZZ AI 都能做:Extended Thinking、流式 Tool Use、Prompt Cache、MCP、双 SDK 形态。变的只有计价表,以及账单的归宿。

从这里开始:https://buzzai.cc/sh/claudecode.sh。60 秒,一个 base URL,功能一个不少。