持续监测各 API 中转站的模型真实性、稳定性、延迟与价格。直接询问 + 多角度金丝雀题鉴别是否掺水,按模型分榜,公开透明。
| # | 中转站 | 掺水鉴别 | 掺水率 | 7天稳定性 | 运行状态 | 首字延迟 | 价格(入/出 每百万) |
|---|---|---|---|---|---|---|---|
| {{ i+1 }} | {{ r.name }} {{ r.badge }} | {{ r.verdict_label }} {{ r.suspected_vendor }} | {{ r.watering_rate }}% 未检测 | {{ pct(r.success_rate_7d) }} | {{ r.avg_ttft_ms ? r.avg_ttft_ms+'ms' : '-' }} | {{ money(r.price.input_per_m, r.price.currency) }} / {{ money(r.price.output_per_m, r.price.currency) }} - |
中转站把你按某模型(如 Claude)名义发出的请求,偷偷路由到更便宜的模型、量化/蒸馏版本,或砍掉上下文、能力,从而以次充好赚差价。水镜通过直接询问模型身份 + 多角度金丝雀题来识别这种行为。
系统定期用英文向该模型发问并结合思考过程,按厂商关键词打分,得出“疑似真 / 可疑 / 疑似掺水”结论。掺水率=近 7 天内被判为可疑或掺水的检测占比。自述类信号存在误判(如开源模型常因训练数据自称 GPT),结论仅供参考。
系统按设定周期向每个被监控模型发起真实的流式对话请求,记录成功率、首字延迟(TTFT)与整体响应耗时。7 天稳定性反映长期可靠度,24 小时反映近期状态。
对支持的中转站(one-api / new-api 系),价格从其 /api/pricing 接口定期自动同步并换算为每百万 token 单价;其余为人工维护。以中转站实际计费为准。
{{ detail.intro }}
| 模型 | 掺水鉴别 | 24h稳定性 | 运行状态 | 首字延迟 | 平均响应 | tokens/s | 价格(入/出 每百万) |
|---|---|---|---|---|---|---|---|
|
{{ alias(m.model) }}
{{ m.model }}
|
{{ m.verdict.label }} 未检测 {{ m.verdict.suspected_vendor }} | {{ pct(m.success_rate) }} | {{ m.avg_ttft_ms ? m.avg_ttft_ms+'ms' : '-' }} | {{ m.avg_total_ms ? m.avg_total_ms+'ms' : '-' }} | {{ m.avg_tps ?? '-' }} | {{ money(m.price.input_per_m, m.price.currency) }} / {{ money(m.price.output_per_m, m.price.currency) }} - |