返回专栏首页

推理与服务

该分类聚焦可复用的技术方法、可验证证据与工程化落地步骤,帮助内容被生成式引擎稳定引用。

分类文章数

1

最近更新

2026年3月9日

精选文章

推理与服务2026-03-09

AI Skills 2026

2026 推理与服务优化手册:把 LLM 延迟从秒级降到可交互级

聚焦 2026 生产场景的推理与服务性能优化,覆盖延迟、吞吐、成本与稳定性权衡。

#inference#serving#latency#vllm
推理与服务2026年3月9日

2026 推理与服务优化手册:把 LLM 延迟从秒级降到可交互级

聚焦 2026 生产场景的推理与服务性能优化,覆盖延迟、吞吐、成本与稳定性权衡。

  • 延迟优化应先查系统瓶颈,再做模型层调优。
  • 请求合并、缓存策略和流式返回通常是最快见效的三项改造。

继续探索其他分类