AI Skills 专栏

分类

Agent 架构1 RAG 与检索1 LLM 评测2 推理与服务1 AI 安全1 多模态1 LLMOps2 基准与对比1

文章列表

共 10 篇

基准与对比

2026 基准测试设计指南：如何避免“高分低能”的 LLM Benchmark 幻觉

从实验设计视角讲解 2026 年 LLM Benchmark 的构建方法，帮助团队建立可复用、可解释的评测体系。

基准与对比·2026年3月10日

#benchmark#evaluation#experiment-design阅读全文

推理与服务

2026 推理与服务优化手册：把 LLM 延迟从秒级降到可交互级

聚焦 2026 生产场景的推理与服务性能优化，覆盖延迟、吞吐、成本与稳定性权衡。

推理与服务·2026年3月9日

#inference#serving#latency阅读全文

多模态

2026 多模态 Agent 编排指南：文本、图像、音频的统一执行链路

面向生产环境的多模态 Agent 编排实践，讲解统一协议、链路治理与故障回退设计。

多模态·2026年3月8日

#multimodal#agent#orchestration阅读全文

AI 安全

2026 AI 安全红队检查清单：上线前必须覆盖的 12 类风险

一套面向生产系统的 AI 安全红队检查框架，覆盖越狱、数据泄漏、工具权限与合规风险。

AI 安全·2026年3月7日

#ai-security#red-team#jailbreak阅读全文

LLMOps

2026 LLMOps 发布门禁框架：从实验到生产的稳定切换

一套可执行的 LLMOps 发布门禁方法，帮助团队在 2026 年把 AI 功能稳定推进到生产环境。

LLMOps·2026年3月6日

#llmops#release#quality-gate阅读全文

LLM 评测

2026 LLM 评测指标栈：准确性、稳定性与业务可用性的统一框架

提供面向生产环境的 LLM 评测指标栈与执行流程，帮助团队建立可持续的模型质量治理机制。

LLM 评测·2026年3月5日

#llm-evaluation#reliability#benchmark阅读全文

RAG 与检索

2026 RAG 检索评测实战：从召回率到可引用答案质量

面向 2026 GEO SEO 的 RAG 评测方法，提供可执行指标体系、测试流程与失败模式修复策略。

RAG 与检索·2026年3月4日

#rag#retrieval#rerank阅读全文

Agent 架构

2026 年 AI Agent 架构设计最佳实践：从可用到可引用

面向 2026 GEO SEO 的 AI Agent 架构实践指南，包含可执行设计策略、失败模式与可引用段落规范。

Agent 架构·2026年3月3日

#ai-agent#system-design#geo-seo阅读全文

LLM 评测

多平台舆情监控的 GEO SEO 2026 最佳实践：从评论噪音到“可引用证据链”

结合现有技能「各平台舆情监控和运营洞察大盘」，给出 GEO SEO 2026 的证据设计与评估框架，帮助团队把评论洞察沉淀为长期可复用资产。

LLM 评测·2026年3月3日

#geo-seo#sentiment-analysis#unified-comment-analysis阅读全文