2026/5/1334 min笔记KV CacheLLM推理优化
显存刺客 KV Cache:从算清账到撑起百万上下文
KV Cache 已经不只是一个推理优化细节,而是长上下文、多模态、Agent 服务的成本中枢。本文从显存公式讲起,沿系统管理、模型架构、动态压缩、量化与 Offloading 五条路线,重新整理 2026 年前后的 KV Cache 技术版图。
阅读全文
All models are wrong, but some are useful
* 评论区仅开放给已订阅邮箱,订阅身份将用于评论登录。
探索研究笔记与实验记录
KV Cache 已经不只是一个推理优化细节,而是长上下文、多模态、Agent 服务的成本中枢。本文从显存公式讲起,沿系统管理、模型架构、动态压缩、量化与 Offloading 五条路线,重新整理 2026 年前后的 KV Cache 技术版图。
从概率分布干预到系统级软硬件协同,深度拆解 DoLa、CFG、投机解码家族 (EAGLE/SSD) 以及多词预测 (Medusa/MTPC) 的数学原理与工程实现。
从 DAPO、GSPO、LUSPO 到 Dr.GRPO、GMPO、PMPO,一文拆解 GRPO 变体的核心动机、目标函数与工程改造路径。
在算力与标注数据双重受限下,On-Policy Distillation 如何用 Reverse KL、γ=0 与在线探索实现高效后训练。
Greedy、Beam、Top-K、Top-P、Min-P、Contrastive 与 Constrained Decoding 的底层机制与 PyTorch 实现全景拆解。
从 LoRA、LoRA+、PiSSA、DoRA 到 TinyLoRA 与 LoRA-Mixer,一文看懂参数高效微调的核心机制与工程取舍。
各大顶级实验室爆改 DPO出了一套极其华丽的招式表
在探讨大语言模型(LLM)的对齐算法之前,我们需要先理清模型训练的宏观图景。大模型的训练通常分为三个阶段:预训练(Pre-training)、指令微调(SFT)和人类偏好对齐(RLHF/Alignment)。