内容摘要
比较 lm-eval、HELM、OpenCompass、LightEval 的定位、优劣势与选型建议。
比较 lm-eval、HELM、OpenCompass、LightEval 的定位、优劣势与选型建议。
Browser Use 与 Playwright MCP,正在把 AI 从会说变成会做。
DeepGEMM 不只是一个 GEMM 库,它把 FP8/FP4/BF16、MoE、MQA、JIT 与新一代 NVIDIA 架构经验收敛到一个更轻、更可读的 CUDA 工程里。
Skill 解决怎么做,MCP 解决怎么连。两者不是对立,而是上下层关系。
什么是 Skill,它为什么不是普通 prompt,又为何会成为 Agent 的关键方法层。