摘要:LLM 推理不是把文本扔进去等结果出来就结束了。从输入文本到 token 输出,中间经历了 BPE 分词、embedding 投影...