transformer 4 可视化 Attention 头实战:它到底在关注什么? 2026/03/12 从 MicroGPT 最小实现迁移到 PyTorch(Tensor 版)实战指南 2026/03/12 从零看懂 MicroGPT:给程序员的“无数学负担”大模型入门 2026/03/12 把字符级语言模型升级为中文分词版本:从数据到训练的完整改造 2026/03/12