大模型参数解密:Head_dim 可视化交互看板
从数学切片、GQA 演进到底层硬件访存合并的端到端推演
架构参数调节
模型架构预设
Meta Llama 3 (8B)
Qwen 2.5 (7B)
Qwen 2.5 (32B)
Meta Llama 3 (70B)
自定义异常架构 (Custom)
总隐藏层维度 (Hidden Size)
4096
Attention 查询头数 (Query Heads)
32
计算与存储精度
FP16 / BF16 (2 Bytes)
INT8 量化 (1 Byte)
FP32 全精度 (4 Bytes)
DIM
推演得出:单个头维度 (Head_dim)
128
Dimensions
SIZE
硬件层:单头单Token激活值内存大小
256
Bytes
📊 硬件融合度与对齐分析看板
⚡
正在评估流性能...
分析底层编译器在合并访存状态下的效率表现。
💡 数学本质:
Head_dim = Hidden_size / Num_heads。它承载了模型在单一注意力方向上的特征捕获特征空间。过小会导致表达能力受限,过大则会带来多余的算力空转。
⚙️ 硬件合并访存(Coalesced Access):
当代算力芯片(如海光 DCU BW100、NVIDIA H20)的二级缓存行边界通常为 64 或 128 字节。保持单头数据的字节数为 2 的幂次方,能完美实现无 Padding 的满带宽爆发。