同样遍历1亿个int，按行遍历比按列遍历快了20倍——CPU缓存行的64字节法则

张

张建站

2026/4/22 15:37:20

10分钟阅读

同样遍历1亿个int，按行遍历比按列遍历快了20倍——CPU缓存行的64字节法则

两层for循环，把i和j的位置换一下，执行时间差 20 倍。这不是面试八股文里的数字，是一个 10000×10000 的int矩阵在 Intel i7-12700 上实测出来的结果。GCC 13.2，Ubuntu 22.04，-O2优化。按行遍历 38ms，按列遍历 780ms。同样是 1 亿次加法，同样的汇编指令数量，快了 20 倍。你写的每一行 C++ 最终都要通过 CPU 拿数据、算数据、写数据。但 CPU 不按你的int粒度去内存拿东西——它每次搬的是 64 字节，一整条缓存行。你的遍历顺序要是和内存布局匹配，这 64 字节里的数据全用得上；不匹配的话，64 字节里只取了 4 字节，其余 60 字节全是废料。这篇把 20 倍差距的来源一层一层拆开。从 C++ 数组的内存布局讲起，到 CPU 缓存行的加载规则，到硬件预取器的模式识别，到 TLB 的翻译开销，最后到怎么用perf亲手验证。读完之后你下次写嵌套循环的时候会自然知道把哪个下标放内层。第一层：C++ 二维数组在内存里到底是怎么排的先把最基本的事实摆出来。C/C++ 里的二维数组int arr[M][N]在内存中是row-major order——按行优先存储。先把第 0 行的 N 个元素连续摆完，紧接着第 1 行的 N 个元素，再第 2 行，一直排到第 M-1 行。

别再对着手册发愁了！STM32驱动ADS1115的完整代码与配置详解（附避坑点）

STM32驱动ADS1115实战指南：从寄存器配置到避坑全解析 1. 硬件连接与基础配置在开始编写代码之前，确保你的硬件连接正确无误。ADS1115模块与STM32之间通过I2C接口通信，典型的连接方式如下： SCL：连接STM32的I2C时钟线&a…...

2026/4/22 15:33:03 阅读更多 →

如何3秒解锁百度网盘资源：智能提取码工具终极使用秘籍

如何3秒解锁百度网盘资源：智能提取码工具终极使用秘籍【免费下载链接】baidupankey 项目地址: https://gitcode.com/gh_mirrors/ba/baidupankey 还在为百度网盘提取码而烦恼吗？baidupankey作为一款专业的百度网盘提取码智能获取工具&#xff0c…...

2026/4/22 15:33:02 阅读更多 →

NVIDIA Profile Inspector终极指南：如何三步解锁显卡隐藏性能，优化游戏体验

NVIDIA Profile Inspector终极指南：如何三步解锁显卡隐藏性能，优化游戏体验【免费下载链接】nvidiaProfileInspector 项目地址: https://gitcode.com/gh_mirrors/nv/nvidiaProfileInspector 你是否曾感觉自己的NVIDIA显卡性能没有完全发挥&…...

2026/4/22 15:32:32 阅读更多 →