2.7.3 负载追踪 - 计算负载
虽然负载的计算公式是一个无穷级数之和,但由于我们对历史负载并不感兴趣,因此计算起来还是很方便的,假设系统每个周期都会计算一次负载,那么当前负载的计算方式为 L = L0 + L1*y
, 其中L1是上一个周期的负载,这样从第一个周期开始,每个周期在计算负载时都已经完成了对前面所有周期的负载累计。
然而问题是计算负载的时间点并没有这么精确,两次的时间差可能跨越了多个周期,如下图所示:

其中t1是上次系统计算负载的时间点,假设当时的负载为u, now是当前时间,每个周期为1024us, 那么根据Linux负载的计算公式,当前系统的负载为: u' = u*y^p + d1*y^p + 1024 * (y^(p-1) + y^(p-2) + ... + y) + d3
, 我们将该公式分为两部分来分析:
L2 = u*y^p
,其中u+d1
为一常数,系统需要找到高效的方式计算y^p
. 为了避免浮点数运算,系统将该指数运算等价于y^p=y^p *2^32 >> 32
, 即先乘以一个 232, 再将结果右移32位。为了提升效率,系统将y^p*2^32
的值提前计算好了存放在数组runnable_avg_yN_inv
中,其内容如下:/* file: kernel/sched/sched-pelt.h */ static const u32 runnable_avg_yN_inv[] __maybe_unused = { 0xffffffff, 0xfa83b2da, 0xf5257d14, 0xefe4b99a, 0xeac0c6e6, 0xe5b906e6, 0xe0ccdeeb, 0xdbfbb796, 0xd744fcc9, 0xd2a81d91, 0xce248c14, 0xc9b9bd85, 0xc5672a10, 0xc12c4cc9, 0xbd08a39e, 0xb8fbaf46, 0xb504f333, 0xb123f581, 0xad583ee9, 0xa9a15ab4, 0xa5fed6a9, 0xa2704302, 0x9ef5325f, 0x9b8d39b9, 0x9837f050, 0x94f4efa8, 0x91c3d373, 0x8ea4398a, 0x8b95c1e3, 0x88980e80, 0x85aac367, 0x82cd8698, };
该数组只有32个元素,因为
y^32=0.5
, 所以当 p>32 时,我们可以将y^p*2^32
转换为0.5*y^(p-32)*2^32
进行计算。系统实现该部分计算的函数是
decay_load
:/* file: kernel/sched/pelt.c */ /* 计算 val*y^n, 即val衰减n个周期后的值 */ static u64 decay_load(u64 val, u64 n) { unsigned int local_n; /* 规定经过32*63个周期后衰减为0 */ if (unlikely(n > LOAD_AVG_PERIOD * 63)) return 0; /* after bounds checking we can collapse to 32-bit */ local_n = n; /* LOAD_AVG_PERIOD=32, 这里将结果val右移 n=local_n/32 位,就是乘以n个0.5, 也就是乘以n个y^32 */ if (unlikely(local_n >= LOAD_AVG_PERIOD)) { val >>= local_n / LOAD_AVG_PERIOD; local_n %= LOAD_AVG_PERIOD; } /* 借助数组 runnable_avg_yN_inv 计算出最后的值 */ val = mul_u64_u32_shr(val, runnable_avg_yN_inv[local_n], 32); return val; }
L1 = d1*y^p + 1024 * (y^(p-1) + y^(p-2) + ... + y) + d3
这里我们详细讨论1024 * (y^(p-1) + y^(p-2) + ... + y)
这部分数列的计算方式,该部分的推导如下图所示:等比数列的求和公式为:
S = a(1-q^n)/(1-y)
, 因此级数 yp 的和式为:(1-yn)/(1-y), 当n趋近于无穷时,结果为 1/(1-y), 我们知道 y32 = 0.5, 因此系统可以提前将1024/(1-y)
的值计算出来,该值保存在宏LOAD_AVG_MAX
中:/* file: kernel/sched/sched-pelt.h */ #define LOAD_AVG_MAX 47742
另外
y^p * 1024/(1-y)
就是将LOAD_AVG_MAX
衰减p次,可以调用前文介绍过的函数decay_load
来完成计算。因此整个数列的和为:LOAD_AVG_MAX - decay_load(LOAD_AVG_MAX, periods) - 1024
.整个L1 的计算函数是
__accumulate_pelt_segments
:/* file: kernel/sched/pelt.c */ static u32 __accumulate_pelt_segments(u64 periods, u32 d1, u32 d3) { u32 c1, c2, c3 = d3; /* y^0 == 1 */ /* c1 = d1 y^p */ c1 = decay_load((u64)d1, periods); /* * p-1 * c2 = 1024 \Sum y^n * n=1 * * inf inf * = 1024 ( \Sum y^n - \Sum y^n - y^0 ) * n=0 n=p * * inf * LOAD_AVG_MAX = 1024 * \Sum y^n, 即等比数列求和,n趋近于无穷时的情况 * n=0 * * LOAD_AVG_MAX 通过文件 ~Documentation/scheduler/sched-pelt.c 中的代码在编译时生成 */ c2 = LOAD_AVG_MAX - decay_load(LOAD_AVG_MAX, periods) - 1024; return c1 + c2 + c3; }
其中c1 = d1*yp, c3 = d3, 而参数
periods
就是上图中的p=delta/1024
.
理解了上面的逻辑之后,我们再来看累计负载的函数 accumulate_sum
:
/* file: kernel/sched/pelt.c */
static __always_inline u32 accumulate_sum(u64 delta, struct sched_avg *sa,
unsigned long load,
unsigned long runnable, int running) {
u32 contrib = (u32)delta; /* p == 0 -> delta < 1024 */
u64 periods;
/* 为什么需要加上sa->period_contrib?
* 因为在计算delta时,使用的是now - sa->last_update_time,
*
而sa->last_update_time记录的是上次更新负载的时间点。sa->period_contrib表示上次更新负载时,当前period中的那部分时间,即这次更新时,该时间会是上图中的d3.因此这里将其加到delta上去,以方便后续计算periods与当前的d3
* */
delta += sa->period_contrib;
periods = delta / 1024; /* A period is 1024us (~1ms) */
/*
* Step 1: decay old *_sum if we crossed period boundaries.
*/
if (periods) {
/* 根据 periods
对之前累计的负载进行衰减,之前累计的负载既上一次更新负载的那个时间点记录下来的负载,距当前可能已经过了很多个周期了
* 一个周期就是 1ms, 这里将其换算成1024us, 以方便运算 */
sa->load_sum = decay_load(sa->load_sum, periods);
sa->runnable_sum = decay_load(sa->runnable_sum, periods);
sa->util_sum = decay_load((u64)(sa->util_sum), periods);
/*
* Step 2
*
*
delta此时为当前周期的时间量,即注释中标注的d3由于前面已经把前一次更新负载时当时的d3加到了delta中,因此这里计算本次的d3就很简单了
*/
delta %= 1024;
if (load) {
contrib =
__accumulate_pelt_segments(periods, 1024 - sa->period_contrib, delta);
}
}
/* 此时的delta就是上图中的d3 */
sa->period_contrib = delta;
if (load)
sa->load_sum += load * contrib;
if (runnable)
sa->runnable_sum += runnable * contrib << SCHED_CAPACITY_SHIFT;
if (running)
sa->util_sum += contrib << SCHED_CAPACITY_SHIFT;
return periods;
}
该函数就是前面所讨论过的整个负载算法的实现。
Last updated
Was this helpful?