Re: [PATCH 1/1] docs/zh_CN: Add sched-capacity translation

Tang Yizhou <tangyizhou@xxxxxxxxxx> · Tue, 7 Dec 2021 21:18:11 +0800

On 2021/12/7 17:41, Alex Shi wrote:
> On Tue, Dec 7, 2021 at 3:46 PM Tang Yizhou <tangyizhou@xxxxxxxxxx> wrote:
>>
>> On 2021/12/7 13:37, Alex Shi wrote:
>>> On Mon, Dec 6, 2021 at 4:41 PM Tang Yizhou <tangyizhou@xxxxxxxxxx> wrote:
>>>>
>>>> Translate scheduler/sched-capacity.rst into Chinese.
>>>>
>>>> Signed-off-by: Tang Yizhou <tangyizhou@xxxxxxxxxx>
>>>> ---
>>>>  .../translations/zh_CN/sched-capacity.rst     | 383 ++++++++++++++++++
>>>>  1 file changed, 383 insertions(+)
>>>>  create mode 100644 Documentation/translations/zh_CN/sched-capacity.rst
>>>>
>>>> diff --git a/Documentation/translations/zh_CN/sched-capacity.rst b/Documentation/translations/zh_CN/sched-capacity.rst
>>>> new file mode 100644
>>>> index 000000000000..30c258144881
>>>> --- /dev/null
>>>> +++ b/Documentation/translations/zh_CN/sched-capacity.rst
>>>> @@ -0,0 +1,383 @@
>>>> +.. SPDX-License-Identifier: GPL-2.0
>>>> +.. include:: ../disclaimer-zh_CN.rst
>>>> +
>>>> +:Original: Documentation/scheduler/sched-capacity.rst
>>>> +
>>>> +:翻译:
>>>> +
>>>> +       唐艺舟 Tang Yizhou <tangyeechou@xxxxxxxxx>
>>>> +
>>>> +================
>>>> +capacity感知调度
>>>> +================
>>>> +
>>>> +1. CPU Capacity
>>>> +===============
>>>> +
>>>> +1.1 简介
>>>> +--------
>>>> +
>>>> +一般来说，同构的SMP平台由完全相同的CPU构成。异构的平台则由性能特征不同的CPU构成，
>>>> +在这样的平台中，CPU不能被认为是相同的。
>>>> +
>>>> +我们引入CPU capacity的概念来测量每个CPU能达到的性能，它的值相对系统中性能最强的CPU做过归一化处理。
>>>> +异构系统也被称为非对称CPU capacity系统，因为它们由不同capacity的CPU组成。
>>>> +
>>>> +最大可达性能（换言之，最大CPU capacity）的差异有两个主要来源:
>>>> +
>>>> +- 不是所有CPU的微架构都相同。
>>>> +- 在动态电压频率升降（Dynamic Voltage and Frequency Scaling ，DVFS）框架中，
>>>> +  不是所有的CPU都能达到一样高的可操作性能点（Operating Performance Points，OPP。译注，也就是“频率-电压”对）。
>>>> +
>>>> +Arm big.LITTLE系统是同时具有两种差异的一个例子。相较LITTLE CPUs，big CPUs面向性能
>>>> +（拥有更多的pipeline stages，更大的cache，更智能的predictors等），通常可以达到更高的OPP。
>>>> +
>>>> +一般来说，同构的SMP平台由完全相同的CPU构成。异构的平台则由性能特征不同的CPU构成，在这样的平台中，CPU不能被认为是相同的。
>>>
>>> Good job!
>>> Just the line is too long. Enghlish word should leass than 80 chars,
>>> for Chinese should less than 40 chars.
>>
>> After reading some English documents, I find the length of a single line
>> usually is 80 columns. But sometimes this rule is not followed.
>>
>> As Linus mentioned earlier this year, perhaps we can apply a longer
>> length limit. I suggest 60 chars for Chinese (120 chars for English).
>>
>> This document is written without exceeding 60 columns at most times.
>> I will fix the lines which are too long.
> 
> What the result of scripts/checkpatch.pl or make htmldocs say?
> Let's tame these tools and follow the regluar styles of kernel.
> 
> Thanks
> Alex

For this patch, make htmldocs and scripts/checkpatch.pl say nothing.

Thanks,
Tang

> 
>>
>>>
>>> with the change
>>>
>>> Reviewed-by: Alex Shi <alexs@xxxxxxxxxx>
>>>
>>>> +（比如终端设备的ARM CPU可能包含大、中、小三个性能不同的cluster，每个cluster中的CPU性能相同）::
>>>
>>> I see 'sluster' was translated as 集 or 簇， could we change to them? or
>>> keep the English, it's up to you.
>>
>> This tranlation is added by me. There isn't a corresponding sentence in
>> the English version. I'll delete it in the next patch.
>>
>>>
>>> Thanks
>>> Alex
>>>
>>>> +
>>>> +  capacity(cpu) = work_per_hz(cpu) * max_freq(cpu)
>>>> +
>>>> +1.2 调度器术语
>>>> +--------------
>>>> +
>>>> +调度器使用了两种不同的capacity值。CPU的 ``capacity_orig`` 是它的最大可达capacity，即最大可达性能等级。
>>>> +CPU的 ``capacity`` 是 ``capacity_orig`` 扣除了一些性能损失（比如处理中断的耗时）的值。
>>>> +
>>>> +注意CPU的 ``capacity`` 仅仅被设计用于CFS调度类，而 ``capacity_orig`` 是不感知调度类的。
>>>> +为简洁起见，本文档的剩余部分将不加区分的使用术语 ``capacity`` 和 ``capacity_orig`` 。
>>>> +
>>>> +1.3 平台示例
>>>> +------------
>>>> +
>>>> +1.3.1 OPP相同
>>>> +~~~~~~~~~~~~~
>>>> +
>>>> +考虑一个假想的双核非对称CPU capacity系统，其中
>>>> +
>>>> +- work_per_hz(CPU0) = W
>>>> +- work_per_hz(CPU1) = W/2
>>>> +- 所有CPU以相同的固定频率运行
>>>> +
>>>> +根据上文对capacity的定义:
>>>> +
>>>> +- capacity(CPU0) = C
>>>> +- capacity(CPU1) = C/2
>>>> +
>>>> +若这是Arm big.LITTLE系统，CPU0是big CPU，而CPU1是LITTLE CPU。
>>>> +
>>>> +考虑一种周期性产生固定工作量的工作负载，你将会得到类似下图的执行轨迹::
>>>> +
>>>> + CPU0 work ^
>>>> +           |     ____                ____                ____
>>>> +           |    |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> + CPU1 work ^
>>>> +           |     _________           _________           ____
>>>> +           |    |         |         |         |         |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +CPU0在系统中具有最高capacity（C），它使用T个单位时间完成固定工作量W。
>>>> +另一方面，CPU1只有CPU0一半capacity，因此在T个单位时间内仅完成工作量W/2。
>>>> +
>>>> +1.3.2 最大OPP不同
>>>> +~~~~~~~~~~~~~~~~~
>>>> +
>>>> +具有不同capacity值的CPU，通常来说最大OPP也不同。考虑上一小节提到的CPU（也就是说，work_per_hz()相同）:
>>>> +
>>>> +- max_freq(CPU0) = F
>>>> +- max_freq(CPU1) = 2/3 * F
>>>> +
>>>> +这将推出：
>>>> +
>>>> +- capacity(CPU0) = C
>>>> +- capacity(CPU1) = C/3
>>>> +
>>>> +执行1.3.1节描述的工作负载，每个CPU按最大频率运行，结果为::
>>>> +
>>>> + CPU0 work ^
>>>> +           |     ____                ____                ____
>>>> +           |    |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +                            workload on CPU1
>>>> + CPU1 work ^
>>>> +           |     ______________      ______________      ____
>>>> +           |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +1.4 关于计算方式的注意事项
>>>> +--------------------------
>>>> +
>>>> +需要注意的是，使用单一值来表示CPU性能的差异是有些争议的。
>>>> +两个不同的微架构的相对性能差异应该描述为：X%整数运算差异，Y%浮点数运算差异，Z%分支跳转差异，等等。
>>>> +尽管如此，使用简单计算方式的结果目前还是令人满意的。
>>>> +
>>>> +2. 任务使用率 Task utilization
>>>> +==============================
>>>> +
>>>> +2.1 简介
>>>> +--------
>>>> +
>>>> +capacity感知调度要求描述任务需求，描述方式要和CPU capacity相关。
>>>> +每个调度类可以用不同的方式描述它。任务使用率是CFS独有的描述方式，不过在这里介绍它有助于引入更多一般性的概念。
>>>> +
>>>> +任务使用率是一种用百分比来描述任务吞吐率需求的方式。一个简单的近似是任务的占空比，也就是说::
>>>> +
>>>> +  task_util(p) = duty_cycle(p)
>>>> +
>>>> +在频率固定的SMP系统中，100%的利用率意味着任务是忙等待循环。反之，10%的利用率暗示这是一个小周期任务，
>>>> +它在睡眠上花费的时间比执行更多。
>>>> +
>>>> +2.2 频率不变性 Frequency invariance
>>>> +-----------------------------------
>>>> +
>>>> +一个需要考虑的议题是，工作负载的占空比受CPU正在运行的OPP直接影响。考虑以给定的频率F执行周期性工作负载::
>>>> +
>>>> +  CPU work ^
>>>> +           |     ____                ____                ____
>>>> +           |    |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +可以算出 duty_cycle(p) == 25%。
>>>> +
>>>> +现在，考虑以给定频率F/2执行 *同一个* 工作负载::
>>>> +
>>>> +  CPU work ^
>>>> +           |     _________           _________           ____
>>>> +           |    |         |         |         |         |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +可以算出 duty_cycle(p) == 50%，尽管两次执行中，任务的行为完全一致（也就是说，执行的工作量相同）。
>>>> +
>>>> +任务利用率信号可按下面公式处理成频率不变的（译注：这里的术语用到了信号与系统的概念）::
>>>> +
>>>> +  task_util_freq_inv(p) = duty_cycle(p) * (curr_frequency(cpu) / max_frequency(cpu))
>>>> +
>>>> +对上面两个例子运用该公式，可以算出频率不变的任务利用率均为25%。
>>>> +
>>>> +2.3 CPU不变性 CPU invariance
>>>> +----------------------------
>>>> +
>>>> +CPU capacity与任务利用率具有类型的效应，在capacity不同的CPU上执行完全相同的工作负载，
>>>> +将算出不同的占空比。
>>>> +
>>>> +考虑1.3.2节提到的系统，也就是说::
>>>> +
>>>> +- capacity(CPU0) = C
>>>> +- capacity(CPU1) = C/3
>>>> +
>>>> +每个CPU按最大频率执行指定周期性工作负载，结果为::
>>>> +
>>>> + CPU0 work ^
>>>> +           |     ____                ____                ____
>>>> +           |    |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> + CPU1 work ^
>>>> +           |     ______________      ______________      ____
>>>> +           |    |              |    |              |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +
>>>> +也就是说，
>>>> +
>>>> +- duty_cycle(p) == 25%，如果任务p在CPU0上按最大频率运行。
>>>> +- duty_cycle(p) == 75%，如果任务p在CPU1上按最大频率运行。
>>>> +
>>>> +任务利用率信号可按下面公式处理成CPU容量不变的::
>>>> +
>>>> +  task_util_cpu_inv(p) = duty_cycle(p) * (capacity(cpu) / max_capacity)
>>>> +
>>>> +其中 ``max_capacity`` 是系统中最高的CPU capacity。对上面的例子运用该公式，
>>>> +可以算出CPU capacity不变的任务利用率均为25%。
>>>> +
>>>> +2.4 任务利用率不变量 Invariant task utilization
>>>> +-----------------------------------------------
>>>> +
>>>> +频率和CPU capacity不变性都需要被应用到任务利用率的计算中，以便求出真正的不变信号。
>>>> +任务利用率的伪计算公式是同时具备CPU和频率不变性的，也就是说，对于指定任务p::
>>>> +
>>>> +                                     curr_frequency(cpu)   capacity(cpu)
>>>> +  task_util_inv(p) = duty_cycle(p) * ------------------- * -------------
>>>> +                                     max_frequency(cpu)    max_capacity
>>>> +
>>>> +也就是说，任务利用率不变量假定任务在系统中最高capacity CPU上以最高频率运行，以此描述任务的行为。
>>>> +
>>>> +在接下来的章节中提到的任何任务利用率，均是不变量的形式。
>>>> +
>>>> +2.5 利用率估算
>>>> +--------------
>>>> +
>>>> +由于预测未来的水晶球不存在，当任务第一次变成可运行时，任务的行为和任务利用率均不能被准确预测。
>>>> +CFS调度类基于实体负载跟踪机制（Per-Entity Load Tracking, PELT）维护了少量CPU和任务信号，
>>>> +其中之一可以算出平均利用率（与瞬时相反）。
>>>> +
>>>> +这意味着，尽管运用“真实的”任务利用率（凭借水晶球）写出capacity感知调度的准则，
>>>> +但是它的实现将只能用任务利用率的估算值。
>>>> +
>>>> +3. capacity感知调度的需求
>>>> +=========================
>>>> +
>>>> +3.1 CPU capacity
>>>> +----------------
>>>> +
>>>> +当前，Linux无法凭自身算出CPU capacity，因此必须要有把这个信息传递给Linux的方式。
>>>> +每个架构必须为此定义arch_scale_cpu_capacity()函数。
>>>> +
>>>> +arm和arm64架构直接把这个信息映射到arch_topology驱动的CPU scaling数据中
>>>> +（译注：参考arch_topology.h的percpu变量cpu_scale），
>>>> +它是从capacity-dmips-mhz CPU binding中衍生计算出来的。参见
>>>> +Documentation/devicetree/bindings/arm/cpu-capacity.txt。
>>>> +
>>>> +3.2 Frequency invariance
>>>> +------------------------
>>>> +
>>>> +如2.2节所述，capacity感知调度需要频率不变的任务利用率。
>>>> +每个架构必须为此定义arch_scale_freq_capacity(cpu)函数。
>>>> +
>>>> +实现该函数要求计算出每个CPU当前以什么频率在运行。实现它的一种方式是利用硬件计数器
>>>> +（x86的APERF/MPERF，arm64的AMU），它能按CPU当前频率动态可扩展地升降递增计数器的速率。
>>>> +另一种方式是在cpufreq频率变化时直接使用钩子函数，内核此时感知到将要被切换的频率（也被arm/arm64实现了）。
>>>> +
>>>> +4. 调度器拓扑结构
>>>> +=================
>>>> +
>>>> +在构建调度域时，调度器将会发现系统是否表现为非对称CPU capacity。如果是，那么：
>>>> +
>>>> +- sched_asym_cpucapacity static key将使能。
>>>> +- SD_ASYM_CPUCAPACITY_FULL标志位将在尽量最低调度域层级中被设置，同时要满足条件：
>>>> +  调度域恰好完整包含某个CPU capacity值的全部CPU。
>>>> +- SD_ASYM_CPUCAPACITY标志将在所有包含非对称CPU的调度域中被设置。
>>>> +
>>>> +sched_asym_cpucapacity static key的设计意图是，保护为非对称CPU capacity系统所准备的代码。
>>>> +不过要注意的是，这个key是系统范围可见的。想象下面使用了cpuset的步骤::
>>>> +
>>>> +  capacity    C/2          C
>>>> +            ________    ________
>>>> +           /        \  /        \
>>>> +  CPUs     0  1  2  3  4  5  6  7
>>>> +           \__/  \______________/
>>>> +  cpusets   cs0         cs1
>>>> +
>>>> +可以通过下面的方式创建：
>>>> +
>>>> +.. code-block:: sh
>>>> +
>>>> +  mkdir /sys/fs/cgroup/cpuset/cs0
>>>> +  echo 0-1 > /sys/fs/cgroup/cpuset/cs0/cpuset.cpus
>>>> +  echo 0 > /sys/fs/cgroup/cpuset/cs0/cpuset.mems
>>>> +
>>>> +  mkdir /sys/fs/cgroup/cpuset/cs1
>>>> +  echo 2-7 > /sys/fs/cgroup/cpuset/cs1/cpuset.cpus
>>>> +  echo 0 > /sys/fs/cgroup/cpuset/cs1/cpuset.mems
>>>> +
>>>> +  echo 0 > /sys/fs/cgroup/cpuset/cpuset.sched_load_balance
>>>> +
>>>> +由于“这是”非对称CPU capacity系统，sched_asym_cpucapacity static key将使能。
>>>> +然而，CPU 0--1对应的调度域层级，capacity值仅有一个，该层级中SD_ASYM_CPUCAPACITY未被设置，
>>>> +它描述的是一个SMP区域，也应该被以此处理。
>>>> +
>>>> +因此，“典型的”保护非对称CPU capacity代码路径的代码模式是：
>>>> +
>>>> +- 检查sched_asym_cpucapacity static key
>>>> +- 如果它被使能，接着检查调度域层级中SD_ASYM_CPUCAPACITY标志位是否出现
>>>> +
>>>> +5. capacity感知调度的实现
>>>> +=========================
>>>> +
>>>> +5.1 CFS
>>>> +-------
>>>> +
>>>> +5.1.1 capacity适应性（fitness）
>>>> +~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
>>>> +
>>>> +CFS最主要的capacity调度准则是::
>>>> +
>>>> +  task_util(p) < capacity(task_cpu(p))
>>>> +
>>>> +它通常被称为capacity适应性准则。也就是说，CFS必须保证任务“适合”在某个CPU上运行。
>>>> +如果准则被违反，任务将要更长地消耗该CPU，任务是CPU受限的（CPU-bound）。
>>>> +
>>>> +此外，uclamp允许用户空间指定任务的最小和最大利用率，要么以sched_setattr()的方式，
>>>> +要么以cgroup接口的方式（参阅Documentation/admin-guide/cgroup-v2.rst）。
>>>> +如其名字所暗示，uclamp可以被用在前一条准则中限制task_util()。
>>>> +
>>>> +5.1.2 被唤醒任务的CPU选择
>>>> +~~~~~~~~~~~~~~~~~~~~~~~~~
>>>> +
>>>> +CFS任务唤醒的CPU选择，遵循上面描述的capacity适应性准则。在此之上，uclamp被用来限制任务利用率，
>>>> +这令用户空间对CFS任务的CPU选择有更多的控制。也就是说，CFS被唤醒任务的CPU选择，搜索满足以下条件的CPU::
>>>> +
>>>> +  clamp(task_util(p), task_uclamp_min(p), task_uclamp_max(p)) < capacity(cpu)
>>>> +
>>>> +通过使用uclamp，举例来说，用户空间可以允许忙等待循环（100%使用率）在任意CPU上运行，
>>>> +只要给它设置低的uclamp.max值。相反，uclamp能强制一个小的周期性任务（比如，10%利用率）
>>>> +在最高性能的CPU上运行，只要给它设置高的uclamp.min值。
>>>> +
>>>> +.. note::
>>>> +
>>>> +  CFS的被唤醒的任务的CPU选择，可被能耗感知调度（Energy Aware Scheduling，EAS）
>>>> +  覆盖，在Documentation/scheduler/sched-energy.rst中描述。
>>>> +
>>>> +5.1.3 负载均衡
>>>> +~~~~~~~~~~~~~~
>>>> +
>>>> +被唤醒任务的CPU选择的一个病理性的例子是，任务几乎不睡眠，那么也几乎不发生唤醒。考虑::
>>>> +
>>>> +  w == wakeup event
>>>> +
>>>> +  capacity(CPU0) = C
>>>> +  capacity(CPU1) = C / 3
>>>> +
>>>> +                           workload on CPU0
>>>> +  CPU work ^
>>>> +           |     _________           _________           ____
>>>> +           |    |         |         |         |         |
>>>> +           +----+----+----+----+----+----+----+----+----+----+-> time
>>>> +                w                   w                   w
>>>> +
>>>> +                           workload on CPU1
>>>> +  CPU work ^
>>>> +           |     ____________________________________________
>>>> +           |    |
>>>> +           +----+----+----+----+----+----+----+----+----+----+->
>>>> +                w
>>>> +
>>>> +该工作负载应该在CPU0上运行，不过如果任务满足以下条件之一：
>>>> +
>>>> +- 一开始发生不合适的调度（不准确的初始利用率估计）
>>>> +- 一开始调度正确，但突然需要更多的处理器功率
>>>> +
>>>> +则任务可能变为CPU受限的，也就是说 ``task_util(p) > capacity(task_cpu(p))``；
>>>> +CPU capacity调度准则被违反，将不会有任何唤醒事件来修复这个错误的CPU选择。
>>>> +
>>>> +这种场景下的任务被称为“不合适的”（misfit）任务，处理这个场景的机制同样也以此命名。
>>>> +Misfit任务迁移借助CFS负载均衡器，更明确的说，是主动负载均衡的部分（用来迁移正在运行的任务）。
>>>> +当发生负载均衡时，如果一个misfit任务可以被迁移到一个相较当前运行的CPU具有更高capacity的CPU上，
>>>> +那么misfit任务的主动负载均衡将被触发。
>>>> +
>>>> +5.2 RT
>>>> +------
>>>> +
>>>> +5.2.1 被唤醒任务的CPU选择
>>>> +~~~~~~~~~~~~~~~~~~~~~~~~~
>>>> +
>>>> +RT任务唤醒时的CPU选择，搜索满足以下条件的CPU::
>>>> +
>>>> +  task_uclamp_min(p) <= capacity(task_cpu(cpu))
>>>> +
>>>> +同时仍然允许接着使用常规的优先级限制。如果没有CPU能满足这个capacity准则，那么将使用基于严格优先级的调度，
>>>> +CPU capacity将被忽略。
>>>> +
>>>> +5.3 DL
>>>> +------
>>>> +
>>>> +5.3.1 被唤醒任务的CPU选择
>>>> +~~~~~~~~~~~~~~~~~~~~~~~~~
>>>> +
>>>> +DL任务唤醒时的CPU选择，搜索满足以下条件的CPU::
>>>> +
>>>> +  task_bandwidth(p) < capacity(task_cpu(p))
>>>> +
>>>> +同时仍然允许接着使用常规的带宽和截止期限限制。如果没有CPU能满足这个capacity准则，
>>>> +那么任务依然在当前CPU队列中。
>>>> --
>>>> 2.17.1
>>>>
>>
>> Thanks,
>> Tang