了解较长代码执行速度提高4倍的微架构原因（AMDZen2架构）

html5 • 2022年11月14日 pm9:26 • 问答

我在 x64 模式下使用 VS 2019（版本 16.8.6）编译了以下 C++17 代码：

struct __declspec(align(16)) Vec2f { float v[2]; };
struct __declspec(align(16)) Vec4f { float v[4]; };

static constexpr std::uint64_t N = 100'000'000ull;

const Vec2f p{};
Vec4f acc{};

// Using virtual method:
for (std::uint64_t i = 0; i < N; ++i)
    acc += foo->eval(p);

// Using function pointer:
for (std::uint64_t i = 0; i < N; ++i)
    acc += eval_fn(p);

在第一个循环中，foo是一个std::shared_ptr和eval()是一个虚方法：

__declspec(noinline) virtual Vec4f eval(const Vec2f& p) const noexcept
{
    return { p.v[0], p.v[1], p.v[0], p.v[1] };
}

在第二个循环中，eval_fn是一个指向以下函数的指针：

__declspec(noinline) Vec4f eval_fn_impl(const Vec2f& p) noexcept
{
    return { p.v[0], p.v[1], p.v[0], p.v[1] };
}

最后，我有两种operator+=for实现Vec4f：

一个使用显式循环实现的：

Vec4f& operator+=(Vec4f& lhs, const Vec4f& rhs) noexcept
{
    for (std::uint32_t i = 0; i < 4; ++i)
        lhs.v[i] += rhs.v[i];
    return lhs;
}

还有一个用 SSE 内在实现：

Vec4f& operator+=(Vec4f& lhs, const Vec4f& rhs) noexcept
{
    _mm_store_ps(lhs.v, _mm_add_ps(_mm_load_ps(lhs.v), _mm_load_ps(rhs.v)));
    return lhs;
}

您可以在下面找到测试的完整（独立，仅限 Windows）代码。

这是两个循环的生成代码，以及在AMD Threadripper 3970X CPU（Zen 2 架构）上执行时以毫秒为单位的运行时间（对于 100M 迭代）：

使用SSE 内在实现operator+=(Vec4f&, const Vec4f&)：

// Using virtual method: 649 ms
$LL4@main:
  mov rax, QWORD PTR [rdi]            // fetch vtable base pointer (rdi = foo)
  lea r8, QWORD PTR p$[rsp]           // r8 = &p
  lea rdx, QWORD PTR $T3[rsp]         // not sure what $T3 is (some kind of temporary, but why?)
  mov rcx, rdi                        // rcx = this
  call    QWORD PTR [rax]             // foo->eval(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rbp, 1
  jne SHORT $LL4@main

// Using function pointer: 602 ms
$LL7@main:
  lea rdx, QWORD PTR p$[rsp]          // rdx = &p
  lea rcx, QWORD PTR $T2[rsp]         // same question as above
  call    rbx                         // eval_fn(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rsi, 1
  jne SHORT $LL7@main

// Using virtual method: 649 ms
$LL4@main:
  mov rax, QWORD PTR [rdi]            // fetch vtable base pointer (rdi = foo)
  lea r8, QWORD PTR p$[rsp]           // r8 = &p
  lea rdx, QWORD PTR $T3[rsp]         // not sure what $T3 is (some kind of temporary, but why?)
  mov rcx, rdi                        // rcx = this
  call    QWORD PTR [rax]             // foo->eval(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rbp, 1
  jne SHORT $LL4@main

// Using function pointer: 602 ms
$LL7@main:
  lea rdx, QWORD PTR p$[rsp]          // rdx = &p
  lea rcx, QWORD PTR $T2[rsp]         // same question as above
  call    rbx                         // eval_fn(p)
  addps   xmm6, XMMWORD PTR [rax]
  sub rsi, 1
  jne SHORT $LL7@main

使用显式循环实现operator+=(Vec4f&, const Vec4f&)：

// Using virtual method: 167 ms [3.5x to 4x FASTER!]
$LL4@main:
  mov rax, QWORD PTR [rdi]
  lea r8, QWORD PTR p$[rsp]
  lea rdx, QWORD PTR $T5[rsp]
  mov rcx, rdi
  call    QWORD PTR [rax]
  addss   xmm9, DWORD PTR [rax]
  addss   xmm8, DWORD PTR [rax+4]
  addss   xmm7, DWORD PTR [rax+8]
  addss   xmm6, DWORD PTR [rax+12]
  sub rbp, 1
  jne SHORT $LL4@main

// Using function pointer: 600 ms
$LL7@main:
  lea rdx, QWORD PTR p$[rsp]
  lea rcx, QWORD PTR $T4[rsp]
  call    rbx
  addps   xmm6, XMMWORD PTR [rax]
  sub rsi, 1
  jne SHORT $LL7@main

（在AMD禅2拱，据我所知，addss并且addps指令具有3个周期的等待时间，和最多两个这样的指令可以同时执行）。

令我困惑的情况是在使用虚拟方法和显式循环实现时operator+=：

为什么它比其他三个变体快 3.5 到 4 倍？

这里有哪些相关的建筑效果在起作用？在循环的后续迭代中寄存器之间的依赖性更少？或者关于缓存的某种厄运？

完整源代码：

回答

我正在英特尔 Haswell 处理器上对此进行测试，但性能结果相似，我猜原因也相似，但对此持保留态度。Haswell 和 Zen 2 之间当然存在差异，但据我所知，我所指责的效果应该适用于它们。

问题是：虚拟方法/通过指针调用的函数/无论它是什么，都会进行 4 次标量存储，但是主循环会进行相同内存的向量加载。Store-to-load forwarding 可以处理存储一个值然后立即加载的各种情况，但通常不是像这样一个负载依赖于多个存储的情况（更一般地说：负载依赖于仅部分提供的存储负载尝试加载的数据）。假设它可能是可能的，但它不是当前微架构的特征。

作为实验，更改虚拟方法中的代码以使用向量存储。例如：

__declspec(noinline) virtual Vec4f eval(const Vec2f& p) const noexcept
{
    Vec4f r;
    auto pv = _mm_load_ps(p.v);
    _mm_store_ps(r.v, _mm_shuffle_ps(pv, pv, _MM_SHUFFLE(1, 0, 1, 0)));
    return r;
}

在我的 PC 上，它使时间与快速版本一致，这支持了问题是由多个标量存储输入向量负载引起的假设。

从 8 字节加载 16 字节Vec2f并不完全合法，如有必要，可以解决这个问题。只有 SSE(1) 有点烦人，SSE3 很适合_mm_loaddup_pd（又名movddup）。

如果 MSVCVec4f通过寄存器而不是通过出指针返回结果，这个问题就不会存在，但我不知道如何说服它这样做，除了将返回类型更改为__m128. __vectorcall也有帮助，但使 MSVC 在几个寄存器中返回结构，然后在调用者中重新组合并进行额外的洗牌。它比任何一个快速选项都有些混乱和慢，但仍然比存储转发失败的版本快。

以上是了解较长代码执行速度提高4倍的微架构原因（AMDZen2架构）的全部内容。

THE END

二维码

根据条件将列表分成两部分python

< <上一篇

Pharo9.0启动时的警告消息-“当前VM不支持TFFI回调。”

下一篇>>

搜索内容

了解较长代码执行速度提高4倍的微架构原因（AMDZen2架构）

回答

目录

目录

推荐文章

最新文章