PRF:20170519 Accelerating your C++ on GPU with SYCL.md

@ictlyh 翻译的很好很专业,就是原文其实有一些小改动,我补充了。
This commit is contained in:
wxy 2017-06-13 17:42:48 +08:00
parent 768d7de652
commit 3f693997fa

View File

@ -1,12 +1,7 @@
通过 SYCL 在 GPU 上加速 C++ 通过 SYCL 在 GPU 上加速 C++
============================================================ ============================================================
在机器学习、计算机视觉以及高性能计算领域,充分利用显卡计算应用程序的能力已成为当前的热门。类似 OpenCL 的技术通过硬件无关的编程模型展现了这种能力,使得你可以编写抽象于不同体系架构的代码。它的目标是“一次编写,到处运行”,不管它是 Intel CPU、AMD 独立显卡还是 DSP 等等。不幸的是对于日常程序员OpenCL 的学习曲线陡峭;一个简单的 Hello World 程序可能就需要上百行晦涩难懂的代码。因此为了减轻这种痛苦Khronos 组织已经开发了一个称为 [SYCL][4] 的新标准,这是一个在 OpenCL 之上的 C++ 抽象层。通过 SYCL你可以使用干净、现代的 C++ 开发出这些通用 GPUGPGPU应用程序而无需拘泥于 OpenCL。下面是一个使用 SYCL 开发,通过并行 STL 实现的向量乘法事例:
### 警告:这是一个不完整的草稿。这里可能有很多错误和还没有完成的章节。
* * *
在机器学习、计算机视觉以及高性能计算领域,充分利用显卡计算应用程序的能力已成为当前的热门。类似 OpenCL 的技术通过硬件无关的编程模型展现了这种能力,使得你可以编写抽象于不同体系架构的代码。它的目标是“一次编写,到处运行”,不管它是 Intel CPU、AMD 独立显卡还是 DSP等等。不幸的是对于日常程序员OpenCL 有陡峭的学习曲线;一个简单的 Hello World 程序可能就需要上百行晦涩难懂的代码。因此为了减轻这种痛苦Khronos 团队已经开发了一个称为 [SYCL][4] 的新标准,这是一个在 OpenCL 之上的 C++ 抽象层。通过 SYCL你可以使用干净、现代的 C++ 开发出这些通用 GPUGPGPU应用程序而无需拘泥于 OpenCL。下面是一个使用 SYCL 开发,通过并行 STL 实现的向量乘法事例:
``` ```
#include <vector> #include <vector>
@ -108,13 +103,11 @@ int main(){
在这篇博文中我会介绍使用 SYCL 加速你 GPU 上的 C++ 代码。 在这篇博文中我会介绍使用 SYCL 加速你 GPU 上的 C++ 代码。
* * *
### GPGPU 简介 ### GPGPU 简介
在我开始介绍如何使用 SYCL 之前,我首先给那些不熟悉的人简要介绍一下为什么你可能想要在 GPU 上运行计算任务。我假设你已经使用过 OpenCL、CUDA 或类似的库,如果没有也没关系 在我开始介绍如何使用 SYCL 之前,我首先给那些不熟悉这方面的人简要介绍一下为什么你可能想要在 GPU 上运行计算任务。如果已经使用过 OpenCL、CUDA 或类似的库,可以跳过这一节
GPU 和 CPU 的一个关键不同就是 GPU 有大量小的、简单的处理单元,而不是少量(对于普通消费者桌面硬件通常是 1-8复杂而强大的核。 GPU 和 CPU 的一个关键不同就是 GPU 有大量小的、简单的处理单元,而不是少量(对于普通消费者桌面硬件通常是 1-8)复杂而强大的核。
![CPU 架构](https://blog.tartanllama.xyz/assets/cpu.png) ![CPU 架构](https://blog.tartanllama.xyz/assets/cpu.png)
@ -122,23 +115,23 @@ GPU 和 CPU 的一个关键不同就是 GPU 有大量小的、简单的处理单
![GPU 架构](https://blog.tartanllama.xyz/assets/gpu.png) ![GPU 架构](https://blog.tartanllama.xyz/assets/gpu.png)
在 GPU 上,多个小处理单元被组成一个执行单元。每个小处理单元都有少量内存,每个执行单元都有一些共享内存用于它的处理单元。除此之外,还有一些 GPU 范围的内存,然后是 CPU 使用的主内存。执行单元内部的单元是 _lockstep_ ,每个单元都在不同的数据片上执行相同的指令。 在 GPU 上,多个小处理单元被组成一个执行单元。每个小处理单元都有少量内存,每个执行单元都有一些共享内存用于它的处理单元。除此之外,还有一些 GPU 范围的内存,然后是 CPU 使用的主内存。执行单元内部的单元是 _lockstep_ ,每个单元都在不同的数据片上执行相同的指令。
GPGPU 编程有很多方面,这使得它和日常的 CPU 编程完全不同。例如,从主内存传输数据到 GPU 是_很慢的_。_真的_很慢。就像杀掉你的所有性能使你慢下来。因此GPU 编程的权衡是尽可能多地利用加速器的高吞吐量来掩盖从中或者传输数据到其中的延迟 这可以使 GPU 同时处理大量的数据。如果是在 CPU 上,也许你可以使用多线程和向量指令在给定时间内完成大量的工作,但是 GPU 所能处理的远多于此。在 GPU 上一次性能够处理的数据规模使得它非常适合于类似图形duh、数学处理、神经网络等等
这里还有一些一开始不那么明显的问题,例如分支的开销。由于执行单元内的处理单元按照 lockstep 工作,使它们执行不同路径(不同的控制流)的嵌套分支就是个真正的问题。这通常通过在所有单元上执行所有分支并标记出无用结果来解决。这是一个基于嵌套级别的指数爆炸复杂度,这当然是坏事情。当然,有一些优化方法可以拯救该问题,但需要注意:你从 CPU 领域带来的简单假设和知识在 GPU 领域可能导致大问题 GPGPU 编程的很多方面使得它和日常的 CPU 编程完全不同。例如,从主内存传输数据到 GPU 是_很慢的_。_真的_很慢。会完全干掉你的性能使你慢下来。因此GPU 编程的权衡是尽可能多地利用加速器的高吞吐量来掩盖数据来往的延迟
在我们回到 SYCL 之前需要介绍一些术语。主机_host_ 是主 CPU 运行的机器设备_device_ 是会运行你 OpenCL 代码的地方。一个设备可能和主机相同也可能是你机器上的一些加速器、模拟器等。内核_kernel_是一个特殊函数它是在你设备上运行代码的入口点。通常还会提供一些主机设置好的缓存给它用于输入和输出数据 这里还有一些不那么明显的问题,例如分支的开销。由于执行单元内的处理单元按照 lockstep 工作,使它们执行不同路径(不同的控制流)的嵌套分支就是个真正的问题。这通常通过在所有单元上执行所有分支并标记出无用结果来解决。这是一个基于嵌套级别的指数级的复杂度,这当然是坏事情。当然,有一些优化方法可以拯救该问题,但需要注意:你从 CPU 领域带来的简单假设和知识在 GPU 领域可能导致大问题
* * * 在我们回到 SYCL 之前需要介绍一些术语。主机host是主 CPU 运行的机器设备device是会运行你 OpenCL 代码的地方。设备可能就是主机但也可能是你机器上的一些加速器、模拟器等。内核kernel是一个特殊函数它是在你设备上运行代码的入口点。通常还会提供一些主机设置好的缓存给它用于输入和输出数据。
### 回到 SYCL ### 回到 SYCL
这里有两个可用的 SYCL 实现“triSYCL”由 Xilinx 开发的实验性开源版本(通常作为标准的试验台使用),以及 “ComputeCpp”由 Codeplay[1][2] 开发的工业级实现(当前处于开发测试版)。只有 ComputeCpp 支持在 GPU 上执行内核,因此在这篇文章中我们会使用它。 这里有两个可用的 SYCL 实现[triSYCL](https://github.com/Xilinx/triSYCL),由 Xilinx 开发的实验性开源版本(通常作为标准的试验台使用),以及 [ComputeCpp](https://www.codeplay.com/products/computesuite/computecpp),由 Codeplay我在 Codeplay 工作,但这篇文章是在没有我雇主建议的情况下使用我自己时间编写的) 开发的工业级实现(当前处于开发测试版)。只有 ComputeCpp 支持在 GPU 上执行内核,因此在这篇文章中我们会使用它。
第一步是在你的机器上配置以及运行 ComputeCpp。主要组件是一个实现了 SYCL API 的运行时库,以及一个基于 Clang 的编译器,它负责编译你的主机代码和设备代码。开发的时候,已经在 Ubuntu 和 CentOS 上官方支持 Intel CPU 以及 AMD GPU。在其它 Linux 发行版上让它工作也非常简单(例如,我让它在我的 Arch 系统上运行)。已经有工作正在支持更多的硬件和操作系统,查看[支持平台文档][5]获取最新列表。[这里][6]列出了依赖和组件。你也可能想要下载 [SDK][7],其中包括了例、文档、构建系统集成文件,以及其它。在这篇文章中我会使用 [SYCL 并行 STL][8],如果你想要自己在家学习的话也要下载。 第一步是在你的机器上配置以及运行 ComputeCpp。主要组件是一个实现了 SYCL API 的运行时库,以及一个基于 Clang 的编译器,它负责编译你的主机代码和设备代码。在本文写作时,已经在 Ubuntu 和 CentOS 上官方支持 Intel CPU 以及某些 AMD GPU。在其它 Linux 发行版上让它工作也非常简单(例如,我让它在我的 Arch 系统上运行)。对更多的硬件和操作系统的支持正在进行中,查看[支持平台文档][5]获取最新列表。[这里][6]列出了依赖和组件。你也可能想要下载 [SDK][7],其中包括了例、文档、构建系统集成文件,以及其它。在这篇文章中我会使用 [SYCL 并行 STL][8],如果你想要自己在家学习的话也要下载
一旦你设置好了一切,我们就可以开始通用 GPU 编程了!正如简介中提到的,我的使用 SYCL 并行 STL 实现的第一个事例。我们现在来看看如何使用纯 SYCL 编写代码。 一旦你设置好了一切,我们就可以开始通用 GPU 编程了!正如简介中提到的,我的第一个示例使用 SYCL 并行 STL 实现。我们现在来看看如何使用纯 SYCL 编写代码。
``` ```
#include <CL/sycl.hpp> #include <CL/sycl.hpp>
@ -152,25 +145,25 @@ int main() {
std::array<cl::sycl::cl_int, array_size> in,out; std::array<cl::sycl::cl_int, array_size> in,out;
std::iota(begin(in),end(in),0); std::iota(begin(in),end(in),0);
cl::sycl::queue device_queue; {
cl::sycl::range<1> n_items{array_size}; cl::sycl::queue device_queue;
cl::sycl::buffer<cl::sycl::cl_int, 1> in_buffer(in.data(), n_items); cl::sycl::range<1> n_items{array_size};
cl::sycl::buffer<cl::sycl::cl_int, 1> out_buffer(out.data(), n_items); cl::sycl::buffer<cl::sycl::cl_int, 1> in_buffer(in.data(), n_items);
cl::sycl::buffer<cl::sycl::cl_int, 1> out_buffer(out.data(), n_items);
device_queue.submit([&](cl::sycl::handler &cgh) { device_queue.submit([&](cl::sycl::handler &cgh) {
constexpr auto sycl_read = cl::sycl::access::mode::read_write; constexpr auto sycl_read = cl::sycl::access::mode::read;
constexpr auto sycl_write = cl::sycl::access::mode::write; constexpr auto sycl_write = cl::sycl::access::mode::write;
auto in_accessor = in_buffer.get_access<sycl_read>(cgh); auto in_accessor = in_buffer.get_access<sycl_read>(cgh);
auto out_accessor = out_buffer.get_access<sycl_write>(cgh); auto out_accessor = out_buffer.get_access<sycl_write>(cgh);
cgh.parallel_for<class VecScalMul>(n_items, cgh.parallel_for<class VecScalMul>(n_items,
[=](cl::sycl::id<1> wiID) { [=](cl::sycl::id<1> wiID) {
out_accessor[wiID] = in_accessor[wiID]*2; out_accessor[wiID] = in_accessor[wiID]*2;
}); });
}); });
}
device_queue.wait();
} }
``` ```
@ -190,17 +183,27 @@ std::iota(begin(in),end(in),0);
这里我们构造了一个很大的整型数组并用数字 `0` 到 `array_size-1` 初始化(这就是 `std::iota` 所做的)。注意我们使用 `cl::sycl::cl_int` 确保兼容性。 这里我们构造了一个很大的整型数组并用数字 `0` 到 `array_size-1` 初始化(这就是 `std::iota` 所做的)。注意我们使用 `cl::sycl::cl_int` 确保兼容性。
```
{
//...
}
```
接着我们打开一个新的作用域,其目的为二:
1. `device_queue` 将在该作用域结束时解构,它将阻塞,直到内核完成。
2. `in_buffer``out_buffer` 也将解构,这将强制数据传输回主机并允许我们从 `in``out` 中访问数据。
``` ```
cl::sycl::queue device_queue; cl::sycl::queue device_queue;
``` ```
现在我们创建我们的命令队列。命令队列是所有工作(内核)在分发到设备之前需要入队的地方。有很多方法可以定制队列,例如说提供设备用于入队或者设置异步错误处理器,但默认构造器对于这个例子就可以了;它会查找兼容的 GPU如果失败的话会退回到主机 CPU。 现在我们创建我们的命令队列。命令队列是所有工作(内核)在分发到设备之前需要入队的地方。有很多方法可以定制队列,例如说提供设备用于入队或者设置异步错误处理器,但对于这个例子默认构造器就可以了;它会查找兼容的 GPU如果失败的话会回退到主机 CPU。
``` ```
cl::sycl::range<1> n_items{array_size}; cl::sycl::range<1> n_items{array_size};
``` ```
接下来我们创建一个范围,它描述了内核在上面执行的数据的形状。在我们简单的例子中,是一个一维数组,因此我们使用 `cl::sycl::range<1>`。如果数据是二维的,我们就会使用 `cl::sycl::range<2>`,以此类推。除了 `cl::sycl::range`,还有 `cl::sycl::ndrange`,它允许你指定工作组大小以及越界范围,但在我们的例子中我们不需要使用它。 接下来我们创建一个范围,它描述了内核在上面执行的数据的形状。在我们简单的例子中,是一个一维数组,因此我们使用 `cl::sycl::range<1>`。如果数据是二维的,我们就会使用 `cl::sycl::range<2>`,以此类推。除了 `cl::sycl::range`,还有 `cl::sycl::ndrange`,它允许你指定工作组大小以及越界范围,但在我们的例子中我们不需要使用它。
``` ```
cl::sycl::buffer<cl::sycl::cl_int, 1> in_buffer(in.data(), n_items); cl::sycl::buffer<cl::sycl::cl_int, 1> in_buffer(in.data(), n_items);
@ -213,7 +216,7 @@ cl::sycl::buffer<cl::sycl::cl_int, 1> out_buffer(out.data(), n_items);
device_queue.submit([&](cl::sycl::handler &cgh) {/*...*/}); device_queue.submit([&](cl::sycl::handler &cgh) {/*...*/});
``` ```
设置好了我们所有数据之后,我们就可以入队真正的工作。有多种方法可以做到,但设置并行执行的一个简单方法是在我们的队列中调用 `.submit` 函数。对于这个函数我们传递了一个运行时调度该任务时会被执行的 _command group functor_ 。一个命令组处理器设置任何内核需要的余下资源并分发它。 设置好了我们所有数据之后,我们就可以入队真正的工作。有多种方法可以做到,但设置并行执行的一个简单方法是在我们的队列中调用 `.submit` 函数。对于这个函数我们传递了一个运行时调度该任务时会被执行的“命令组伪函数”(伪函数是规范,不是我创造的)。命令组处理器设置任何内核需要的余下资源并分发它。
``` ```
constexpr auto sycl_read = cl::sycl::access::mode::read_write; constexpr auto sycl_read = cl::sycl::access::mode::read_write;
@ -223,7 +226,7 @@ auto in_accessor = in_buffer.get_access<sycl_read>(cgh);
auto out_accessor = out_buffer.get_access<sycl_write>(cgh); auto out_accessor = out_buffer.get_access<sycl_write>(cgh);
``` ```
为了控制到我们缓存的访问并告诉运行时我们会如何使用数据,我们需要创建  _accessors_。应该清楚我们创建了一个访问器用于从 `in_buffer` 读入,一个访问器用于写到 `out_buffer` 为了控制到我们缓存的访问并告诉该运行时环境我们会如何使用数据,我们需要创建访问器。很显然,我们创建了一个访问器用于从 `in_buffer` 读入,一个访问器用于写到 `out_buffer`
``` ```
cgh.parallel_for<class VecScalMul>(n_items, cgh.parallel_for<class VecScalMul>(n_items,
@ -232,17 +235,15 @@ cgh.parallel_for<class VecScalMul>(n_items,
}); });
``` ```
现在我们已经完成了所有设置,我们可以真正的在我们的设备上做一些计算了。这里我们根据范围 `n_items` 在命令组处理器 `cgh` 之上分发一个内核。实际内核自身是一个使用 work-item 标识符作为输入、输出我们计算结果的 lamda 表达式。在这种情况下,我们从 `in_accessor` 使用 work-item 标识符作为索引读入,将其乘以 `2`,然后将结果保存到 `out_accessor` 相应的位置。`<class VecScalMul>` 是一个为了在标准 C++ 范围内工作不幸的副产品,因此我们需要给内核一个唯一的类名以便编译器能完成它的工作。 现在我们已经完成了所有设置,我们可以真正的在我们的设备上做一些计算了。这里我们根据范围 `n_items` 在命令组处理器 `cgh` 之上分发一个内核。实际内核自身是一个使用 work-item 标识符作为输入、输出我们计算结果的 lamda 表达式。在这种情况下,我们从 `in_accessor` 使用 work-item 标识符作为索引读入,将其乘以 `2`,然后将结果保存到 `out_accessor` 相应的位置。`<class VecScalMul>` 是一个为了在标准 C++ 范围内工作不幸的副产品,因此我们需要给内核一个唯一的类名以便编译器能完成它的工作。
``` ```
device_queue.wait(); }
``` ```
我们最后一行类似于在 `std::thread` 上调用 `.join()`;它等待直到所有已经提交的工作被执行完。在此之后,我们现在可以访问 `out` 并期望看到正确的结果。队列也会隐式地等待销毁,因此你也可以把它放到某个内部范围内,让同步在范围结束时发生。 在此之后,我们现在可以访问 `out` 并期望看到正确的结果。
这里有相当多的新概念在起作用,但使用这些技术你已经可以看到我们获得的能力和表达能力。当然,如果你只是想在你的 GPU 上执行一些代码而不关心定制化,那么你就可以使用 SYCL 并行 STL 实现。 这里有相当多的新概念在起作用,但使用这些技术你可以看到这些能力和所展现出来的东西。当然,如果你只是想在你的 GPU 上执行一些代码而不关心定制化,那么你就可以使用 SYCL 并行 STL 实现。
* * *
### SYCL 并行 STL ### SYCL 并行 STL
@ -278,7 +279,7 @@ int main() {
``` ```
constexpr size_t array_size = 1024*512; constexpr size_t array_size = 1024*512;
std::array<cl::sycl::cl_int, array_size> in, out; std::array<cl::sycl::cl_int, array_size> in, out;
std::iota(begin(in),end(out),0); std::iota(begin(in),end(in),0);
``` ```
到现在为止一切如此相似。我们再一次创建一组数组用于保存我们的输入输出数据。 到现在为止一切如此相似。我们再一次创建一组数组用于保存我们的输入输出数据。
@ -307,28 +308,16 @@ transform(sycl_policy, begin(in_buffer), end(in_buffer), begin(out_buffer),
当然,除了 `transform` 你可以做更多。开发的时候SYCL 并行 STL 支持以下算法: 当然,除了 `transform` 你可以做更多。开发的时候SYCL 并行 STL 支持以下算法:
* `sort` * `sort`
* `transform` * `transform`
* `for_each` * `for_each`
* `for_each_n` * `for_each_n`
* `count_if` * `count_if`
* `reduce` * `reduce`
* `inner_product` * `inner_product`
* `transform_reduce` * `transform_reduce`
* * *
这就是这篇短文需要介绍的东西。如果你想和 SYCL 的开发保持同步,那就要看 [sycl.tech][9]。最近重要的开发就是移植 [Eigen][10] 和 [Tensorflow][11] 到 SYCL 为 OpenCL 设备带来表达人工智能编程。对我个人而言,我很高兴看到高级编程模型可以用于异构程序自动优化,以及它们如何可以支持类似 [HPX][12] 或 [SkelCL][13] 等更高级的技术。 这就是这篇短文需要介绍的东西。如果你想和 SYCL 的开发保持同步,那就要看 [sycl.tech][9]。最近重要的开发就是移植 [Eigen][10] 和 [Tensorflow][11] 到 SYCL ,为 OpenCL 设备带来引入关注的人工智能编程。对我个人而言,我很高兴看到高级编程模型可以用于异构程序自动优化,以及它们是怎样支持类似 [HPX][12] 或 [SkelCL][13] 等更高级的技术。
1. 我在 Codeplay 工作,但这篇文章是在没有我雇主建议的情况下使用我自己时间编写的。[↩][1]
2. 有趣就行了,别 @ 我。
-------------------------------------------------------------------------------- --------------------------------------------------------------------------------
@ -336,7 +325,7 @@ via: https://blog.tartanllama.xyz/c++/2017/05/19/sycl/
作者:[TartanLlama][a] 作者:[TartanLlama][a]
译者:[ictlyh](https://github.com/ictlyh) 译者:[ictlyh](https://github.com/ictlyh)
校对:[校对者ID](https://github.com/校对者ID) 校对:[wxy](https://github.com/wxy)
本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出