From 885f38addaf58b68f037b53a3d3846092e9de4d5 Mon Sep 17 00:00:00 2001 From: "Xingyu.Wang" Date: Wed, 17 Apr 2019 22:24:57 +0800 Subject: [PATCH] PRF:20190402 Parallel computation in Python with Dask.md @geekpi --- ...arallel computation in Python with Dask.md | 22 +++++++++++-------- 1 file changed, 13 insertions(+), 9 deletions(-) diff --git a/translated/tech/20190402 Parallel computation in Python with Dask.md b/translated/tech/20190402 Parallel computation in Python with Dask.md index ed29af7b9a..a1376d3f8b 100644 --- a/translated/tech/20190402 Parallel computation in Python with Dask.md +++ b/translated/tech/20190402 Parallel computation in Python with Dask.md @@ -1,6 +1,6 @@ [#]: collector: (lujun9972) [#]: translator: (geekpi) -[#]: reviewer: ( ) +[#]: reviewer: (wxy) [#]: publisher: ( ) [#]: url: ( ) [#]: subject: (Parallel computation in Python with Dask) @@ -9,14 +9,17 @@ 使用 Dask 在 Python 中进行并行计算 ====== -Dask 库将 Python 计算扩展到多个核心甚至是多台机器。 + +> Dask 库可以将 Python 计算扩展到多个核心甚至是多台机器。 + ![Pair programming][1] -关于 Python 性能的一个常见抱怨是[全局解释器锁][2](GIL)。由于 GIL,一次只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。 +关于 Python 性能的一个常见抱怨是[全局解释器锁][2](GIL)。由于 GIL,同一时刻只能有一个线程执行 Python 字节码。因此,即使在现代的多核机器上,使用线程也不会加速计算。 -但当你需要并行化到多核时,你不需要停止使用 Python:**[Dask][3]** 库可以将计算扩展到多个内核甚至多个机器。某些设置在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展限制,但并不容易达到。 +但当你需要并行化到多核时,你不需要放弃使用 Python:[Dask][3] 库可以将计算扩展到多个内核甚至多个机器。某些设置可以在数千台机器上配置 Dask,每台机器都有多个内核。虽然存在扩展规模的限制,但一般达不到。 虽然 Dask 有许多内置的数组操作,但举一个非内置的例子,我们可以计算[偏度][4]: + ``` import numpy import dask @@ -31,11 +34,12 @@ skewness = ((unnormalized_moment - (3 * mean * stddev ** 2) - mean ** 3) / stddev ** 3) ``` -请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化,即使在计算数十亿个元素时也是如此。 +请注意,每个操作将根据需要使用尽可能多的内核。这将在所有核心上并行化执行,即使在计算数十亿个元素时也是如此。 -当然,并不是我们所有的操作都可由库并行化,有时我们需要自己实现并行性。 +当然,并不是我们所有的操作都可由这个库并行化,有时我们需要自己实现并行性。 为此,Dask 有一个“延迟”功能: + ``` import dask @@ -47,9 +51,9 @@ total = dask.delayed(sum)(palindromes) result = total.compute() ``` -这将计算字符串是否是回文并返回回回文的数量。 +这将计算字符串是否是回文并返回回文的数量。 -虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask-有 GIL 或没有 GIL。 +虽然 Dask 是为数据科学家创建的,但它绝不仅限于数据科学。每当我们需要在 Python 中并行化任务时,我们可以使用 Dask —— 无论有没有 GIL。 -------------------------------------------------------------------------------- @@ -58,7 +62,7 @@ via: https://opensource.com/article/19/4/parallel-computation-python-dask 作者:[Moshe Zadka (Community Moderator)][a] 选题:[lujun9972][b] 译者:[geekpi](https://github.com/geekpi) -校对:[校对者ID](https://github.com/校对者ID) +校对:[wxy](https://github.com/wxy) 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出