PRF

@chen-ni
2025-01-25 23:11:02 +08:00 · 2019-07-08 13:02:12 +08:00 · 2019-07-08 13:02:12 +08:00 · 36e9ff86b4
commit 36e9ff86b4
parent c1b5836482
1 changed files with 32 additions and 32 deletions
--- a/translated/tech/20190702
+++ b/translated/tech/20190702
@ -1,6 +1,6 @@
 [#]: collector: (lujun9972)
 [#]: translator: (chen-ni)
-[#]: reviewer: ( )
+[#]: reviewer: (wxy)
 [#]: publisher: ( )
 [#]: url: ( )
 [#]: subject: (Jupyter and data science in Fedora)
@ -27,15 +27,15 @@

 请注意，这些问题的答案是在任何数据库里都查询不到的，因为它们尚不存在，需要被计算出来才行。这就是我们数据科学家从事的工作。

-在这篇文章中你会学习如何将 Fedora 系统打造成数据科学家的开发环境和生产系统。其中大多数基本软件都有 RPM 软件包，但是最先进的组件目前只能通过 Python 的 **pip** 工具安装。
+在这篇文章中你会学习如何将 Fedora 系统打造成数据科学家的开发环境和生产系统。其中大多数基本软件都有 RPM 软件包，但是最先进的组件目前只能通过 Python 的 `pip` 工具安装。

 ### Jupyter IDE

-大多数现代数据科学家使用 Python 工作。他们工作中很重要的一部分是 <ruby>探索性数据分析<rt>Exploratory Data Analysis<rt></ruby>（EDA）。EDA 是一种手动进行的、交互性的过程，包括提取数据、探索数据特征、寻找相关性、通过绘制图形进行数据可视化并理解数据的分布特征，以及实现简易的预测模型。
+大多数现代数据科学家使用 Python 工作。他们工作中很重要的一部分是 <ruby>探索性数据分析<rt>Exploratory Data Analysis<rt></ruby>（EDA）。EDA 是一种手动进行的、交互性的过程，包括提取数据、探索数据特征、寻找相关性、通过绘制图形进行数据可视化并理解数据的分布特征，以及实现原型预测模型。

-Jupyter 是能够完美胜任该工作的一个 web 应用。Jupyter 使用的 Notebook 文件支持丰富的文本，包括渲染精美的数学公式（得益于 [mathjax][2]）、代码块和代码输出（包括图形输出）。
+Jupyter 是能够完美胜任该工作的一个 web 应用。Jupyter 使用的 Notebook 文件支持富文本，包括渲染精美的数学公式（得益于 [mathjax][2]）、代码块和代码输出（包括图形输出）。

-Notebook 文件的后缀是 **.ipynb**，意思是“交互式 Python Notebook”。
+Notebook 文件的后缀是 `.ipynb`，意思是“交互式 Python Notebook”。

 #### 搭建并运行 Jupyter

@ -44,20 +44,21 @@ Notebook 文件的后缀是 **.ipynb**，意思是“交互式 Python Notebook
 ```
 $ sudo dnf install python3-notebook mathjax sscg
 ```
+
 你或许需要安装数据科学家常用的一些附加可选模块：

 ```
 $ sudo dnf install python3-seaborn python3-lxml python3-basemap python3-scikit-image python3-scikit-learn python3-sympy python3-dask+dataframe python3-nltk
 ```

-设置一个用来登陆 Notebook 的 web 界面的密码，从而避免使用冗长的令牌。你可以在终端里任何一个位置运行下面的命令：
+设置一个用来登录 Notebook 的 web 界面的密码，从而避免使用冗长的令牌。你可以在终端里任何一个位置运行下面的命令：

 ```
 $ mkdir -p $HOME/.jupyter
 $ jupyter notebook password
 ```

-然后输入你的密码，这时会自动创建 ** $HOME/.jupyter/jupyter_notebook_config.json ** 这个文件，包含了你的密码的加密后版本。
+然后输入你的密码，这时会自动创建 `$HOME/.jupyter/jupyter_notebook_config.json` 这个文件，包含了你的密码的加密后版本。

 接下来，通过使用 SSLby 为 Jupyter 的 web 服务器生成一个自签名的 HTTPS 证书：

@ -65,7 +66,7 @@ $ jupyter notebook password
 $ cd $HOME/.jupyter; sscg
 ```

-配置 Jupyter 的最后一步是编辑 **$HOME/.jupyter/jupyter_notebook_config.json** 这个文件。按照下面的模版编辑该文件：
+配置 Jupyter 的最后一步是编辑 `$HOME/.jupyter/jupyter_notebook_config.json` 这个文件。按照下面的模版编辑该文件：

 ```
 {
@ -83,9 +84,9 @@ $ cd $HOME/.jupyter; sscg
 }
 ```

-红色的部分应该替换为你的文件夹。蓝色的部分在你创建完密码之后就已经自动生成了。绿色的部分是 **sscg** 生成的和加密相关的文件。
+`/home/aviram/` 应该替换为你的文件夹。`sha1:abf58...87b` 这个部分在你创建完密码之后就已经自动生成了。`service.pem` 和 `service-key.pem` 是 `sscg` 生成的和加密相关的文件。

-接下来创建一个用来存放 notebook 文件的文件夹，应该和上面配置里 **notebook_dir** 一致：
+接下来创建一个用来存放 Notebook 文件的文件夹，应该和上面配置里 `notebook_dir` 一致：

 ```
 $ mkdir $HOME/Notebooks
@ -97,40 +98,40 @@ $ mkdir $HOME/Notebooks
 $ jupyter notebook
 ```

-或者是将下面这行代码添加到 **$HOME/.bashrc** 文件，创建一个叫做 **jn** 的快捷命令：
+或者是将下面这行代码添加到 `$HOME/.bashrc` 文件，创建一个叫做 `jn` 的快捷命令：

 ```
 alias jn='jupyter notebook'
 ```

-运行 **jn** 命令之后，你可以通过网络内部的任何一个浏览器访问 **<https://your-fedora-host.com:8888>** （LCTT 译注：将域名替换为服务器的域名），就可以看到 Jupyter 的用户界面了，需要使用前面设置的密码登录。你可以尝试键入一些 Python 代码和标记文本，看起来会像下面这样：
+运行 `jn` 命令之后，你可以通过网络内部的任何一个浏览器访问 `<https://your-fedora-host.com:8888>` （LCTT 译注：请将域名替换为服务器的域名），就可以看到 Jupyter 的用户界面了，需要使用前面设置的密码登录。你可以尝试键入一些 Python 代码和标记文本，看起来会像下面这样：

 ![Jupyter with a simple notebook][4]

-除了 IPython 环境，安装过程还会生成一个由 **terminado** 提供的基于 web 的 Unix 终端。有人觉得这很实用，也有人觉得这样不是很安全。你可以在配置文件里禁用这个功能。
+除了 IPython 环境，安装过程还会生成一个由 `terminado` 提供的基于 web 的 Unix 终端。有人觉得这很实用，也有人觉得这样不是很安全。你可以在配置文件里禁用这个功能。

-### JupyterLab — 下一代 Jupyter
+### JupyterLab：下一代 Jupyter

-JupyterLab 是下一代的 Jupyter，拥有更好的用户界面和对工作空间更强的操控性。在写这篇文章的时候 JupyterLab 还没有可用的 RPM 软件包，但是你可以使用 **pip** 轻松完成安装：
+JupyterLab 是下一代的 Jupyter，拥有更好的用户界面和对工作空间更强的操控性。在写这篇文章的时候 JupyterLab 还没有可用的 RPM 软件包，但是你可以使用 `pip` 轻松完成安装：

 ```
 $ pip3 install jupyterlab --user
 $ jupyter serverextension enable --py jupyterlab
 ```

-然后运行 **jupiter notebook** 命令或者 **jn** 快捷命令。访问 **<http://your-linux-host.com:8888/**lab**>** LCTT 译注：将域名替换为服务器的域名）就可以使用 JupyterLab 了。
+然后运行 `jupiter notebook` 命令或者 `jn` 快捷命令。访问 `<http://your-linux-host.com:8888/`lab`>` （LCTT 译注：将域名替换为服务器的域名）就可以使用 JupyterLab 了。

 ### 数据科学家使用的工具

 在下面这一节里，你将会了解到数据科学家使用的一些工具及其安装方法。除非另作说明，这些工具应该已经有 Fedora 软件包版本，并且已经作为前面组件所需要的软件包而被安装了。

-#### **Numpy**
+#### Numpy

-**Numpy** 是一个针对 C 语言优化过的高级库，用来处理内存里的大型数据集。它支持高级多维矩阵及其运算，并且包含了 log()、exp()、三角函数等数学函数。
+Numpy 是一个针对 C 语言优化过的高级库，用来处理大型的内存数据集。它支持高级多维矩阵及其运算，并且包含了 `log()`、`exp()`、三角函数等数学函数。

 #### Pandas

-在我看来，正是 Pandas 成就了 Python 作为数据科学首选平台的地位。Pandas 构建在 numpy 之上，可以让数据准备和数据呈现工作变得简单很多。你可以把它想象成一个没有用户界面的电子表格程序，但是能够处理的数据集要大得多。Pandas 支持从 SQL 数据库或者 CSV 等格式的文件中提取数据、按列或者按行进行操作、数据筛选，以及通过 matplotlib 实现数据可视化的一部分功能。
+在我看来，正是 Pandas 成就了 Python 作为数据科学首选平台的地位。Pandas 构建在 Numpy 之上，可以让数据准备和数据呈现工作变得简单很多。你可以把它想象成一个没有用户界面的电子表格程序，但是能够处理的数据集要大得多。Pandas 支持从 SQL 数据库或者 CSV 等格式的文件中提取数据、按列或者按行进行操作、数据筛选，以及通过 Matplotlib 实现数据可视化的一部分功能。

 #### Matplotlib

@ -140,23 +141,23 @@ Matplotlib 是一个用来绘制 2D 和 3D 数据图像的库，在图象注解

 #### Seaborn

-Seaborn 构建在 matplotlib 之上，它的绘图功能经过了优化，更加适合数据的统计学研究，比如说可以自动显示所绘制数据的近似回归线或者正态分布曲线。
+Seaborn 构建在 Matplotlib 之上，它的绘图功能经过了优化，更加适合数据的统计学研究，比如说可以自动显示所绘制数据的近似回归线或者正态分布曲线。

 ![Linear regression visualised with SeaBorn][6]

-#### [StatsModels][7]
+#### StatsModels

-StatsModels 为统计学和经济计量学的数据分析问题（例如线形回归和逻辑回归）提供算法支持，同时提供经典的 [时间序列算法][8] 家族：ARIMA。 
+[StatsModels][7] 为统计学和经济计量学的数据分析问题（例如线形回归和逻辑回归）提供算法支持，同时提供经典的 [时间序列算法][8] 家族 ARIMA。 

 ![Normalized number of passengers across time \(blue\) and ARIMA-predicted number of passengers \(red\)][9]

 #### Scikit-learn

-作为机器学习生态系统的核心部件，[scikit][10] 为不同类型的问题提供预测算法，包括 [回归问题][11]（算法包括 Elasticnet、Gradient Boosting、随机森林等等）、[分类问题][11] 和聚类问题（算法包括 K-means 和 DBSCAN 等等），并且拥有设计精良的 API。Scikit 还定义了一些专门的 Python 类，用来支持数据操作的高级技巧，比如将数据集拆分为训练集和测试集、降维算法、数据准备管道流程等等。
+作为机器学习生态系统的核心部件，[Scikit][10] 为不同类型的问题提供预测算法，包括 [回归问题][11]（算法包括 Elasticnet、Gradient Boosting、随机森林等等）、[分类问题][11] 和聚类问题（算法包括 K-means 和 DBSCAN 等等），并且拥有设计精良的 API。Scikit 还定义了一些专门的 Python 类，用来支持数据操作的高级技巧，比如将数据集拆分为训练集和测试集、降维算法、数据准备管道流程等等。

 #### XGBoost

-XGBoost 是目前可以使用的最先进的回归器和分类器。它并不是 scikit-learn 的一部分，但是却遵循了 scikit 的 API。[XGBoost][12] 并没有针对 Fedora 的软件包，但可以使用 pip 安装。[使用英伟达显卡可以提升 XGBoost 算法的性能][13]，但是这并不能通过  **pip** 软件包来实现。如果你希望使用这个功能，可以针对 CUDA （LCTT 译注：英伟达开发的并行计算平台）自己进行编译。使用下面这个命令安装 XGBoost：
+XGBoost 是目前可以使用的最先进的回归器和分类器。它并不是 Scikit-learn 的一部分，但是却遵循了 Scikit 的 API。[XGBoost][12] 并没有针对 Fedora 的软件包，但可以使用 `pip` 安装。[使用英伟达显卡可以提升 XGBoost 算法的性能][13]，但是这并不能通过  `pip` 软件包来实现。如果你希望使用这个功能，可以针对 CUDA （LCTT 译注：英伟达开发的并行计算平台）自己进行编译。使用下面这个命令安装 XGBoost：

 ```
 $ pip3 install xgboost --user
@ -164,7 +165,7 @@ $ pip3 install xgboost --user

 #### Imbalanced Learn

-[imbalanced-learn][14] 是一个解决数据欠采样和过采样问题的工具。比如在反欺诈问题中，欺诈数据相对于正常数据来说数量非常小，这个时候就需要对欺诈数据进行数据增强，从而让预测器能够更好地适应数据集。使用 **pip** 安装：
+[Imbalanced-learn][14] 是一个解决数据欠采样和过采样问题的工具。比如在反欺诈问题中，欺诈数据相对于正常数据来说数量非常小，这个时候就需要对欺诈数据进行数据增强，从而让预测器能够更好地适应数据集。使用 `pip` 安装：

 ```
 $ pip3 install imblearn --user
@ -174,31 +175,30 @@ $ pip3 install imblearn --user

 [Natural Language toolkit][15]（简称 NLTK）是一个处理人类语言数据的工具，举例来说，它可以被用来开发一个聊天机器人。

-
 #### SHAP

 机器学习算法拥有强大的预测能力，但并不能够很好地解释为什么做出这样或那样的预测。[SHAP][16] 可以通过分析训练后的模型来解决这个问题。

 ![Where SHAP fits into the data analysis process][17]

-使用 **pip** 安装：
+使用 `pip` 安装：

 ```
 $ pip3 install shap --user
 ```

-#### [Keras][18]
+#### Keras

-Keras 是一个深度学习和神经网络模型的库，使用 **pip** 安装：
+[Keras][18] 是一个深度学习和神经网络模型的库，使用 `pip` 安装：

 ```
 $ sudo dnf install python3-h5py
 $ pip3 install keras --user
 ```

-#### [TensorFlow][19]
+#### TensorFlow

-TensorFlow 是一个非常流行的神经网络模型搭建工具，使用 **pip** 安装：
+[TensorFlow][19] 是一个非常流行的神经网络模型搭建工具，使用 `pip` 安装：

 ```
 $ pip3 install tensorflow --user
@ -215,7 +215,7 @@ via: https://fedoramagazine.org/jupyter-and-data-science-in-fedora/
 作者：[Avi Alkalay][a]
 选题：[lujun9972][b]
 译者：[chen-ni](https://github.com/chen-ni)
-校对：[校对者ID](https://github.com/校对者ID)
+校对：[wxy](https://github.com/wxy)

 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译，[Linux中国](https://linux.cn/) 荣誉推出