From 7485ab94c2433fab80d59d166098c1aaebf23fc0 Mon Sep 17 00:00:00 2001 From: Xingyu Wang Date: Fri, 15 Jul 2022 15:54:20 +0800 Subject: [PATCH 1/2] R --- .../20220527 Plotting Data in R- Graphs.md | 214 +++++++++--------- 1 file changed, 106 insertions(+), 108 deletions(-) diff --git a/translated/tech/20220527 Plotting Data in R- Graphs.md b/translated/tech/20220527 Plotting Data in R- Graphs.md index 6f3dbc6e43..ce11a6cc40 100644 --- a/translated/tech/20220527 Plotting Data in R- Graphs.md +++ b/translated/tech/20220527 Plotting Data in R- Graphs.md @@ -3,21 +3,20 @@ [#]: author: "Shakthi Kannan https://www.opensourceforu.com/author/shakthi-kannan/" [#]: collector: "lkxed" [#]: translator: "tanloong" -[#]: reviewer: " " +[#]: reviewer: "wxy" [#]: publisher: " " [#]: url: " " R 语言绘制数据:图表篇 ====== -R 语言有非常多的绘图和数据可视化的包,比如 graphics、lattice、ggplot2 等。这是 R 语言系列的第 9 篇文章,我们会介绍 R 中用来绘图的各种函数。 +R 语言有非常多的绘图和数据可视化的包,比如 `graphics`、`lattice`、`ggplot2` 等。这是 R 语言系列的第 9 篇文章,我们会介绍 R 中用来绘图的各种函数。 -![business-man-visulising-graphs][1] +![](https://img.linux.net.cn/data/attachment/album/202207/15/155129rsfee22secwyii8w.jpg) -本文使用的 R 是 4.1.2 版本, -运行环境为 Parabola GNU/Linux-libre (x86-64)。 +本文使用的 R 是 4.1.2 版本,运行环境为 Parabola GNU/Linux-libre (x86-64)。 -```R +``` $ R --version R version 4.1.2 (2021-11-01) -- "Bird Hippie" @@ -25,15 +24,13 @@ Copyright (C) 2021 The R Foundation for Statistical Computing Platform: x86_64-pc-linux-gnu (64-bit) ``` -R 是开源软件,没有任何担保责任。 -只要遵守 GNU 通用公共许可证的版本 2 或者版本 3,你就可以对它进行 (修改和) 再分发。 -详情见 [*https://www.gnu.org/licenses/.*](https://www.gnu.org/licenses/.) +R 是自由软件,没有任何担保责任。只要遵守 GNU 通用公共许可证的版本 2 或者版本 3,你就可以对它进行(修改和)再分发。详情见 [https://www.gnu.org/licenses/](https://www.gnu.org/licenses/)。 ### 折线图 -我们以印度全境消费者物价指数 (CPI -- 乡村/城市) 数据集为研究对象,它可以从 [*https://data.gov.in/catalog/all-india-consumer-price-index-ruralurban-0*](https://data.gov.in/catalog/all-india-consumer-price-index-ruralurban-0) 下载。选择 "截止到 2021 年 11 月" 的版本,用 read.csv 函数读取下载好的文件,如下所示: +我们以印度全境消费者物价指数(CPI -- 乡村/城市)数据集为研究对象,它可以从 [https://data.gov.in/catalog/all-india-consumer-price-index-ruralurban-0](https://data.gov.in/catalog/all-india-consumer-price-index-ruralurban-0) 下载。选择“截止到 2021 年 11 月” 的版本,用 `read.csv` 函数读取下载好的文件,如下所示: -```R +``` > cpi <- read.csv(file="CPI.csv", sep=",") > head(cpi) @@ -54,9 +51,9 @@ Chattisgarh Delhi Goa Gujarat Haryana Himachal.Pradesh Jharkhand Karnataka ... ``` -以 Punjab 州为例,对每年各月份的 CPI 值求和,然后用 plot 函数画一张折线图: +以 Punjab 州为例,对每年各月份的 CPI 值求和,然后用 `plot` 函数画一张折线图: -```R +``` > punjab <- aggregate(x=cpi$Punjab, by=list(cpi$Year), FUN=sum) > head(punjab) @@ -71,20 +68,20 @@ Group.1 x > plot(punjab$Group.1, punjab$x, type="l", main="Punjab Consumer Price Index upto November 2021", xlab="Year", ylab="Consumer Price Index") ``` -plot 函数可以传入如下参数: +`plot` 函数可以传入如下参数: | 参数 | 描述 | | :- | :- | -| x | 向量类型,用于绘制 x 轴的数据 | -| y | 向量或列表类型,用于绘制 y 轴的数据 | -| type | 设置绘图类型:"p" 画点;"l" 画线;"o" 同时画点和线,且相互重叠;"s" 画阶梯线;"h" 画铅垂线 | -| xlim | x 轴范围 | -| ylim | y 轴范围 | -| main | 标题 | -| sub | 副标题 | -| xlab | x 轴标题 | -| ylab | y 轴标题 | -| axes | 逻辑型,是否绘制坐标轴 | +| `x` | 向量类型,用于绘制 x 轴的数据 | +| `y` | 向量或列表类型,用于绘制 y 轴的数据 | +| `type` | 设置绘图类型:`p` 画点;`l` 画线;`o` 同时画点和线,且相互重叠;`s` 画阶梯线;`h` 画铅垂线 | +| `xlim` | x 轴范围 | +| `ylim` | y 轴范围 | +| `main` | 标题 | +| `sub` | 副标题 | +| `xlab` | x 轴标题 | +| `ylab` | y 轴标题 | +| `axes` | 逻辑型,是否绘制坐标轴 | 结果如图 1。 @@ -92,57 +89,57 @@ plot 函数可以传入如下参数: ### 自相关图 -自相关图能在时序分析中展示一个变量是否具有自相关性,可以用 R 中的 acf 函数绘制。acf 函数可以设置三种自相关类型:*correlation*、*covariance* 或 *partial*。图 2 是 Punjab 州 CPI 值的自相关图,x 表示 CPI。 +自相关图能在时序分析中展示一个变量是否具有自相关性,可以用 R 中的 `acf` 函数绘制。`acf` 函数可以设置三种自相关类型:`correlation`、`covariance` 或 `partial`。图 2 是 Punjab 州 CPI 值的自相关图,x 表示 CPI。 -```R +``` acf(punjab$x,main='x') ``` ![Figure 2: ACF chart][3] -acf 函数可以传入以下参数: +`acf` 函数可以传入以下参数: | 参数 | 描述 | | :- | :- | -| x | 一个单变量或多变量的 time series 对象,或者一个数值向量或数值矩阵 | -| lag.max | 最大滞后阶数 | -| type | 字符型,设置所计算的自相关类型:"correlation"、"covariance" 或 "partial" | -| plot | 逻辑性,若 TRUE 则绘制图像,若 FALSE 则打印传入数据的描述信息 | -| i | 一组要保留的时差滞后 | -| j | 一组要保留的名称或数字 | +| `x` | 一个单变量或多变量的时序对象,或者一个数值向量或数值矩阵 | +| `lag.max` | 最大滞后阶数 | +| `type` | 字符型,设置所计算的自相关类型:`correlation`、`covariance` 或 `partial` | +| `plot` | 逻辑性,若 `TRUE` 则绘制图像,若 `FALSE` 则打印传入数据的描述信息 | +| `i` | 一组要保留的时差滞后 | +| `j` | 一组要保留的名称或数字 | ### 柱状图 -R 中画柱状图的函数是 barplot。下面的代码用来画 Punjab 州 CPI 的柱状图,如图3: +R 中画柱状图的函数是 `barplot`。下面的代码用来画 Punjab 州 CPI 的柱状图,如图3: -```R +``` > barplot(punjab$x, main="Punjab Consumer Price Index", sub="Upto November 2021", xlab="Year", ylab="Consumer Price Index", col="navy") ``` ![Figure 3: Line chart of Punjab's CPI][4] -barplot 函数的使用方法非常灵活,可以传入以下参数: +`barplot` 函数的使用方法非常灵活,可以传入以下参数: | 参数 | 描述 | | :- | :- | -| height | 数值向量或数值矩阵,包含用于绘图的数据 | -| width | 数值向量,用于设置柱宽 | -| space | 柱间距 | -| beside | 逻辑型,若 FALSE 则绘制堆积柱状图,若 TRUE 则绘制并列柱状图 | -| density | 数值型,设置阴影线的填充密度 (条数/英寸),默认为 NULL,即不填充阴影线| -| angle | 数值型,填充线条的角度,默认为 45 | -| border | 柱子边缘的颜色 | -| main | 标题 | -| sub | 副标题 | -| xlab | x 轴标题 | -| ylab | y 轴标题 | -| xlim | x 轴范围 | -| ylim | y 轴范围 | -| axes | 逻辑型,是否绘制坐标轴 | +| `height` | 数值向量或数值矩阵,包含用于绘图的数据 | +| `width` | 数值向量,用于设置柱宽 | +| `space` | 柱间距 | +| `beside` | 逻辑型,若 `FALSE` 则绘制堆积柱状图,若 `TRUE` 则绘制并列柱状图 | +| `density` | 数值型,设置阴影线的填充密度(条数/英寸),默认为 `NULL`,即不填充阴影线| +| `angle` | 数值型,填充线条的角度,默认为 45 | +| `border` | 柱形边缘的颜色 | +| `main` | 标题 | +| `sub` | 副标题 | +| `xlab` | x 轴标题 | +| `ylab` | y 轴标题 | +| `xlim` | x 轴范围 | +| `ylim` | y 轴范围 | +| `axes` | 逻辑型,是否绘制坐标轴 | -用 help 命令可以查看 barplot 函数的详细信息: +用 `help` 命令可以查看 `barplot` 函数的详细信息: -```R +``` > help(barplot) barplot package:graphics R Documentation @@ -176,9 +173,9 @@ Usage: ### 饼图 -绘制饼图时要多加注意,因为饼图不一定能展示出各扇形间的区别。(LCTT 译注:"根据统计学家和一些心理学家的调查结果,这种以比例展示数据的统计图形 [实际上是很糟糕的可视化方式][10],因此,R 关于饼图的帮助文件中清楚地说明了并不推荐使用饼图,而是使用条形图或点图作为替代。") 用 subset 函数获得 Gujarat 州在 2021 年 1 月 Rural、Urban、Rurual+Urban 的 CPI 值: +绘制饼图时要多加注意,因为饼图不一定能展示出各扇形间的区别。(LCTT 译注:根据统计学家和一些心理学家的调查结果,这种以比例展示数据的统计图形 [实际上是很糟糕的可视化方式][10],因此,R 关于饼图的帮助文件中清楚地说明了并不推荐使用饼图,而是使用条形图或点图作为替代。) 用 `subset` 函数获得 Gujarat 州在 2021 年 1 月 Rural、Urban、Rurual+Urban 的 CPI 值: -```R +``` > jan2021 <- subset(cpi, Name=="January" & Year=="2021") > jan2021$Gujarat @@ -187,50 +184,51 @@ Usage: > names <- c('Rural', 'Urban', 'Rural+Urban') ``` -使用 pie 函数为 Gujarat 州的 CPI 值生成饼图,如下所示: +使用 `pie` 函数为 Gujarat 州的 CPI 值生成饼图,如下所示: -```R +``` > pie(jan2021$Gujarat, names, main="Gujarat CPI Rural and Urban Pie Chart") ``` ![Figure 4: Pie chart][5] -pie 函数可以传入以下参数: +`pie` 函数可以传入以下参数: | 参数 | 描述 | | :- | :- | -| x | 元素大于 0 的数值向量 | -| label | 字符向量,用于设置每个扇形的标签 | -| radius | 饼图的半径 | -| clockwise | 逻辑型,若 TRUE 则顺时针绘图,若 FALSE 则逆时针绘图 | -| density | 数值型,设置阴影线的填充密度 (条数/英寸),默认为 NULL,即不填充阴影线| -| angle | 数值型,填充线条的角度,默认为 45 | -| col | 数值向量,用于设置颜色 | -| lty | 每个扇形的线条类型 | -| main | 标题 | +| `x | 元素大于 0 的数值向量 | +| `label` | 字符向量,用于设置每个扇形的标签 | +| `radius` | 饼图的半径 | +| `clockwise` | 逻辑型,若 `TRUE` 则顺时针绘图,若 `FALSE` 则逆时针绘图 | +| `density` | 数值型,设置阴影线的填充密度(条数/英寸),默认为 `NULL`,即不填充阴影线| +| `angle` | 数值型,填充线条的角度,默认为 45 | +| `col` | 数值向量,用于设置颜色 | +| `lty` | 每个扇形的线条类型 | +| `main` | 标题 | ### 箱线图 -(LCTT 译注:"箱线图主要是 [从四分位数的角度出发][11] 描述数据的分布,它通过最大值 (Q4)、上四分位数 (Q3)、中位数(Q2)、下四分位数 (Q1) 和最小值 (Q0) 五处位置来获取一维数据的分布概况。我们知道,这五处位置之间依次包含了四段数据,每段中数据量均为总数据量的 1/4。通过每一段数据占据的长度,我们可以大致推断出数据的集中或离散趋势 (长度越短,说明数据在该区间上越密集,反之则稀疏。)") +(LCTT 译注:箱线图主要是 [从四分位数的角度出发][11] 描述数据的分布,它通过最大值(Q4)、上四分位数(Q3)、中位数(Q2)、下四分位数(Q1) 和最小值(Q0)五处位置来获取一维数据的分布概况。我们知道,这五处位置之间依次包含了四段数据,每段中数据量均为总数据量的 1/4。通过每一段数据占据的长度,我们可以大致推断出数据的集中或离散趋势。长度越短,说明数据在该区间上越密集,反之则稀疏。) -箱线图能够用“须线” (whiskers) 展示一个变量的四分位距 (Interquartile Range,简称 IQR=Q3-Q1)。用上下四分位数分别加/减内四分位距,再乘以一个人为设定的倍数 range (见下面的参数列表),得到 `range * c(Q1-IQR, Q3+IQR)`,超过这个范围的数据点就被视作离群点,在图中直接以点的形式表示出来。 -boxplot 函数可以传入以下参数: +箱线图能够用“须线whisker” 展示一个变量的四分位距Interquartile Range(简称 IQR=Q3-Q1)。用上下四分位数分别加/减内四分位距,再乘以一个人为设定的倍数 `range`(见下面的参数列表),得到 `range * c(Q1-IQR, Q3+IQR)`,超过这个范围的数据点就被视作离群点,在图中直接以点的形式表示出来。 + +`boxplot` 函数可以传入以下参数: | 参数 | 描述 | | :- | :- | -| data | 数据框或列表,用于参数类型为公式 (formula) 的情况 | -| x | 数值向量或者列表,若为列表则对列表中每一个子对象依次作出箱线图 | -| width | 设置箱子的宽度 | -| outline | 逻辑型,设置是否绘制离群点 | -| names | 设置每个箱子的标签 | -| border | 设置每个箱子的边缘的颜色 | -| range | 延伸倍数,设置箱线图末端 (须) 延伸到什么位置 | -| plot | 逻辑型,设置是否生成图像,若 TRUE 则生成图像,若 FALSE 则打印传入数据的描述信息 | -| horizontal | 逻辑型,设置箱线图是否水平放置 | +| `data` | 数据框或列表,用于参数类型为公式的情况 | +| `x` | 数值向量或者列表,若为列表则对列表中每一个子对象依次作出箱线图 | +| `width` | 设置箱子的宽度 | +| `outline` | 逻辑型,设置是否绘制离群点 | +| `names` | 设置每个箱子的标签 | +| `border` | 设置每个箱子的边缘的颜色 | +| `range` | 延伸倍数,设置箱线图末端(须)延伸到什么位置 | +| `plot` | 逻辑型,设置是否生成图像,若 TRUE 则生成图像,若 FALSE 则打印传入数据的描述信息 | +| `horizontal` | 逻辑型,设置箱线图是否水平放置 | -用 boxplot 函数绘制部分州的箱线图: +用 `boxplot` 函数绘制部分州的箱线图: -```R +``` > names <- c ('Andaman and Nicobar', 'Lakshadweep', 'Delhi', 'Goa', 'Gujarat', 'Bihar') > boxplot(cpi$Andaman.and.Nicobar, cpi$Lakshadweep, cpi$Delhi, cpi$Goa, cpi$Gujarat, cpi$Bihar, names=names) ``` @@ -239,56 +237,56 @@ boxplot 函数可以传入以下参数: ### QQ 图 -QQ 图 (Quantile-Quantile plot) 可以用来对比两个数据集,也可以用来检查数据是否服从某种理论分布。qqnorm 函数能绘制正态分布 QQ 图,可以检验数据是否服从正态分布,用下面的代码绘制 Punjab 州 CPI 数据的 QQ 图: +QQ 图Quantile-Quantile plot可以用来对比两个数据集,也可以用来检查数据是否服从某种理论分布。`qqnorm` 函数能绘制正态分布 QQ 图,可以检验数据是否服从正态分布,用下面的代码绘制 Punjab 州 CPI 数据的 QQ 图: -```R +``` > qqnorm(punjab$x) ``` ![Figure 6: Q-Q plot][7] -qqline 函数可以向正态分布 QQ 图上添加理论分布曲线,它可以传入以下参数: +`qqline` 函数可以向正态分布 QQ 图上添加理论分布曲线,它可以传入以下参数: | 参数 | 描述 | | :- | :- | -| x | 第一个数据样本 | -| y | 第二个数据样本 | -| datax | 逻辑型,设置是否以 x 轴表示理论曲线的值,默认为 FALSE | -| probs | 长度为 2 的数值向量,代表概率 | -| xlab | x 轴标题 | -| ylab | y 轴标题 | -| qtype | [1,9] 内的整数,设置分位计算类型,详情见 help(quantile) 的 "Type" 小节 | +| `x` | 第一个数据样本 | +| `y` | 第二个数据样本 | +| `datax` | 逻辑型,设置是否以 x 轴表示理论曲线的值,默认为 `FALSE` | +| `probs` | 长度为 2 的数值向量,代表概率 | +| `xlab` | x 轴标题 | +| `ylab` | y 轴标题 | +| `qtype` | `[1,9]` 内的整数,设置分位计算类型,详情见 `help(quantile)` 的类型小节 | ### 等高图 -等高图可以描述三维数据,在 R 中对应的函数是 contour,这个函数也可以用来向已有的图表添加等高线。等高图常与其他图表一起使用。我们用 contour 对 R 中的 volcano 数据集 (奥克兰的火山地形信息) 绘制等高图,代码如下: +等高图可以描述三维数据,在 R 中对应的函数是 `contour`,这个函数也可以用来向已有的图表添加等高线。等高图常与其他图表一起使用。我们用 `contour` 对 R 中的 `volcano` 数据集(奥克兰的火山地形信息)绘制等高图,代码如下: -```R +``` > contour(volcano) ``` ![Figure 7: Volcano][8] -contour 函数的常用参数如下: +`contour` 函数的常用参数如下: | 参数 | 描述 | | :- | :- | -| x,y | z 中数值对应的点在平面上的位置 | -| z | 数值向量 | -| nlevels | 设置等高线的条数,调整等高线的疏密 | -| labels | 等高线上的标记字符串,默认是高度的数值 | -| xlim | 设置 x 轴的范围 | -| ylim | 设置 y 轴的范围 | -| zlim | 设置 z 轴的范围 | -| axes | 设置是否绘制坐标轴 | -| col | 设置等高线的颜色 | -| lty | 设置线条的类型 | -| lwd | 设置线条的粗细 | -| vfont | 设置标签字体 | +| `x,y` | z 中数值对应的点在平面上的位置 | +| `z` | 数值向量 | +| `nlevels` | 设置等高线的条数,调整等高线的疏密 | +| `labels` | 等高线上的标记字符串,默认是高度的数值 | +| `xlim` | 设置 x 轴的范围 | +| `ylim` | 设置 y 轴的范围 | +| `zlim` | 设置 z 轴的范围 | +| `axes` | 设置是否绘制坐标轴 | +| `col` | 设置等高线的颜色 | +| `lty` | 设置线条的类型 | +| `lwd` | 设置线条的粗细 | +| `vfont` | 设置标签字体 | 等高线之间的区域可以用颜色填充,每种颜色表示一个高度范围,如下所示: -```R +``` > filled.contour(volcano, asp = 1) # asp 为图形纵横比,即 y 轴上的 1 单位长度和 x 轴上 1 单位长度的比率 ``` @@ -296,7 +294,7 @@ contour 函数的常用参数如下: ![Figure 8: Filled volcano][9] -掌握上述内容后,你可以尝试 R 语言 graphics 包中的其他函数和图表 (LCTT 译注:用 help(package=graphics) 可以查看 graphics 包提供的函数列表)。 +掌握上述内容后,你可以尝试 R 语言 `graphics` 包中的其他函数和图表(LCTT 译注:用 `help(package=graphics)` 可以查看 graphics 包提供的函数列表)。 -------------------------------------------------------------------------------- @@ -305,7 +303,7 @@ via: https://www.opensourceforu.com/2022/05/plotting-data-in-r-graphs/ 作者:[Shakthi Kannan][a] 选题:[lkxed][b] 译者:[tanloong](https://github.com/tanloong) -校对:[校对者ID](https://github.com/校对者ID) +校对:[wxy](https://github.com/wxy) 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出 From 9fcffd9e655297da6e43d7109362c2304cc37d90 Mon Sep 17 00:00:00 2001 From: Xingyu Wang Date: Fri, 15 Jul 2022 15:55:03 +0800 Subject: [PATCH 2/2] P @tanloong https://linux.cn/article-14830-1.html --- .../tech => published}/20220527 Plotting Data in R- Graphs.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) rename {translated/tech => published}/20220527 Plotting Data in R- Graphs.md (99%) diff --git a/translated/tech/20220527 Plotting Data in R- Graphs.md b/published/20220527 Plotting Data in R- Graphs.md similarity index 99% rename from translated/tech/20220527 Plotting Data in R- Graphs.md rename to published/20220527 Plotting Data in R- Graphs.md index ce11a6cc40..f2877704fc 100644 --- a/translated/tech/20220527 Plotting Data in R- Graphs.md +++ b/published/20220527 Plotting Data in R- Graphs.md @@ -4,8 +4,8 @@ [#]: collector: "lkxed" [#]: translator: "tanloong" [#]: reviewer: "wxy" -[#]: publisher: " " -[#]: url: " " +[#]: publisher: "wxy" +[#]: url: "https://linux.cn/article-14830-1.html" R 语言绘制数据:图表篇 ======