mirror of https://github.com/LCTT/TranslateProject.git synced 2025-01-04 22:00:34 +08:00

GraveAccent d29de3e5f4 GraveAccent translated 20180422...

2018-12-11 23:04:16 +08:00

15 KiB

Raw Blame History

数据科学家的命令行技巧

对于许多数据科学家来说，数据操作始于和结束于 Pandas 或 Tidyverse。从理论上讲，这样做没有任何问题。毕竟，这就是这些工具存在的原因。然而，对于像分隔符转换这样的简单任务，这些工具是大材小用了。

立志掌握命令行应该在每个开发人员的清单上，特别是数据科学家。学习 shell 的来龙去脉将无可否认地提高你的生产力。除此之外，命令行还是计算领域的一个重要历史课程。例如，awk - 一种数据驱动的脚本语言。1977年，在传奇的 K&R 书中 K 即 Brain Kernighan 的帮助下，Awk 首次出现。今天，大约五十年过去了，awk 仍然和每年出现的新书相关。因此，可以安全地假设对命令行魔法的投资不会很快贬值。

我们将涵盖什么

ICONV
HEAD
TR
WC
SPLIT
SORT & UNIQ
CUT
PASTE
JOIN
GREP
SED
AWK

ICONV

文件编码可能会很棘手。现在大部分文件都是 UTF-8 编码的。要了解 UTF-8 背后的一些魔力，请查看这个出色的视频。尽管如此，有时我们收到的文件不是这种格式。这可能引起对改变编码模式的一些不靠谱尝试。这里，iconv 是一个拯救者。Iconv 是一个简单的程序，它将获取采用一种编码的文本并输出采用另一种编码的文本。

# Converting -f (from) latin1 (ISO-8859-1)
# -t (to) standard UTF_8

iconv -f ISO-8859-1 -t UTF-8 < input.txt > output.txt

实用选项：
- iconv -l 列出所有已知编码
- iconv -c 默默丢弃无法转换的字符

HEAD

如果你是一个频繁的 Pandas 用户，那么会很熟悉 head。通常在处理新数据时，我们想做的第一件事就是了解其内容。这导致启动 Pandas，读取数据然后调用 df.head() - 这至少是费劲的。没有任何标志的 Head 将打印出文件的前10行。head 的真正力量在于测试出来干净利落的操作。例如，如果我们想将文件的分隔符从逗号更改为管道。一个快速测试将是：head mydata.csv | sed 's/,/|/g'。

# Prints out first 10 lines
head filename.csv

# Print first 3 lines
head -n 3 filename.csv

实用选项：
- head -n 打印特定行数
- head -c 打印具体的字节数

TR

Tr 类似于翻译。这个功能强大的实用程序是基本文件清理的主力。理想的用例是交换文件中的分隔符。

# Converting a tab delimited file into commas
cat tab_delimited.txt | tr "\t" "," comma_delimited.csv

tr 另一个功能是在你支配中的内建 [:class:] 变量（POSIX 字符类）。这些包括了：

[:alnum:] all letters and digits
[:alpha:] all letters
[:blank:] all horizontal whitespace
[:cntrl:] all control characters
[:digit:] all digits
[:graph:] all printable characters, not including space
[:lower:] all lower case letters
[:print:] all printable characters, including space
[:punct:] all punctuation characters
[:space:] all horizontal or vertical whitespace
[:upper:] all upper case letters
[:xdigit:] all hexadecimal digits

你可以将这些连接在一起以组成强大的程序。以下是一个基本的字数统计程序，可用于检查自述文件是否过度使用。

cat README.md | tr "[:punct:][:space:]" "\n" | tr "[:upper:]" "[:lower:]" | grep . | sort | uniq -c | sort -nr

另一个使用基本正则表达式的例子：

# Converting all upper case letters to lower case
cat filename.csv | tr '[A-Z]' '[a-z]'

实用选项：
- tr -d 删除字符
- tr -s 压缩字符
- \b 退格
- \f 换页
- \v 垂直制表符
- \NNN 八进制字符

WC

单词数量。它的值主要来自 -l 标志，它会给你提供行数。

# Will return number of lines in CSV
wc -l gigantic_comma.csv

这个工具可以方便地确认各种命令的输出。所以，如果我们在转换文件中的分隔符之后运行 wc -l，我们会期待总行数是一样的，如果不一致，我们就知道有地方出错了。

实用选项：
- wc -c 打印字节数
- wc -m 打印字符数
- wc -L 打印最长行的长度
- wc -w 打印单词数量

SPLIT

文件大小的范围可以很广。取决于任务，拆分文件可以是有益的，所以使用 split 吧。split的基本语法是：

# We will split our CSV into new_filename every 500 lines
split -l 500 filename.csv new_filename_
# filename.csv
# ls output
# new_filename_aaa
# new_filename_aab
# new_filename_aa

两个奇怪的地方是命名约定和缺少文件扩展名。后缀约定可以通过 -d 标志变为数字。要添加文件扩展名，你需要运行以下 find 命令。它将通过附加 .csv更改当前目录中所有文件的名称，所以小心了。

find . -type f -exec mv '{}' '{}'.csv \;
# ls output
# filename.csv.csv
# new_filename_aaa.csv
# new_filename_aab.csv
# new_filename_aac.csv

实用选项：
- split -b 按特定字节大小分割
- split -a 生成长度为 N 的后缀
- split -x 使用十六进制后缀分割

SORT & UNIQ

以上两个命令很明显：他们的作用就是字面意思。这两者结合起来可以提供最强大的冲击 (i.e. 单独单词数量)。这是由于 uniq 只作用于重复的相邻行。这也是在输出前 sort 的原因。一个有趣的纪录是 sort -u 会达到和典型的 sort file.txt | uniq 模式一样的结果。

Sort 对数据科学家来说确实具有潜在的有用能力：能够根据特定列对整个 CSV 进行排序。

# Sorting a CSV file by the second column alphabetically
sort -t"," -k2,2 filename.csv

# Numerically
sort -t"," -k2n,2 filename.csv

# Reverse order
sort -t"," -k2nr,2 filename.csv

这里的 -t 选项将逗号指定为分隔符。通常假设分隔符是空格或制表符。此外，-k 标志是为了确定我们的 key。这里的语法是 -km,n，m 作为开始列，n 作为结束列。

实用选项：
- sort -f 忽略大小写
- sort -r 反向排序
- sort -R 乱序
- uniq -c 统计出现次数
- uniq -d 只打印重复行

CUT

Cut 用于删除列。为了演示，如果我们只想删除第一和第三列。

cut -d, -f 1,3 filename.csv

选择除了第一行外的所有行。

cut -d, -f 2- filename.csv

结合其他命令，将cut 用作过滤器。

# Print first 10 lines of column 1 and 3, where "some_string_value" is present
head filename.csv | grep "some_string_value" | cut -d, -f 1,3

查出第二列中唯一值的数量。

cat filename.csv | cut -d, -f 2 | sort | uniq | wc -l

# Count occurences of unique values, limiting to first 10 results
cat filename.csv | cut -d, -f 2 | sort | uniq -c | head

PASTE

Paste 是一个带有趣味性功能的粘贴命令。如果你有两个需要合并的文件，并且它们已经排序了，paste 帮你解决了接下来的步骤。

# names.txt
adam
john
zach

# jobs.txt
lawyer
youtuber
developer

# Join the two into a CSV
paste -d ',' names.txt jobs.txt > person_data.txt

# Output
adam,lawyer
john,youtuber
zach,developer

查看更多 SQL_-esque 变种，见下文。

JOIN

Join 是一个简单准切向的 SQL。最大的区别是 join 将返回所有列以及只能在一个字段上匹配。默认情况下，join 将尝试使用第一列作为匹配键。为了获得不同结果，必须使用以下语法：

# Join the first file (-1) by the second column
# and the second file (-2) by the first
join -t "," -1 2 -2 1 first_file.txt second_file.txt

标准的 join 是内连接。然而，外连接通过 -a 标志也是可行的。另一个值得一提的技巧是 -q 标志，如果发现有缺失的字段，可用于替换值。

# Outer join, replace blanks with NULL in columns 1 and 2
# -o which fields to substitute - 0 is key, 1.1 is first column, etc...
join -t"," -1 2 -a 1 -a2 -e ' NULL' -o '0,1.1,2.2' first_file.txt second_file.txt

不是最用户友好的命令，而是绝望时刻的绝望措施。

实用选项：
- join -a 打印不可配对的行
- join -e 替换丢失的输入字段
- join -j 相当于 -1 FIELD -2 FIELD

GREP

用正则表达式全局搜索并且打印，或者 grep，可能是最有名的命令并且有充分的理由。Grep 很强大，特别适合在大型代码库中找到路径。在数据科学的王国里，它充当其他命令的提炼机制。虽然它的标准用途也很有价值。

# Recursively search and list all files in directory containing 'word'

grep -lr 'word' .

# List number of files containing word

grep -lr 'word' . | wc -l

计算包含单词或模式的总行数。

grep -c 'some_value' filename.csv

# Same thing, but in all files in current directory by file name

grep -c 'some_value' *

使用 or 运算符 - \| 为多个值 Grep。

grep "first_value\|second_value" filename.csv

实用选项：
- alias grep="grep --color=auto" 使 grep 丰富多彩
- grep -E 使用扩展的 regexp
- grep -w 只匹配整个单词
- grep -l 打印匹配的文件名
- grep -v 倒置匹配

大人物们

Sed 和 Awk 是本文中最强大的两个命令。为简介起见，我不打算详细讨论这两个命令。相反，我将介绍各种能证明其令人印象深刻的力量的命令。如果你想了解更多，这儿就有一本书是关于它们的。

SED

sed 本质上是一个流编辑器。它擅长替换，但也可以用于所有输出重构。

最基本的 sed 命令由 s/old/new/g 组成。这转换为搜索旧值，全局替换为新值。如果没有 /g，我们的命令将在旧值第一次出现后终止。

为了快速了解它的功能，我们可以深入了解一个例子。在以下情景中，你已获得以下文件：

balance,name
$1,000,john
$2,000,jack

我们可能想要做的第一件事是删除美元符号。-i 标志表示原位。'' 表示零长度文件扩展名，从而覆盖我们的初始文件。理想情况下，你可以单独测试每个，然后输出到新文件。

sed -i '' 's/\$//g' data.txt
# balance,name
# 1,000,john
# 2,000,jack

接下来， blance 列的逗号。

sed -i '' 's/\([0-9]\),\([0-9]\)/\1\2/g' data.txt
# balance,name
# 1000,john
# 2000,jack

最后杰克有一天决定退出。所以，再见了，我的朋友。

sed -i '' '/jack/d' data.txt
# balance,name
# 1000,john

正如你所看到的，sed 有很多强大的功能，但乐趣并不止于此。

AWK

最好的留在最后。Awk 不仅仅是一个简单的命令：它是一个成熟的语言。在本文中涉及的所有内容中，awk 是目前为止最酷的。如果你发现自己对其印象深刻，这里有很多很棒的资源 - 看这里, 这里和这里。

awk 的常见用例包括：

文字处理
格式化文本报告
执行算术运算
执行字符串操作

Awk 可以以最原生的形式并行 grep。

awk '/word/' filename.csv

或者更加神奇：将 grep 和 cut 组合起来。在这里，awk 打印第三和第四列，用 tab 分隔，对于所有带我们指定单词的行。-F, 只是改变我们的分隔符为逗号。

awk -F, '/word/ { print $3 "\t" $4 }' filename.csv

Awk 内置了许多精巧的变量。比如，NF - 字段数 - 和 NR - 记录数。要获取文件中的第53条记录：

awk -F, 'NR == 53' filename.csv

增加的代码是基于一个或多个值进行过滤的能力。下面的第一个示例将打印第一列等于给定字符串的记录的行号和列。

awk -F, ' $1 == "string" { print NR, $0 } ' filename.csv

# Filter based off of numerical value in second column
awk -F, ' $2 == 1000 { print NR, $0 } ' filename.csv

多个数值表达式：

# Print line number and columns where column three greater
# than 2005 and column five less than one thousand

awk -F, ' $3 >= 2005 && $5 <= 1000 { print NR, $0 } ' filename.csv

求出第三列的总和：

awk -F, '{ x+=$3 } END { print x }' filename.csv

在第一列等于 “something”的那些行，求出第三列值的总和。

awk -F, '$1 == "something" { x+=$3 } END { print x }' filename.csv

获取文件的尺寸：

awk -F, 'END { print NF, NR }' filename.csv

# Prettier version
awk -F, 'BEGIN { print "COLUMNS", "ROWS" }; END { print NF, NR }' filename.csv

打印出现了两次的行：

awk -F, '++seen[$0] == 2' filename.csv

删除重复的行：

# Consecutive lines
awk 'a !~ $0; {a=$0}']

# Nonconsecutive lines
awk '! a[$0]++' filename.csv

# More efficient
awk '!($0 in a) {a[$0];print}

使用内置函数 gsub() 替换多个值。

awk '{gsub(/scarlet|ruby|puce/, "red"); print}'

这个 awk 命令将组合多个 CSV 文件，忽略标题，然后在最后附加它。

awk 'FNR==1 && NR!=1{next;}{print}' *.csv > final_file.csv

需要缩小一个庞大的文件？ awk 可以在 sed 的帮助下处理它。具体来说，该命令根据行数将一个大文件分成多个较小的文件。这个 one-liner 也将增加一个扩展。

sed '1d;$d' filename.csv | awk 'NR%NUMBER_OF_LINES==1{x="filename-"++i".csv";}{print > x}'

# Example: splitting big_data.csv into data_(n).csv every 100,000 lines
sed '1d;$d' big_data.csv | awk 'NR%100000==1{x="data_"++i".csv";}{print > x}'

结语

命令行拥有无穷无尽的力量。本文中介绍的命令足以将你从一无所知提升到英雄人物。除了涵盖的内容之外，还有许多实用程序需要考虑用于日常数据操作。Csvkit, xsv 还有 q 是需要记住的三个。如果你希望更深入地了解命令行数据科学，查看这本书。它也可以免费在线获得！

via: http://kadekillary.work/post/cli-4-ds/

作者：Kade Killary 选题：lujun9972 译者：GraveAccent 校对：校对者ID

本文由 LCTT 原创编译，Linux中国荣誉推出

15 KiB Raw Blame History Unescape Escape