Merge pull request #9691 from wxy/20180710-4-Essential-and-Practical-Usage-of-Cut-Command-in-Linux

PRF&PUB:20180710 4 Essential and Practical Usage of Cut Command in Linux
2025-02-03 23:40:14 +08:00 · 2018-08-03 23:58:40 +08:00 · 2018-08-03 23:58:40 +08:00 · f92e3dd5af
commit f92e3dd5af
parent 240097910e c1d72f496a
1 changed files with 43 additions and 56 deletions
--- a/translated/tech/20180710
+++ b/translated/tech/20180710
@ -1,7 +1,7 @@
-Linux 下 cut 命令的 4 个本质且实用的示例
+Linux 下 cut 命令的 4 个基础实用的示例
 ============================================================

-`cut` 命令是用来从文本文件中移除“某些列”的经典工具。在本文中的“一列”可以被定义为按照一行中位置区分的一系列字符串或者字节， 或者是以某个分隔符为间隔的某些域。
+`cut` 命令是用来从文本文件中移除“某些列”的经典工具。在本文中的“一列”可以被定义为按照一行中位置区分的一系列字符串或者字节，或者是以某个分隔符为间隔的某些域。

 先前我已经介绍了[如何使用 AWK 命令][13]。在本文中，我将解释 linux 下 `cut` 命令的 4 个本质且实用的例子，有时这些例子将帮你节省很多时间。

@ -11,26 +11,13 @@ Linux 下 cut 命令的 4 个本质且实用的示例

 假如你想，你可以观看下面的视频，视频中解释了本文中我列举的 cut 命令的使用例子。

-目录:
+- https://www.youtube.com/PhE_cFLzVFw

-*   [作用在一系列字符上][8]
-    *   [范围如何定义？][1]
+### 1、 作用在一系列字符上

-*   [作用在一系列字节上][9]
-    *   [作用在多字节编码的字符上][2]
+当启用 `-c` 命令行选项时，`cut` 命令将移除一系列字符。

-*   [作用在域上][10]
-    *   [处理不包含分隔符的行][3]
-
-    *   [改变输出的分隔符][4]
-
-*   [非 POSIX GNU 扩展][11]
-
-### 1\. 作用在一系列字符上
-
-当启用 `-c` 命令行选项时，cut 命令将移除一系列字符。
-
-和其他的过滤器类似， cut 命令不会就地改变输入的文件，它将复制已修改的数据到它的标准输出里去。你可以通过重定向命令的结果到一个文件中来保存修改后的结果，或者使用管道将结果送到另一个命令的输入中，这些都由你来负责。
+和其他的过滤器类似， `cut` 命令不会直接改变输入的文件，它将复制已修改的数据到它的标准输出里去。你可以通过重定向命令的结果到一个文件中来保存修改后的结果，或者使用管道将结果送到另一个命令的输入中，这些都由你来负责。

 假如你已经下载了上面视频中的[示例测试文件][26]，你将看到一个名为 `BALANCE.txt` 的数据文件，这些数据是直接从我妻子在她工作中使用的某款会计软件中导出的：

@ -50,7 +37,7 @@ ACCDOC    ACCDOCDATE    ACCOUNTNUM ACCOUNTLIB              ACCDOCLIB

 上述文件是一个固定宽度的文本文件，因为对于每一项数据，都使用了不定长的空格做填充，使得它看起来是一个对齐的列表。

-这样一来，每一列数据开始和结束的位置都是一致的。从 cut 命令的字面意思去理解会给我们带来一个小陷阱：`cut` 命令实际上需要你指出你想_保留_的数据范围，而不是你想_移除_的范围。所以，假如我_只_需要上面文件中的 `ACCOUNTNUM` 和 `ACCOUNTLIB` 列，我需要这么做：
+这样一来，每一列数据开始和结束的位置都是一致的。从 `cut` 命令的字面意思去理解会给我们带来一个小陷阱：`cut` 命令实际上需要你指出你想_保留_的数据范围，而不是你想_移除_的范围。所以，假如我_只_需要上面文件中的 `ACCOUNTNUM` 和 `ACCOUNTLIB` 列，我需要这么做：

 ```
 sh$ cut -c 25-59 BALANCE.txt | head
@ -68,17 +55,17 @@ ACCOUNTNUM ACCOUNTLIB

 #### 范围如何定义？

-正如我们上面看到的那样， cut 命令需要我们特别指定需要保留的数据的_范围_。所以，下面我将更正式地介绍如何定义范围：对于 `cut` 命令来说，范围是由连字符(`-`)分隔的起始和结束位置组成，范围是基于 1 计数的，即每行的第一项是从 1 开始计数的，而不是从 0 开始。范围是一个闭区间，开始和结束位置都将包含在结果之中，正如它们之间的所有字符那样。如果范围中的结束位置比起始位置小，则这种表达式是错误的。作为快捷方式，你可以省略起始_或_结束值，正如下面的表格所示：
+正如我们上面看到的那样， `cut` 命令需要我们特别指定需要保留的数据的_范围_。所以，下面我将更正式地介绍如何定义范围：对于 `cut` 命令来说，范围是由连字符(`-`)分隔的起始和结束位置组成，范围是基于 1 计数的，即每行的第一项是从 1 开始计数的，而不是从 0 开始。范围是一个闭区间，开始和结束位置都将包含在结果之中，正如它们之间的所有字符那样。如果范围中的结束位置比起始位置小，则这种表达式是错误的。作为快捷方式，你可以省略起始_或_结束值，正如下面的表格所示：


-|||
-|--|--|
+| 范围 | 含义 |
+|---|---|
 | `a-b` | a 和 b 之间的范围（闭区间） |
 |`a` | 与范围 `a-a` 等价 |
 | `-b` | 与范围 `1-a` 等价 |
 | `b-` | 与范围 `b-∞`  等价 |

-cut 命令允许你通过逗号分隔多个范围，下面是一些示例：
+`cut` 命令允许你通过逗号分隔多个范围，下面是一些示例：

 ```
 # 保留 1 到 24 之间（闭区间）的字符
@ -108,8 +95,7 @@ Files /dev/fd/63 and /dev/fd/62 are identical
 类似的，`cut` 命令 _不会重复数据_：

 ```
-# One might expect that could be a way to repeat
-# the first column three times, but no...
+# 某人或许期待这可以第一列三次，但并不会……
 cut -c -10,-10,-10 BALANCE.txt | head -5
 ACCDOC
 4
@ -118,13 +104,13 @@ ACCDOC
 5
 ```

-值得提及的是，曾经有一个提议，建议使用 `-o` 选项来实现上面提到的两个限制，使得 `cut` 工具可以重排或者重复数据。但这个提议被 [POSIX 委员会拒绝了][14]，_“因为这类增强不属于 IEEE P1003.2b 草案标准的范围”_。
+值得提及的是，曾经有一个提议，建议使用 `-o` 选项来去除上面提到的两个限制，使得 `cut` 工具可以重排或者重复数据。但这个提议被 [POSIX 委员会拒绝了][14]，_“因为这类增强不属于 IEEE P1003.2b 草案标准的范围”_。

-据我所知，我还没有见过哪个版本的 cut 程序实现了上面的提议，以此来作为扩展，假如你知道某些例外，请使用下面的评论框分享给大家！
+据我所知，我还没有见过哪个版本的 `cut` 程序实现了上面的提议，以此来作为扩展，假如你知道某些例外，请使用下面的评论框分享给大家！

-### 2\. 作用在一系列字节上
+### 2、 作用在一系列字节上

-当使用 `-b` 命令行选项时，cut 命令将移除字节范围。
+当使用 `-b` 命令行选项时，`cut` 命令将移除字节范围。

 咋一看，使用_字符_范围和使用_字节_没有什么明显的不同：

@ -197,11 +183,11 @@ ACCDOC    ACCDOCDATE    ACCOUNTLIB              DEBIT          CREDIT
 36        1012017       VAT BS/ENC                00000000013,83
 ```

-我已经_毫无删减地_复制了上面命令的输出。所以可以很明显地看出列对齐那里有些问题。
+我_毫无删减地_复制了上面命令的输出。所以可以很明显地看出列对齐那里有些问题。

 对此我的解释是原来的数据文件只包含 US-ASCII 编码的字符（符号、标点符号、数字和没有发音符号的拉丁字母）。

-但假如你仔细地查看经软件升级后产生的文件，你可以看到新导出的数据文件保留了带发音符号的字母。例如名为“ALNÉENRE”的公司现在被合理地记录了，而不是先前的 “ALNEENRE”（没有发音符号）。
+但假如你仔细地查看经软件升级后产生的文件，你可以看到新导出的数据文件保留了带发音符号的字母。例如现在合理地记录了名为 “ALNÉENRE” 的公司，而不是先前的 “ALNEENRE”（没有发音符号）。

 `file -i` 正确地识别出了改变，因为它报告道现在这个文件是 [UTF-8 编码][15] 的。

@ -231,28 +217,26 @@ sh$ sed '2!d' BALANCE-V2.txt  | hexdump -C
 在 `hexdump`  输出的 00000030 那行，在一系列的空格（字节 `20`）之后，你可以看到：

 *   字母 `A` 被编码为 `41`，
-
 *   字母 `L` 被编码为 `4c`，
-
 *   字母 `N` 被编码为 `4e`。

 但对于大写的[带有注音的拉丁大写字母 E][16] （这是它在 Unicode 标准中字母 _É_ 的官方名称），则是使用 _2_ 个字节 `c3 89` 来编码的。

-这样便出现问题了：对于使用固定宽度编码的文件， 使用字节位置来表示范围的 `cut` 命令工作良好，但这并不适用于使用变长编码的 UTF-8 或者 [Shift JIS][17] 编码。这种情况在下面的 [POSIX标准的非规范性摘录][18] 中被明确地解释过：
+这样便出现问题了：对于使用固定宽度编码的文件， 使用字节位置来表示范围的 `cut` 命令工作良好，但这并不适用于使用变长编码的 UTF-8 或者 [Shift JIS][17] 编码。这种情况在下面的 [POSIX 标准的非规范性摘录][18] 中被明确地解释过：

-> 先前版本的 cut 程序将字节和字符视作等同的环境下运作（正如在某些实现下对 退格键<backspace> 和制表键<tab> 的处理）。在针对多字节字符的情况下，特别增加了 `-b` 选项。
+> 先前版本的 `cut` 程序将字节和字符视作等同的环境下运作（正如在某些实现下对退格键 `<backspace>` 和制表键 `<tab>` 的处理）。在针对多字节字符的情况下，特别增加了 `-b` 选项。

 嘿，等一下！我并没有在上面“有错误”的例子中使用 '-b' 选项，而是 `-c` 选项呀！所以，难道_不应该_能够成功处理了吗！？

-是的，确实_应该_：但是很不幸，即便我们现在已身处 2018 年，GNU Coreutils 的版本为 8.30 了，cut 程序的 GNU 版本实现仍然不能很好地处理多字节字符。引用 [GNU 文档][19] 的话说，_`-c` 选项“现在和 `-b` 选项是相同的，但对于国际化的情形将有所不同[...]”_。需要提及的是，这个问题距今已有 10 年之久了！
+是的，确实_应该_：但是很不幸，即便我们现在已身处 2018 年，GNU Coreutils 的版本为 8.30 了，`cut` 程序的 GNU 版本实现仍然不能很好地处理多字节字符。引用 [GNU 文档][19] 的话说，_`-c` 选项“现在和 `-b` 选项是相同的，但对于国际化的情形将有所不同[...]”_。需要提及的是，这个问题距今已有 10 年之久了！

-另一方面，[OpenBSD][20] 的实现版本和 POSIX 相吻合，这将归功于当前的本地化(locale) 设定来合理地处理多字节字符：
+另一方面，[OpenBSD][20] 的实现版本和 POSIX 相吻合，这将归功于当前的本地化（`locale`）设定来合理地处理多字节字符：

 ```
 # 确保随后的命令知晓我们现在处理的是 UTF-8 编码的文本文件
 openbsd-6.3$ export LC_CTYPE=en_US.UTF-8

-# 使用 `-c` 选项， cut 能够合理地处理多字节字符
+# 使用 `-c` 选项， `cut` 能够合理地处理多字节字符
 openbsd-6.3$ cut -c -24,36-59,93- BALANCE-V2.txt
 ACCDOC    ACCDOCDATE    ACCOUNTLIB              DEBIT          CREDIT
 4         1012017       TIDE SCHEDULE           00000001615,00
@ -286,7 +270,7 @@ ACCDOC    ACCDOCDATE    ACCOUNTLIB              DEBIT          CREDIT
 36        1012017       VAT BS/ENC              00000000013,83
 ```

-正如期望的那样，当使用 `-b` 选项而不是 `-c` 选项后， OpenBSD 版本的 cut 实现和传统的 `cut` 表现是类似的：
+正如期望的那样，当使用 `-b` 选项而不是 `-c` 选项后， OpenBSD 版本的 `cut` 实现和传统的 `cut` 表现是类似的：

 ```
 openbsd-6.3$ cut -b -24,36-59,93- BALANCE-V2.txt
@ -322,7 +306,7 @@ ACCDOC    ACCDOCDATE    ACCOUNTLIB              DEBIT          CREDIT
 36        1012017       VAT BS/ENC                00000000013,83
 ```

-### 3\. 作用在域上
+### 3、 作用在域上

 从某种意义上说，使用 `cut` 来处理用特定分隔符隔开的文本文件要更加容易一些，因为只需要确定好每行中域之间的分隔符，然后复制域的内容到输出就可以了，而不需要烦恼任何与编码相关的问题。

@ -342,9 +326,9 @@ ACCDOC;ACCDOCDATE;ACCOUNTNUM;ACCOUNTLIB;ACCDOCLIB;DEBIT;CREDIT
 6;1012017;623795;TOURIST GUIDE BOOK;FACT FA00006253 - BIT QUIROBEN;00000001531,00;
 ```

-你可能知道上面文件是一个 [CSV][29] 格式的文件（它以逗号来分隔），即便有时候域分隔符不是逗号。例如分号（`;`）也常被用来作为分隔符，并且对于那些总使用逗号作为 [十进制分隔符][30]的国家（例如法国，所以上面我的示例文件中选用了他们国家的字符），当导出数据为 "CSV" 格式时，默认将使用分号来分隔数据。另一种常见的情况是使用 [tab 键][32] 来作为分隔符，从而生成叫做 [tab 分隔数值][32] 的文件。最后，在 Unix 和 Linux 领域，冒号 (`:`) 是另一种你能找到的常见分隔符号，例如在标准的 `/etc/passwd` 和 `/etc/group` 这两个文件里。
+你可能知道上面文件是一个 [CSV][29] 格式的文件（它以逗号来分隔），即便有时候域分隔符不是逗号。例如分号（`;`）也常被用来作为分隔符，并且对于那些总使用逗号作为 [十进制分隔符][30]的国家（例如法国，所以上面我的示例文件中选用了他们国家的字符），当导出数据为 “CSV” 格式时，默认将使用分号来分隔数据。另一种常见的情况是使用 [tab 键][32] 来作为分隔符，从而生成叫做 [tab 分隔的值][32] 的文件。最后，在 Unix 和 Linux 领域，冒号 (`:`) 是另一种你能找到的常见分隔符号，例如在标准的 `/etc/passwd` 和 `/etc/group` 这两个文件里。

-当处理使用分隔符隔开的文本文件格式时，你可以向带有 `-f` 选项的 cut 命令提供需要保留的域的范围，并且你也可以使用 `-d` 选项来制定分隔符（当没有使用 `-d` 选项时，默认以 tab 字符来作为分隔符）：
+当处理使用分隔符隔开的文本文件格式时，你可以向带有 `-f` 选项的 `cut` 命令提供需要保留的域的范围，并且你也可以使用 `-d` 选项来指定分隔符（当没有使用 `-d` 选项时，默认以 tab 字符来作为分隔符）：

 ```
 sh$ cut -f 5- -d';' BALANCE.csv | head
@ -362,9 +346,9 @@ FACT FA00006253 - BIT QUIROBEN;00000001531,00;

 #### 处理不包含分隔符的行

-但要是输入文件中的某些行没有分隔符又该怎么办呢？很容易地认为可以将这样的行视为只包含第一个域。但 cut 程序并 _不是_ 这样做的。 
+但要是输入文件中的某些行没有分隔符又该怎么办呢？很容易地认为可以将这样的行视为只包含第一个域。但 `cut` 程序并 _不是_ 这样做的。 

-默认情况下，当使用 `-f` 选项时， cut 将总是原样输出不包含分隔符的那一行（可能假设它是非数据行，就像表头或注释等）：
+默认情况下，当使用 `-f` 选项时，`cut` 将总是原样输出不包含分隔符的那一行（可能假设它是非数据行，就像表头或注释等）：

 ```
 sh$ (echo "# 2018-03 BALANCE"; cat BALANCE.csv) > BALANCE-WITH-HEADER.csv
@ -388,8 +372,7 @@ DEBIT;CREDIT
 00000001333,00;
 ```

-假如你好奇心强，你还可以探索这种特性，来作为一种相对   
-隐晦的方式去保留那些只包含给定字符的行：
+假如你好奇心强，你还可以探索这种特性，来作为一种相对隐晦的方式去保留那些只包含给定字符的行：

 ```
 # 保留含有一个 `e` 的行
@ -398,7 +381,7 @@ sh$ printf "%s\n" {mighty,bold,great}-{condor,monkey,bear} | cut -s -f 1- -d'e'

 #### 改变输出的分隔符

-作为一种扩展， GNU 版本实现的 cut 允许通过使用 `--output-delimiter` 选项来为结果指定一个不同的域分隔符：
+作为一种扩展， GNU 版本实现的 `cut` 允许通过使用 `--output-delimiter` 选项来为结果指定一个不同的域分隔符：

 ```
 sh$ cut -f 5,6- -d';' --output-delimiter="*" BALANCE.csv | head
@ -416,10 +399,12 @@ FACT FA00006253 - BIT QUIROBEN*00000001531,00*

 需要注意的是，在上面这个例子中，所有出现域分隔符的地方都被替换掉了，而不仅仅是那些在命令行中指定的作为域范围边界的分隔符。

-### 4\. 非 POSIX GNU 扩展
+### 4、 非 POSIX GNU 扩展

 说到非 POSIX GNU 扩展，它们中的某些特别有用。特别需要提及的是下面的扩展也同样对字节、字符或者域范围工作良好（相对于当前的 GNU 实现来说）。

+`--complement`：
+
 想想在 sed 地址中的感叹符号(`!`)，使用它，`cut` 将只保存**没有**被匹配到的范围:

 ```
@ -436,7 +421,9 @@ ACCDOC;ACCDOCDATE;ACCOUNTNUM;ACCOUNTLIB;DEBIT;CREDIT
 4;1012017;445452;VAT BS/ENC;00000000323,00;
 ```

-使用 [NUL 字符][6] 来作为行终止符，而不是 [新行（newline）字符][7]。当你的数据包含 新行 字符时， `-z` 选项就特别有用了，例如当处理文件名的时候（因为在文件名中 新行 字符是可以使用的，而 NUL 则不可以）。
+`--zero-terminated (-z)`：
+
+使用 [NUL 字符][6] 来作为行终止符，而不是 [<ruby>新行<rt>newline</rt></ruby>字符][7]。当你的数据包含 新行字符时， `-z` 选项就特别有用了，例如当处理文件名的时候（因为在文件名中新行字符是可以使用的，而 NUL 则不可以）。

 为了展示 `-z` 选项，让我们先做一点实验。首先，我们将创建一个文件名中包含换行符的文件：

@ -448,7 +435,7 @@ BALANCE-V2.txt
 EMPTY?FILE?WITH FUNKY?NAME.txt
 ```

-现在假设我想展示每个 `*.txt` 文件的前 5 个字符。一个想当然的解法将会失败：
+现在假设我想展示每个 `*.txt` 文件的前 5 个字符。一个想当然的解决方法将会失败：

 ```
 sh$ ls -1 *.txt | cut -c 1-5
@ -460,7 +447,7 @@ WITH
 NAME.
 ```

-你可以已经知道 `[ls][21]` 是为了[方便人类使用][33]而特别设计的，并且在一个命令管道中使用它是一个反模式（确实是这样的）。所以让我们用 `[find][22]` 来替换它：
+你可以已经知道 [ls][21] 是为了[方便人类使用][33]而特别设计的，并且在一个命令管道中使用它是一个反模式（确实是这样的）。所以让我们用 [find][22] 来替换它：

 ```
 sh$ find . -name '*.txt' -printf "%f\n" | cut -c 1-5
@ -484,11 +471,11 @@ EMPTY
 BALAN
 ```

-通过上面最后的例子，我们就达到了本文的最后部分了，所以我将让你自己试试 `-printf` 后面那个有趣的 `"%f\0"` 参数或者理解为什么我在管道的最后使用了 `[tr][23]` 命令。
+通过上面最后的例子，我们就达到了本文的最后部分了，所以我将让你自己试试 `-printf` 后面那个有趣的 `"%f\0"` 参数或者理解为什么我在管道的最后使用了 [tr][23] 命令。

 ### 使用 cut 命令可以实现更多功能

-我只是列举了 cut 命令的最常见且在我眼中最实质的使用方式。你甚至可以将它以更加实用的方式加以运用，这取决于你的逻辑和想象。
+我只是列举了 `cut` 命令的最常见且在我眼中最基础的使用方式。你甚至可以将它以更加实用的方式加以运用，这取决于你的逻辑和想象。

 不要再犹豫了，请使用下面的评论框贴出你的发现。最后一如既往的，假如你喜欢这篇文章，请不要忘记将它分享到你最喜爱网站和社交媒体中！

@ -496,9 +483,9 @@ BALAN

 via: https://linuxhandbook.com/cut-command/

-作者：[Sylvain Leroux ][a]
+作者：[Sylvain Leroux][a]
 译者：[FSSlc](https://github.com/FSSlc)
-校对：[校对者ID](https://github.com/校对者ID)
+校对：[wxy](https://github.com/wxy)

 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译，[Linux中国](https://linux.cn/) 荣誉推出