TranslateProject/published/201410/20140729 How to use awk command in Linux.md
2014-11-01 21:03:29 +08:00

121 lines
4.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

如何在Linux中使用awk命令
================================================================================
文本处理是Unix的核心。从管道到/proc子系统“一切都是文件”的理念贯穿于操作系统和所有基于它构造的工具。正因为如此轻松地处理文本是一个期望成为Linux系统管理员甚至是资深用户的最重要的技能之一而 awk是通用编程语言之外最强大的文本处理工具之一。
最简单的awk的任务是从标准输入中选择字段如果你对awk除了这个用途之外从来没了解过它的其他用途你会发现它还是会是你身边一个非常有用的工具。
默认情况下awk通过空格分隔输入。如果您想选择输入的第一个字段你只需要告诉awk输出$ 1
$ echo 'one two three four' | awk '{print $1}'
> one
(是的,大括号语法是有点古怪,但我保证这是我们这节课一直会遇到。)
你能猜出如何选择第二,第三或第四个字段么?是的,分别用$2$ 3$ 4。
$ echo 'one two three four' | awk '{print $3}'
> three
通常在文本改写时你需要创建一个特定的数据格式并且它覆盖不止一个单词。好消息是awk中可以很容易地打印多个字段甚至包含静态字符串
$ echo 'one two three four' | awk '{print $3,$1}'
> three one
----------
$ echo 'one two three four' | awk '{print "foo:",$3,"| bar:",$1}'
> foo: three | bar: one
好吧如果你的输入不是由空格分隔怎么办只需用awk中的'-F'标志指定你的分隔符:
$ echo 'one mississippi,two mississippi,three mississippi,four mississippi' | awk -F , '{print $4}'
> four mississippi
偶尔间,你会发现自己正在处理字段数量不同的数据,但你只知道你想要的*最后*字段。 awk中内置的$NF变量代表*字段的数量*,这样你就可以用它来抓取最后一个元素:
$ echo 'one two three four' | awk '{print $NF}'
> four
你也可以用$NF做简单的数学假如你需要倒数第二个字段
$ echo 'one two three four' | awk '{print $(NF-1)}'
> three
甚至是中间的字段:
$ echo 'one two three four' | awk '{print $((NF/2)+1)}'
> three
而且这一切都非常有用同样你可以摆脱强制使用sedcut和grep来得到这些结果尽管要做更多的操作
因此我将最后为你介绍awk的一个特性维持跨行状态。
$ echo -e 'one 1\ntwo 2' | awk '{print $2}'
> 1
>
> 2
$ echo -e 'one 1\ntwo 2' | awk '{sum+=$2} END {print sum}'
> 3
END代表的是我们在执行完每行的处理**之后**只处理下面的代码块)
这里我使用的例子是统计web服务器请求日志的字节大小。想象一下我们有如下这样的日志
$ cat requests.log
> Jul 23 18:57:12 httpd[31950]: "GET /foo/bar HTTP/1.1" 200 344
>
> Jul 23 18:57:13 httpd[31950]: "GET / HTTP/1.1" 200 9300
>
> Jul 23 19:01:27 httpd[31950]: "GET / HTTP/1.1" 200 9300
>
> Jul 23 19:01:55 httpd[31950]: "GET /foo/baz HTTP/1.1" 200 6401
>
> Jul 23 19:02:31 httpd[31950]: "GET /foo/baz?page=2 HTTP/1.1" 200 6312
我们知道最后一个字段是响应的字节大小。我们已经学习了如何使用$NF来抽取他们
$ < requests.log awk '{print $NF}'
> 344
>
> 9300
>
> 9300
>
> 6401
>
> 6312
接着我们可以将它们累加到一个变量中来收集我们的web服务其在日志中这段时间内的响应客户端的字节数量
$ < requests.log awk '{totalBytes+=$NF} END {print totalBytes}'
> 31657
如果你正在寻找关于awk的更多资料你可以在Amazon中花费不到15美元买到[原始awk手册][1]的二手书你也许还可以看看Eric Pement的[单行awk命令收集][2]这本书
--------------------------------------------------------------------------------
via: http://xmodulo.com/2014/07/use-awk-command-linux.html
作者[James Pearson][a]
译者[geekpi](https://github.com/geekpi)
校对[wxy](https://github.com/wxy)
本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创翻译[Linux中国](http://linux.cn/) 荣誉推出
[a]:http://xmodulo.com/author/james
[1]:http://www.amazon.com/gp/product/020107981X/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=020107981X&linkCode=as2&tag=xmodulo-20&linkId=6NW62B2WBRBXRFJB
[2]:http://www.pement.org/awk/awk1line.txt