This commit is contained in:
Xingyu.Wang 2018-12-03 12:16:55 +08:00
16 changed files with 763 additions and 769 deletions

如何在 Linux 中为每个屏幕设置不同的壁纸
**简介:如果你想在 Ubuntu 18.04 或任何其他 Linux 发行版上使用 GNOME、MATE 或 Budgie 桌面环境在多个显示器上显示不同的壁纸,这个小工具将帮助你实现这一点。**
多显示器设置通常会在 Linux 上出现多个问题,但我不打算在本文中讨论这些问题。我有一篇关于 Linux 上多显示器支持的文章。
> 如果你想在 Ubuntu 18.04 或任何其他 Linux 发行版上使用 GNOME、MATE 或 Budgie 桌面环境在多个显示器上显示不同的壁纸,这个小工具将帮助你实现这一点。
多显示器设置通常会在 Linux 上出现多个问题,但我不打算在本文中讨论这些问题。我有另外一篇关于 Linux 上多显示器支持的文章。
如果你使用多台显示器,也许你想为每台显示器设置不同的壁纸。我不确定其他 Linux 发行版和桌面环境,但是 [GNOME 桌面][1] 的 Ubuntu 本身并不提供此功能。
#### 使用 FlatPak 在 Linux 上安装 HydraPaper
使用 [FlatPak][9] 可以轻松安装 HydraPaper。Ubuntu 18.04已 经提供对 FlatPaks 的支持,所以你需要做的就是下载应用文件并双击在 GNOME 软件中心中打开它。
使用 [FlatPak][9] 可以轻松安装 HydraPaper。Ubuntu 18.04 已 经提供对 FlatPaks 的支持,所以你需要做的就是下载应用文件并双击在 GNOME 软件中心中打开它。
你可以参考这篇文章来了解如何在你的发行版[启用 FlatPak 支持][10]。启用 FlatPak 支持后,只需从 [FlatHub][11] 下载并安装即可。
[Download HydraPaper][12]
- [下载 HydraPaper][12]
#### 使用 HydraPaper 在不同的显示器上设置不同的背景
作者:[Abhishek Prakash][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出
### 转换为简单网站
手动编码 HTML 网站的日子早已不复存在。现在的网站是动态的,并使用最新的 JavaScript、PHP 或 Python 框架即时构建。结果,这些网站更加脆弱:数据库崩溃、升级出错或者未修复的漏洞都可能使数据丢失。在我以前是一名 Web 开发人员时,我不得不接受客户这样的想法:希望网站基本上可以永久工作。这种期望与 web 开发“快速行动和破除陈规”的理念不相符。在这方面,使用 [Drupal][2] 内容管理系统CMS尤其具有挑战性因为重大更新会破坏与第三方模块的兼容性这意味着客户很少承担的起高昂的升级成本。解决方案是将这些网站归档以实时动态的网站为基础将其转换为任何 web 服务器可以永久服务的纯 HTML 文件。此过程对你自己的动态网站非常有用,也适用于你想保护但无法控制的第三方网站。
对于简单的静态网站,古老的 [Wget][3] 程序就可以胜任。然而镜像保存一个完整网站的命令却是错综复杂的:
$ nice wget --mirror --execute robots=off --no-verbose --convert-links \
--backup-converted --page-requisites --adjust-extension \
--base=./ --directory-prefix=./ --span-hosts \,
以上命令下载了网页的内容,也抓取了指定域名中的所有内容。在对你喜欢的网站执行此操作之前,请考虑此类抓取可能对网站产生的影响。上面的命令故意忽略了 `robots.txt` 规则,就像现在[归档者的习惯做法][4],并以尽可能快的速度归档网站。大多数抓取工具都可以选择在两次抓取间暂停并限制带宽使用,以避免使网站瘫痪。
上面的命令还将获取 “页面所需LCTT 译注单页面所需的所有元素如样式表CSS、图像和脚本等。下载的页面内容将会被修改以便链接也指向本地副本。任何 web 服务器均可托管生成的文件集,从而生成原始网站的静态副本。
以上所述是事情一切顺利的时候。任何使用过计算机的人都知道事情的进展很少如计划那样;各种各样的事情可以使程序以有趣的方式脱离正轨。比如,在网站上有一段时间很流行日历块。内容管理系统会动态生成这些内容,这会使爬虫程序陷入死循环以尝试检索所有页面。灵巧的归档者可以使用正则表达式(例如 Wget 有一个 `--reject-regex` 选项)来忽略有问题的资源。如果可以访问网站的管理界面,另一个方法是禁用日历、登录表单、评论表单和其他动态区域。一旦网站变成静态的,(那些动态区域)也肯定会停止工作,因此从原始网站中移除这些杂乱的东西也不是全无意义。
### JavaScript 噩梦
很不幸,有些网站不仅仅是纯 HTML 文件构建的。比如在单页面网站中web 浏览器通过执行一个小的 JavaScript 程序来构建内容。像 Wget 这样的简单用户代理将难以重建这些网站的有意义的静态副本,因为它根本不支持 JavaScript。理论上网站应该使用[渐进增强][5]技术,在不使用 JavaScript 的情况下提供内容和实现功能,但这些指引很少被人遵循 —— 使用过 [NoScript][6] 或 [uMatrix][7] 等插件的人都知道。
传统的归档方法有时会以最愚蠢的方式失败。在尝试为一个本地报纸网站([][8])创建备份时,我发现 WordPress 在包含 的 JavaScript 末尾添加了查询字符串(例如:`?ver=1.12.4`)。这会使提供归档服务的 web 服务器不能正确进行内容类型检测,因为其靠文件扩展名来发送正确的 `Content-Type` 头部信息。在 web 浏览器加载此类归档时,这些脚本会加载失败,导致动态网站受损。
随着 web 向使用浏览器作为执行任意代码的虚拟机转化,依赖于纯 HTML 文件解析的归档方法也需要随之适应。这个问题的解决方案是在抓取时记录(以及重现)服务器提供的 HTTP 头部信息,实际上专业的归档者就使用这种方法。
### 创建和显示 WARC 文件
<ruby>[互联网档案馆][9]<rt>Internet Archive</rt></ruby> 网站Brewster Kahle 和 Mike Burner 在 1996 年设计了 [ARC][10] (即 “ARChive”文件格式以提供一种聚合其归档工作所产生的百万个小文件的方法。该格式最终标准化为 WARC“Web ARChive”[规范][11],并在 2009 年作为 ISO 标准发布2017 年修订。标准化工作由<ruby>[国际互联网保护联盟][12]<rt>International Internet Preservation Consortium</rt></ruby>IIPC领导据维基百科称这是一个“*为了协调为未来而保护互联网内容的努力而成立的国际图书馆组织和其他组织*”;它的成员包括<ruby>美国国会图书馆<rt>US Library of Congress</rt></ruby>和互联网档案馆等。后者在其基于 Java 的 [Heritrix crawler][13]LCTT 译注:一种爬虫程序)内部使用了 WARC 格式。
WARC 在单个压缩文件中聚合了多种资源,像 HTTP 头部信息、文件内容以及其他元数据。方便的是Wget 实际上提供了 `--warc` 参数来支持 WARC 格式。不幸的是web 浏览器不能直接显示 WARC 文件,所以为了访问归档文件,一个查看器或某些格式转换是很有必要的。我所发现的最简单的查看器是 [pywb][14],它以 Python 包的形式运行一个简单的 web 服务器提供一个像“<ruby>时光倒流机网站<rt>Wayback Machine</rt></ruby>”的界面,来浏览 WARC 文件的内容。执行以下命令将会在 `http://localhost:8080/` 地址显示 WARC 文件的内容:
$ pip install pywb
$ wb-manager init example
$ wb-manager add example crawl.warc.gz
$ wayback
顺便说一句,这个工具是由 [Webrecorder][15] 服务提供者建立的Webrecoder 服务可以使用 web 浏览器保存动态页面的内容。
很不幸pywb 无法加载 Wget 生成的 WARC 文件,因为它[遵循][16]的 [1.0 规范不一致][17][1.1 规范修复了此问题][17]。就算 Wget 或 pywb 修复了这些问题Wget 生成的 WARC 文件对我的使用来说不够可靠,所以我找了其他的替代品。引起我注意的爬虫程序简称 [crawl][19]。以下是它的调用方式:
$ crawl
(它的 README 文件说“非常简单”。)该程序支持一些命令行参数选项,但大多数默认值都是最佳的:它会从其他域获取页面所需(除非使用 `-exclude-related` 参数),但肯定不会递归出域。默认情况下,它会与远程站点建立十个并发连接,这个值可以使用 `-c` 参数更改。但是,最重要的是,生成的 WARC 文件可以使用 pywb 完美加载。
### 未来的工作和替代方案
这里还有更多有关使用 WARC 文件的[资源][20]。特别要提的是,这里有一个专门用来归档网站的 Wget 的直接替代品,叫做 [Wpull][21]。它实验性地支持了 [PhantomJS][22] 和 [youtube-dl][23] 的集成,即允许分别下载更复杂的 JavaScript 页面以及流媒体。该程序是一个叫做 [ArchiveBot][24] 的复杂归档工具的基础ArchiveBot 被那些在 [ArchiveTeam][25] 的“*零散离群的归档者、程序员、作家以及演说家*”使用,他们致力于“*在历史永远丢失之前保存它们*”。集成 PhantomJS 好像并没有如团队期望的那样良好工作,所以 ArchiveTeam 也用其它零散的工具来镜像保存更复杂的网站。例如,[snscrape][26] 将抓取一个社交媒体配置文件以生成要发送到 ArchiveBot 的页面列表。该团队使用的另一个工具是 [crocoite][27],它使用无头模式的 Chrome 浏览器来归档 JavaScript 较多的网站。
如果没有提到称做“网站复制者”的 [HTTrack][28] 项目,那么这篇文章算不上完整。它工作方式和 Wget 相似HTTrack 可以对远程站点创建一个本地的副本,但是不幸的是它不支持输出 WRAC 文件。对于不熟悉命令行的小白用户来说,它在人机交互方面显得更有价值。
同样,在我的研究中,我发现了叫做 [Wget2][29] 的 Wget 的完全重制版本,它支持多线程操作,这可能使它比前身更快。和 Wget 相比,它[舍弃了一些功能][30]但是最值得注意的是拒绝模式、WARC 输出以及 FTP 支持,并增加了 RSS、DNS 缓存以及改进的 TLS 支持。
最后,我个人对这些工具的愿景是将它们与我现有的书签系统集成起来。目前我在 [Wallabag][31] 中保留了一些有趣的链接,这是一种自托管式的“稍后阅读”服务,意在成为 [Pocket][32](现在由 Mozilla 拥有)的免费替代品。但是 Wallabag 在设计上只保留了文章的“可读”副本,而不是一个完整的拷贝。在某些情况下,“可读版本”实际上[不可读][33],并且 Wallabag 有时[无法解析文章][34]。恰恰相反,像 [bookmark-archiver][35] 或 [reminiscence][36] 这样其他的工具会保存页面的屏幕截图以及完整的 HTML 文件,但遗憾的是,它没有 WRAC 文件所以没有办法更可信的重现网页内容。
我所经历的有关镜像保存和归档的悲剧就是死数据。幸运的是,业余的归档者可以利用工具将有趣的内容保存到网上。对于那些不想麻烦的人来说,“互联网档案馆”看起来仍然在那里,并且 ArchiveTeam 显然[正在为互联网档案馆本身做备份][37]。
提高 Linux 网络浏览器安全性的 5 个建议
提高 Linux 网络浏览器安全性的 5 个建议
> 这些简单的步骤可以大大提高您的在线安全性。
如果你使用 Linux 桌面但从来不使用网络浏览器,那你算得上是百里挑一。网络浏览器是绝大多数人最常用的工具之一,无论是工作、娱乐、看新闻、社交、理财,对网络浏览器的依赖都比本地应用要多得多。因此,我们需要知道如何使用网络浏览器才是安全的。一直以来都有不法的犯罪分子以及他们建立的网页试图窃取私密的信息。正是由于我们需要通过网络浏览器收发大量的敏感信息,安全性就更是至关重要。
@ -8,17 +10,14 @@
### 正确选择浏览器
尽管我提出的建议具有普适性但是正确选择网络浏览器也是很必要的。网络浏览器的更新频率是它安全性的一个重要体现。网络浏览器会不断暴露出新的问题因此版本越新的网络浏览器修复的问题就越多也越安全。在主流的网络浏览器当中2017 年版本更新的发布量排行榜如下:
尽管我提出的建议具有普适性但是正确选择网络浏览器也是很必要的。网络浏览器的更新频率是它安全性的一个重要体现。网络浏览器会不断暴露出新的问题因此版本越新的网络浏览器修复的问题就越多也越安全。在主流的网络浏览器当中2017 年版本更新的发布量排行榜如下:
1. Chrome 发布了 8 个更新Chromium 全年跟进发布了大量安全补丁)。
2. Firefox 发布了 7 个更新。
3. Edge 发布了 2 个更新。
4. Safari 发布了 1 个更新(苹果也会每年发布 5 到 6 个安全补丁)。
1. Chrome 发布了 8 个更新Chromium 全年跟进发布了大量安全补丁)。
2. Firefox 发布了 7 个更新。
3. Edge 发布了 2 个更新。
4. Safari 发布了 1 个更新(苹果也会每年发布 5 到 6 个安全补丁)。
网络浏览器会经常发布更新,同时用户方面也要及时升级到最新的版本,否则毫无意义了。尽管大部分流行的 Linux 发行版都会自动更新网络浏览器到最新版本,但还是有一些 Linux 发行版不会自动进行更新,所以最好还是手动保持浏览器更新到最新版本。这就意味着你所使用的 Linux 发行版对应的标准软件库中存放的很可能就不是最新版本的网络浏览器,在这种情况下,你可以随时从网络浏览器开发者提供的最新版本下载页中进行下载安装。
网络浏览器会经常发布更新,同时用户也要及时升级到最新的版本,否则毫无意义了。尽管大部分流行的 Linux 发行版都会自动更新网络浏览器到最新版本,但还是有一些 Linux 发行版不会自动进行更新,所以最好还是手动保持浏览器更新到最新版本。这就意味着你所使用的 Linux 发行版对应的标准软件库中存放的很可能就不是最新版本的网络浏览器,在这种情况下,你可以随时从网络浏览器开发者提供的最新版本下载页中进行下载安装。
如果你是一个勇于探索的人,你还可以尝试使用测试版或者<ruby>每日构建<rt>daily build</rt></ruby>版的网络浏览器,不过,这些版本将伴随着不能稳定运行的可能性。在基于 Ubuntu 的发行版中,你可以使用到每日构建版的 Firefox只需要执行以下命令添加所需的存储库
@ -43,60 +42,47 @@ sudo apt-get install firefox
### 保护好密码
有的人可能会认为,每次都需要重复输入密码,这样的操作太麻烦了。在 Firefox 中,如果你既想保护好自己的密码,又不想经常输入密码,就可以通过 Master Password 这一款内置的工具来实现你的需求。起用了这个工具之后,需要输入正确的主密码,才能后续使用保存在浏览器中的其它密码。你可以按照以下步骤进行操作:
1. 打开 Firefox。
2. 点击菜单按钮。
3. 点击“偏好设置”。
4. 在偏好设置页面,点击“隐私与安全”。
5. 在页面中勾选“使用主密码”选项(图 1
6. 确认以后,输入新的主密码(图 2
7. 重启 Firefox。
有的人可能会认为,每次都需要重复输入密码,这样的操作太麻烦了。在 Firefox 中,如果你既想保护好自己的密码,又不想经常输入密码,就可以通过<ruby>主密码<rt>Master Password</rt></ruby>这一款内置的工具来实现你的需求。起用了这个工具之后,需要输入正确的主密码,才能后续使用保存在浏览器中的其它密码。你可以按照以下步骤进行操作:
1. 打开 Firefox。
2. 点击菜单按钮。
3. 点击“偏好设置”。
4. 在偏好设置页面,点击“隐私与安全”。
5. 在页面中勾选“使用主密码”选项(图 1
6. 确认以后,输入新的主密码(图 2
7. 重启 Firefox。
![Master Password][3]
图 1 Firefox 偏好设置页中的主密码设置。
*图 1 Firefox 偏好设置页中的主密码设置。*
![Setting password][6]
图 2在 Firefox 中设置主密码。
*图 2在 Firefox 中设置主密码。*
### 了解你使用的扩展和插件
* [Firefox Multi-Account Containers][7] \- 允许将某些站点配置为在容器化选项卡中打开。
* [Facebook Container][8] \- 始终在容器化选项卡中打开 Facebook这个扩展需要 Firefox Multi-Account Containers
* [Avast Online Security][9] \- 识别并拦截已知的钓鱼网站,并显示网站的安全评级(由超过 4 亿用户的 Avast 社区支持)。
* [Mining Blocker][10] \- 拦截所有使用 CPU 的挖矿工具。
* [PassFF][11] \- 通过集成 `pass` (一个 UNIX 密码管理器)以安全存储密码。
* [Privacy Badger][12] \- 自动拦截网站跟踪。
* [uBlock Origin][13] \- 拦截已知的网站跟踪。
* [Firefox Multi-Account Containers][7] —— 允许将某些站点配置为在容器化选项卡中打开。
* [Facebook Container][8] —— 始终在容器化选项卡中打开 Facebook这个扩展需要 Firefox Multi-Account Containers
* [Avast Online Security][9] —— 识别并拦截已知的钓鱼网站,并显示网站的安全评级(由超过 4 亿用户的 Avast 社区支持)。
* [Mining Blocker][10] —— 拦截所有使用 CPU 的挖矿工具。
* [PassFF][11] —— 通过集成 `pass` (一个 UNIX 密码管理器)以安全存储密码。
* [Privacy Badger][12] —— 自动拦截网站跟踪。
* [uBlock Origin][13] —— 拦截已知的网站跟踪。
+ [Firefox][2]
+ [Chrome、Chromium,、Vivaldi][5]
+ [Opera][14]
但并非每一个网络浏览器都会向用户提供扩展或插件。例如 Midoria 就只有少量可以开启或关闭的内置插件(图 3同时这些轻量级浏览器的第三方插件也相当缺乏。
![Midori Browser][15]
图 3Midori 浏览器的插件窗口。
*图 3Midori 浏览器的插件窗口。*
### 虚拟化
@ -115,7 +101,7 @@ via:
作者:[Jack Wallen][a]
View File

@ -1,36 +1,35 @@
使用 Selenium 自动化 Web 浏览器
[Selenium][1] 是浏览器自动化的绝佳工具。使用 Selenium IDE你可以录制命令序列如单击、拖动和输入验证结果并最终存储此自动化测试供日后使用。这非常适合在浏览器中进行积极开发。但是当你想要将这些测试与 CI/CD 流集成时,是时候使用 Selenium WebDriver 了。
[Selenium][1] 是浏览器自动化的绝佳工具。使用 Selenium IDE你可以录制命令序列如单击、拖动和输入验证结果并最终存储此自动化测试供日后使用。这非常适合在浏览器中进行活跃开发。但是当你想要将这些测试与 CI/CD 流集成时,是时候使用 Selenium WebDriver 了。
WebDriver 公开了一个绑定了许多编程语言的 API它允许你将浏览器测试与其他测试集成。这篇文章向你展示了如何在容器中运行 WebDriver 并将其与 Python 程序一起使用。
### 使用 Podman 运行 Selenium
Podman是下面例子的容器运行时。有关如何开始使用 Podman 的信息,请参见[此前文章][2]。
Podman 是下面例子的容器运行时。有关如何开始使用 Podman 的信息,请参见[此前文章][2]。
此例使用了 Selenium 的独立容器,其中包含 WebDriver 服务器和浏览器本身。要在后台启动服务器容器,请运行以下命令:
$ podman run -d --network host --privileged --name server \
$ podman run -d --network host --privileged --name server
当你使用特权标志和主机网络运行容器时,你可以稍后从在 Python 中连接到此容器。你不需要使用 sudo。
当你使用特权标志和主机网络运行容器时,你可以稍后从在 Python 中连接到此容器。你不需要使用 `sudo`
### 在 Python 中使用 Selenium
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
server =""
driver = webdriver.Remote(command_executor=server,
print("Loading page...")
@ -77,7 +76,7 @@ Done.
上面的示例程序是最小的,也许没那么有用。但这仅仅是最表面的东西!查看 [Selenium][3] 和 [Python 绑定][4] 的文档。在那里,你将找到有关如何在页面中查找元素、处理弹出窗口或填写表单的示例。拖放也是可能的,当然还有等待事件。
在实现一些不错的测试后,你可能希望将它们包含在 CI/CD pipeline 中。幸运的是,这是相当直接的,因为一切都是容器化的。
在实现一些不错的测试后,你可能希望将它们包含在 CI/CD 流程中。幸运的是,这是相当直接的,因为一切都是容器化的。
你可能也有兴趣设置 [grid][5] 来并行运行测试。这不仅有助于加快速度,还允许你同时测试多个不同的浏览器。
@ -108,14 +107,14 @@ via:
作者:[Lennart Jern][a]
View File

@ -1,5 +1,3 @@
thecyanbird translating
The Rise and Rise of JSON
JSON has taken over the world. Today, when any two applications communicate with each other across the internet, odds are they do so using JSON. It has been adopted by all the big players: Of the ten most popular web APIs, a list consisting mostly of APIs offered by major companies like Google, Facebook, and Twitter, only one API exposes data in XML rather than JSON. Twitter, to take an illustrative example from that list, supported XML until 2013, when it released a new version of its API that dropped XML in favor of using JSON exclusively. JSON has also been widely adopted by the programming rank and file: According to Stack Overflow, a question and answer site for programmers, more questions are now asked about JSON than about any other data interchange format.

View File

I attended film school, and later I taught at a film school, and even later I worked at a major film studio. There was a common thread through all these different angles of the creative industry: creators need content. Interestingly, one movement kept providing the solution, and that was free culture, or, as it has been formalized, Creative Commons.
### Showpieces and demos
Like anything else in life, creativity requires practice. I luckily stumbled into open source early in my experience with computers, through an article in a trade magazine about render farms. I didn't yet understand what "open source" meant, but I knew that the tools labeled open source were the only tools that provided me reliable access to the technology I wanted to explore. The same has been true for the Creative Commons content that I use. Creative Commons provides artists an entire studio full of artistic resources.
When I was teaching in film and needed sample footage for students to edit, overdub, foley, grade, or score, I always had what I needed from films like Jim Munroe's independent masterpiece [Infest Wisely][1] or from the Creative Commons content on [Vimeo][2]. These provide realistic footage, spanning the whole spectrum from indie productions to expensive, high-quality crane (actually drone, usually) shots.
For experimentalist art, the possibilities are truly endless. Creative Commons provides a wealth of stock footage to integrate into video art, video DJ mixes, and whatever else a visual pioneer dreams up.
Before Creative Commons, the only ways to get experience with real-world footage were either to use footage that former students or professors generated, assuming you were at a university, or to use copyrighted footage despite the restrictions.
### It's all about the bottom line
There's a more business-centric use for all of this, as well. When working deep in the render farms of a large computer company, I was tasked with performing render tests on some hardware that was under the threat of being discontinued. For this job, I used the assets of [Big Buck Bunny][3] because not just the movie itself, but also its components, are free to use and share. If it hadn't been for this short film, I could not have done my tests until I'd acquired realistic assets, which would likely never have happened because computer companies are busy places that don't typically employ a team of 3D artists to compose a scene on call.
It struck me that, much like open source itself, Creative Commons is already propping up big companies in ways no one really thinks about. The use of Creative Commons in a company may or may not make or break the daily process, but it's filling gaps and making people's jobs and workflows move smoothly. I don't think anyone's accounting for this benefit in their books, but Creative Commons content is everywhere.
I've even seen Blender open movies, like [Sintel][4], as the demo films playing on the latest television screens when a TV resolution exceeds what is currently available on standard media.
### Raw materials
Artists need raw materials. A painter needs paint, brushes, and a canvas. Sculptors need clay and modeling tools. And digital content creators need digital content, whether it's clipart or sound effects or ready-made sprites for a video game.
The digital medium has bestowed upon one individual creator the power to apparently make works of art that should take a group of people to complete. The reality is, though, that most of us like to think big. We want to make projects that look and sound good. We want big worlds, intense stories, evocative works, but we don't have the time or the variety of skills to make it all happen.
It's here that Creative Commons saves the day, yet again, with the little bits and pieces of free art that abound on sites like [][5], [][6], [][7], and many, many more. Artists are able, through the Commons, to use raw material that they could not have produced themselves to produce works they couldn't otherwise make alone.
Possibly even more significantly, though, is the fact that your raw material that you put up on the internet for reuse can bring you, without any further investment, into amazing works of art that you'd never dream of producing yourself. I have contributed to countless musical albums and video games with sound clips I've added to the Commons. Sometimes the artist notifies me, others I find on my own, and probably even more exist than I know about. I've seen icons that I've drawn pop up in software projects that I never knew existed. I've seen articles I've written for [][8] published elsewhere, and things I've written in the bibliographies of thesis projects, white papers, and reference materials.
### Free culture is culture
"Free culture" is a redundant term that shouldn't be part of our vocabulary. Culture, conceptually, is an organic process. It's the way a society develops and grows, from one person to another. It's about the interactions and the ideas that people share. It's a unique product of the modern world that culture is not free by default.
If you want to combat that, and prefer to share your culture with your fellow human beings across the globe, support Creative Commons by contributing to it, using it, and supporting those who do.
作者:[Seth Kenlon][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出

View File

Man pages are written by sys-admin and developers for IT techs, and are intended more as a reference than as a how to. Man pages are very useful for people who are already familiar with Linux, Unix, and BSD operating systems. Use man pages when you just need to know the syntax for particular commands or configuration file, but they are not helpful for new Linux users. Man pages are not good for learning something new for the first time. Here are thirty best documentation sites on the web for learning Linux and Unix like operating systems.
![Dennis Ritchie and Ken Thompson working with UNIX PDP11][1]
Please note that BSD manpages are usually better as compare to Linux.
## #1: Red Hat Enterprise Linux
![Red hat Enterprise Linux Docs][2]
RHEL is developed by Red Hat and targeted toward the commercial market. It has one of the best documentations covering basis of RHEL to advanced topics like security, SELinux, virtualization, directory server, clustering, JBOSS, HPC, and much more. Red Hat documentation has been translated into twenty-two languages and is available in multi-page HTML, single-page HTML, PDF, and EPUB formats. The good news is you can use the same documentation for CentOS or Scientific Linux (community enterprise distros). All of these documents ship with the OS, so if you don't have a network connection, then you have them there as well. The RHEL docs **covers everything from installation to configuring clusters**. The only downside is you need to be a paid customer. This is perfect for an enterprise company.
1. RHEL Documentation: [in HTML/PDF format][3]
2. Support forums: Only available to Red Hat customer portal to submit a support case.
### A Note About CentOS Wiki and Forums
![Centos Linux Wiki][4]
CentOS (Community ENTerprise Operating System) is a free rebuild of source packages freely available from a RHEL. It provides truly reliable, free enterprise Linux for personal and other usage. You will get RHEL stability without the cost of certification and support. CentOS wiki divided into Howtos, Tips & Tricks, and much more at the following locations:
1. [Documentation Wiki][87]
2. [Support forum][88]
## #2: Arch Wiki and Forums
![Arch Linux wiki and tutorials][5]
Arch Linux is an independently developed, Linux operating system and it comes with pretty good documentation in form of wiki based site. It is developed collaboratively by a community of Arch users, allowing any user to add and edit content. The articles are divided into various categories like [networking][6], optimization, package management, system administration, X window system, and getting & installing Arch Linux. The official [forums][7] are useful for solving many issues. It has total 40k+ registered users with over 1 million posts. The wiki contains some **general information that can also apply in other Linux distros**.
1. Arch community Documentation: [Wiki format][8]
2. Support forums: [Yes][7]
## #3: Gentoo Linux Wiki and Forums
![Gentoo Linux Handbook and Wiki][9]
Gentoo Linux is based on the Portage package management system. The Gentoo user compiles the source code locally according to their chosen configuration. The majority of users have configurations and sets of installed programs which are unique to themselves. The Gentoo give you some explanation about the Gentoo Linux and answer most of your questions regarding installations, packages, networking, and much more. Gentoo has **very helpful forum** with over one hundred thirty-four thousand plus users who have posted a total of 5442416 articles.
1. Gentoo community documentation: [Handbook][10] and [Wiki format][11]
2. Support forums: [Yes][12]
3. User-supplied documentation available at [][13]
## #4: Ubuntu Wiki and Documentation
Ubuntu is one of the leading desktop and laptop distro. The official documentation developed and maintained by the Ubuntu Documentation Project. You can access a wealth of information including a getting started Guide. The best part is information contained herein may also work with other Debian-based systems. You will also find the community documentation for Ubuntu created by its users. This is a reference for Ubuntu-related 'Howtos, Tips, Tricks, and Hacks'. Ubuntu Linux has one of the biggest Linux communities on the web. It offers help to the both new and experienced users.
![Ubuntu Linux Wiki and Forums][14]
1. Ubuntu community documentation: [wiki format][15].
2. Ubuntu official documentation: [wiki format][16].
3. Support forums: [Yes][17].
## #5: IBM Developer Works
IBM developer works offers technical resources for Linux programmers and system administrators. It contains hundreds of articles, tutorials, and tips to help developers with Linux programming and application development, as well as Linux system administration.
![IBM: Technical for Linux programmers and system administrators][18]
1. IBM Developer Works Documentation: [HTML format][19]
2. Support forums: [Yes][20].
## #6: FreeBSD Documentation and Handbook
The FreeBSD handbook is created by the FreeBSD Documentation Project. It describes the installation, administration and day-to-day use of the FreeBSD OS. BSD manpages are usually better as compare to GNU/Linux man pages. The FreeBSD **comes with all the documents** with upto date man pages. The FreeBSD Handbook **covers everything**. The handbook contains some general Unix information that can also apply in other Linux distros. The official FreeBSD forums also provides helps whenever you will get stuck with problems.
![Freebsd Documentation][21]
1. FreeBSD Documentation: [HTML/PDF format][90]
2. Support forums: [Yes][91].
## #7: Bash Hackers Wiki
![Bash hackers wiki for bash users][22]
This is an excellent resource for bash user. The bash hackers wiki is intended to hold documentations of any kind about the GNU Bash. The main motivation was to provide human-readable documentation and information to not force users to read every bit of the Bash manpage - which is hard sometimes. The wiki is divided into various sections such as - scripting and general information, howtos, coding style, bash syntax, and much more.
1. Bash hackers [wiki][23] in wiki format
## #8: Bash FAQ
![Bash FAQ: Answers to frequently asked questions about GNU/BASH][24]
A wiki designed for new bash users. It has good collections to frequently asked questions on channel #bash on the freenode IRC network. These answers are contributed by the regular members of the channel. Don't forget to check out common mistakes made by Bash programmers, in [BashPitfalls][25] section. The answers given in this FAQ may be slanted toward Bash, or they may be slanted toward the lowest common denominator Bourne shell, depending on who wrote the answer. In most cases, an effort is made to provide both a portable (Bourne) and an efficient (Bash, where appropriate) answer.
1. Bash FAQ [in wiki ][26] format.
## #9: Howtoforge - Linux Tutorials
Fellow blogger Falko has some great stuff over at How-To Forge. The site provides Linux tutorials about various topic including its famous "The Perfect Server" series. The site is divided into various topics such as web-server, Linux distros, DNS servers, Virtualization, High-availability, Email and anti-spam, FTP servers, programming topics, and much more. The site is also available in German language.
1. Howtoforge [in html][28] format.
2. Support forums: Yes
## #10: OpenBSD FAQ and Documentation
![OpenBSD Documenation][29]
OpenBSD is another Unix-like computer operating system based on Berkeley Software Distribution (BSD). It was forked from NetBSD by project. The OpenBSD is well known for the **quality code, documentation** , uncompromising position on software licensing, with strong focus on security. The documenation is divided into various topics such as - installations, package management, firewall setup, user management, networking, disk / RAID management and much more.
1. OpenBSD [in html][30] format.
2. Support forums: No, but [mail lists][31] are available.
## #11: Calomel - Open Source Research and Reference
This amazing site dedicated to documenting open source software, and programs with special focus on OpenBSD. This is one of the cleanest and easy to to navigate website, with focus on the quality content. The site is divided into various server topic such as DNS, OpeBSD, security, web-server, Samba file server, various tools, and much more.
![Open Source Research and Reference Documentation][32]
1. Calomel Org [in html][33] format.
2. Support forums: No
## #12: Slackware Book Project
![Slackware Linux Book and Documentation ][34]
Slackware Linux was my first distro. It was one of the earliest distro based on the Linux kernel and is the oldest currently being maintained. The distro is targeted towards power users with strong focus on stability. Slackware is one of few the most "Unix-like" Linux distribution. The official slackware book is designed to get you started with the Slackware Linux operating system. It's not meant to cover every single aspect of the distribution, but rather to show what it is capable of and give you a basic working knowledge of the system. The book is divided into various topics such as Installation, Network & System Configuration, System administration, Package management, and much more.
1. Slackware [Linux books in html][35], pdf, and other format.
2. Support forums: Yes
## #13: The Linux Documentation Project (TLDP)
![Linux Learning Site and Documentation ][36]
The Linux Documentation Project is working towards developing free, high quality documentation for the Linux operating system. The site is created and maintained by volunteers. The site is divided into subject-specific help, longer and in-depth guide books, and much more. I recommend [this document][37] which is both a tutorial and a reference on shell scripting with Bash. The [single list][38] of HOWTOs is also a good starting point for new users.
1. The Linux [documentation project][39] available in multiple formats.
2. Support forums: No
## #14: Linux Home Networking
![Linux Home Networking ][40]
Linux home networking is another good resource for learning Linux. This site covers topics needed for Linux software certification exams, such as the RHCE, and many computer training courses. The site is divided into various topics such as networking, samba file server, wirless networking, web-server, and much more.
1. Linux [home networking][41] available in html and PDF (with small fee) formats.
2. Support forums: Yes
## #15: Linux Action Show
![Linux Podcast ][42]
Linux Action Show ("LAS") is a podcast about Linux. The show is hosted by Bryan Lunduke, Allan Jude, and Chris Fisher. It covers the latest news in the FOSS world. The show reviews various apps and Linux distros. Sometime an interview with a major personal in the open source world is posted on the show.
1. Linux [action show][43] available in audio/video format.
2. Support forums: Yes
## #16: Commandlinefu
Commandlinefu lists various shell commands that you may find interesting and useful. All commands can be commented on, discussed and voted up or down. Ths is an awesome resource for all Unix command line users. Don't forget to checkout all [top voted][44] commands here.
![The best Unix / Linux Commands By Commandlinefu][45]
1. [Commandlinefu][46] available in html format.
2. Support forums: No
## #17: Debian Administration Tips and Resources
This site covers topics, tips, and tutorial only related to Debian GNU/Linux. It contain interesting and useful information related to the System Administration. You can contribute an article, tip, or question here. Don't forget to checkout [top articles][47] posted in the hall of fame section.
![Debian Linux Adminstration: Tips and Tutorial For Sys Admin][48]
1. Debian [administration][49] available in html format.
2. Support forums: No
## #18: Catonmat - Sed, Awk, Perl Tutorials
![Sed, Awk, Perl Tutorials][50]
This site run by a fellow blogger Peteris Krumins. The main focus is on command line and Unix programming topics such as sed, perl, awk, and others. Don't forget to check out [introduction to sed][51], sed [one liner][52] explained, the definitive [guide][53] to Bash Command line history, and [awk][54] liner explained.
1. [catonmat][55] available in html format.
2. Support forums: No
## #19: Debian GNU/Linux Documentation and Wiki
![Debian Linux Tutorials and Wiki][56]
Debian is another Linux based operating system that primarily uses software released under the GNU General Public. Debian is well known for strict adherence to the philosophies of Unix and free software. It is also one of popular and influential Linux distribution. It is also used as a base for many other distributions such as Ubuntu and others. The Debian project provides its users with proper documentation in an easily accessible form. The site is divided into wiki, installation guide, faqs, and support forum.
1. Debian GNU/Linux [documentation][57] available in html and other format.
2. Debian GNU/Linux [wiki][58]
3. Support forums: [Yes][59]
## #20: Linux Sea
The book "Linux Sea" offers a gentle yet technical (from end-user perspective) introduction to the Linux operating system, using Gentoo Linux as the example Linux distribution. It does not nor will it ever talk about the history of the Linux kernel or Linux distributions or dive into details that are less interesting for Linux users.
1. Linux [sea][60] available in html format.
2. Support forums: No
## #21: Oreilly Commons
![Oreilly Free Linux / Unix / Php / Javascript / Ubuntu Books][61]
The oreilly publishing house has posted quite a few titles in wiki format for all. The purpose of this site is to provide content to communities that would like to create, reference, use, modify, update and revise material from O'Reilly or other sources. The site includes books about Ubuntu, Php, Spamassassin, Linux, and much more all for free.
1. Oreilly [commons][62] available in wiki format.
2. Support forums: No
## #22: Ubuntu Pocket Guide
![Ubuntu Book For New Users][63]
This book is written by Keir Thomas. This guide/book is a good read for everyday Ubuntu user. The purpose of this book is to introduce you to the Ubuntu operating system, and the philosophy that underpins it. You can download a pdf version from the official site or order a print version using Amazon.
1. Ubuntu [pocket guide][64] available in pdf and print formats.
2. Support forums: No
## #23: Linux: Rute User's Tutorial and Exposition
![GNU/LINUX system administration book][65]
This book covers GNU/LINUX system administration, for popular distributions like RedHat and Debian, as a tutorial for new users and a reference for advanced administrators. It aims to give concise, thorough explanations and practical examples of each aspect of a UNIX system. Anyone who wants a comprehensive text on (what is commercially called) LINUX need look no further-there is little that is not covered here.
1. Linux: [Rute User's Tutorial and Exposition][66] available in print and html formats.
2. Support forums: No
## #24: Advanced Linux Programming
![Advanced Linux Programming][67]
This book is intended for the programmer already familiar with the C programming language. It take a tutorial approach and teach the most important concepts and power features of the GNU/Linux system in application programs. If you're a developer already experienced with programming for the GNU/Linux system, are experienced with another UNIX-like system and are interested in developing GNU/Linux software, or want to make the transition for a non-UNIX environment and are already familiar with the general principles of writing good software, this book is for you. In addition, you will find that this book is equally applicable to C and C++ programming.
1. Advanced [Linux programming][68] available in print and pdf formats.
2. Support forums: No
## #25: LPI 101 Course Notes
![Linux Professional Institute Certification Books][69]
LPIC-1/2/3 levels are certification for Linux administrators. This site provides training manuals for LPI 101 and 102 exams. These are licenced under the GNU Free Documentation Licence (FDL). This course material is based on the objectives for the Linux Professionals Institutea€™s LPI 101 and 102 examination. The course is intended to provide you with the skills required for operating and administering Linux systems.
1. Download LPI [training manuals][70] in pdf format.
2. Support forums: No
## #26: FOSS Manuals
FLOSS Manuals is a collection of manuals about free and open source software together with the tools used to create them and the community that uses those tools. They include authors, editors, artists, software developers, activists, and many others. There are manuals that explain how to install and use a range of free and open source softwares, about how to do things (like design or stay safe online) with open source software, and manuals about free culture services that use or support free software and formats. You will find manuals about software such as VLC, [Linux video editing][71], Linux, OLPC / SUGAR, GRAPHICS, and much more.
![FLOSS Manuals is a collection of manuals about free and open source software][72]
1. You can browse [FOSS manuals][73] in wiki format.
2. Support forums: No
## #27: Linux Starter Pack
![The Linux Starter Pack][74]
New to the wonderful world of Linux? Looking for an easy way to get started? You can download 130-page guide and get to grips with the OS. This will show you how to install Linux onto your PC, navigate around the desktop, master the most popular Linux programs and fix any problems that may arise.
1. Download [Linux starter][75] pack in pdf format.
2. Support forums: No
## #28: - The Source of Linux Info is a product of the Linux Foundation. The side provides news, guides, tutorials and other information about Linux by harnessing the power of Linux users worldwide to inform, collaborate and connect on all matters Linux.
1. Visit [][76] online.
2. Support forums: Yes
## #29: LWN
LWN is a site with an emphasis on free software and software for Linux and other Unix-like operating systems. It consists of a weekly issue, separate stories which are published most days, and threaded discussion attached to every story. The site provide comprehensive coverage of development, legal, commercial, and security issues related to Linux and FOSS.
1. Visit [][77] online.
2. Support forums: No
## #30: Mac OS X Related sites
A quick links to Max OS X related sites:
* [Mac OS X Hints][78] - This site is dedicated to the Apple's Mac OS X unix operating systems. It has tons of tips, tricks and tutorial about Bash, and OS X
* [Mac OS development library][79] - Apple has good collection related to OS X development. Don't forget to checkout [bash shell scripting primer][80].
* [Apple kbase][81] - This is like RHN kbase. It provides guides and troublshooting tips for all apple products including OS X.
## #30: NetBSD
NetBSD is another free open source operating system based upon the Berkeley Software Distribution (BSD) Unix operating system. The NetBSD project is primarily focused on high quality design, stability and performance of the system. Due to its portability and Berkeley-style license, NetBSD is often used in embedded systems. This site provides links to the official NetBSD documentation and also links to various external documents.
1. View [netbsd][82] documentation online in html / pdf format.
2. Support forums: No
## Your Turn:
This is my personal list and it is not absolutely definitive, so if you've got your own favorite Unix/Linux specific site, share in the comments below.
作者:[Vivek Gite][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出
[1]: "Dennis Ritchie and Ken Thompson working with UNIX PDP11"
[2]: "Red hat Enterprise Linux Docs"
[4]: "Centos Linux Wiki, Support, Documents"
[5]: "Arch Linux wiki and tutorials "
[9]: "Gentoo Linux Handbook and Wiki"
[14]: "Ubuntu Linux Wiki and Forums"
[18]: "IBM: Technical for Linux programmers and system administrators"
[21]: "Freebsd Documentation"
[22]: "Bash hackers wiki for bash users"
[24]: "Bash FAQ: Answers to frequently asked questions about GNU/BASH"
[27]: "Howtoforge tutorials"
[29]: "OpenBSD Documenation"
[32]: "Open Source Research and Reference Documentation"
[34]: "Slackware Linux Book and Documentation "
[36]: "Linux Learning Site and Documentation "
[40]: "Linux Home Networking "
[42]: "Linux Podcast "
[45]: "The best Unix / Linux Commands "
[48]: "Debian Linux Adminstration: Tips and Tutorial For Sys Admin"
[50]: "Sed, Awk, Perl Tutorials"
[56]: "Debian Linux Tutorials and Wiki"
[61]: "Oreilly Free Linux / Unix / Php / Javascript / Ubuntu Books"
[63]: "Ubuntu Book For New Users"
[65]: "GNU/LINUX system administration free book"
[67]: "Download Advanced Linux Programming PDF version"
[69]: "Download Linux Professional Institute Certification PDF Book"
[72]: "Download manuals about free and open source software"
[74]: "New to Linux? Start Linux starter book [ PDF version ]"

How To Remove Password From A PDF File in Linux

View File

What I was most perturbed about was the pervasive intrusion Facebook was having on my digital life. I uninstalled the Facebook mobile app almost immediately after diving into the Cambridge Analytica story. I also [disconnected all apps, games, and websites][1] from Facebook. Yes, this will change your experience on Facebook, but it will also protect your privacy. As a veteran with friends spread out across the globe, maintaining the social connectivity of Facebook is important to me.
I went about the task of scrutinizing other services as well. I checked Google, Twitter, GitHub, and more for any unused connected applications. But I know that's not enough. I need my browser to be proactive in preventing behavior that violates my privacy. I began the task of figuring out how best to do that. Sure, I can lock down a browser, but I need to make the sites and tools I use work while trying to keep them from leaking data.
Following are five tools that will protect your privacy while using your browser. The first three extensions are available for Firefox and Chrome, while the latter two are only available for Firefox.
### Privacy Badger
[Privacy Badger][2] has been my go-to extension for quite some time. Do other content or ad blockers do a better job? Maybe. The problem with a lot of content blockers is that they are "pay for play." Meaning they have "partners" that get whitelisted for a fee. That is the antithesis of why content blockers exist. Privacy Badger is made by the Electronic Frontier Foundation (EFF), a nonprofit entity with a donation-based business model. Privacy Badger promises to learn from your browsing habits and requires minimal tuning. For example, I have only had to whitelist a handful of sites. Privacy Badger also allows granular controls of exactly which trackers are enabled on what sites. It's my #1, must-install extension, no matter the browser.
### DuckDuckGo Privacy Essentials
The search engine DuckDuckGo has typically been privacy-conscious. [DuckDuckGo Privacy Essentials][3] works across major mobile devices and browsers. It's unique in the sense that it grades sites based on the settings you give them. For example, Facebook gets a D, even with Privacy Protection enabled. Meanwhile, [][4] gets a B with Privacy Protection enabled and a C with it disabled. If you're not keen on EFF or Privacy Badger for whatever reason, I would recommend DuckDuckGo Privacy Essentials (choose one, not both, as they essentially do the same thing).
### HTTPS Everywhere
[HTTPS Everywhere][5] is another extension from the EFF. According to HTTPS Everywhere, "Many sites on the web offer some limited support for encryption over HTTPS, but make it difficult to use. For instance, they may default to unencrypted HTTP or fill encrypted pages with links that go back to the unencrypted site. The HTTPS Everywhere extension fixes these problems by using clever technology to rewrite requests to these sites to HTTPS." While a lot of sites and browsers are getting better about implementing HTTPS, there are a lot of sites that still need help. HTTPS Everywhere will try its best to make sure your traffic is encrypted.
### NoScript Security Suite
[NoScript Security Suite][6] is not for the faint of heart. While the Firefox-only extension "allows JavaScript, Java, Flash, and other plugins to be executed only by trusted websites of your choice," it doesn't do a great job at figuring out what your choices are. But, make no mistake, a surefire way to prevent leaking data is not executing code that could leak it. NoScript enables that via its "whitelist-based preemptive script blocking." This means you will need to build the whitelist as you go for sites not already on it. Note that NoScript is only available for Firefox.
### Facebook Container
[Facebook Container][7] makes Firefox the only browser where I will use Facebook. "Facebook Container works by isolating your Facebook identity into a separate container that makes it harder for Facebook to track your visits to other websites with third-party cookies." This means Facebook cannot snoop on activity happening elsewhere in your browser. Suddenly those creepy ads will stop appearing so frequently (assuming you uninstalled the Facebook app from your mobile devices). Using Facebook in an isolated space will prevent any additional collection of data. Remember, you've given Facebook data already, and Facebook Container can't prevent that data from being shared.
These are my go-to extensions for browser privacy. What are yours? Please share them in the comments.
作者:[Chris Short][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出

4 Must-Have Tools for Monitoring Linux

View File

Now a days most of the firms are trying to migrate their IT infrastructure and Telco Infra into private cloud i.e OpenStack. If you planning to give interviews on Openstack admin profile, then below list of interview questions might help you to crack the interview.

我在电影学院任教时,经常需要给学生们准备练习编辑、录音、拟音、分级、评分的脚本。在 Jim Munroe 的独立作品 [Infest Wisely][1] 中和 [Vimeo][2] 上的知识共享里我总能找到我想要的。这些写实的脚本覆盖内容十分广泛,从独立影院出品到昂贵的高质的升降镜头(一般都会用无人机代替)都有。
是知识共享再一次拯救了我们,用 [][5], [][6], [][7] 等等网站上那些细小的开放版权艺术材料。通过知识共享,艺术家可以使用各种他们自己没办法创造的原材料,来完成他们原本完不成的工作。
作者:[Seth Kenlon][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出

![Dennis Ritchie and Ken Thompson working with UNIX PDP11][1]
## #1: Red Hat Enterprise Linux
![Red hat Enterprise Linux Docs][2]
RHEL是由红帽公司开发的商业市场导向的的Linux发行版。红帽的文档是最好的文档之一涵盖RHEL的基础到一些高级主题比如安全、安全增强式Linux、虚拟化、目录服务器、服务器集群、JBOSS应用程序服务器、高可用性集群等。红帽的文档已经被翻译成22种语言发布成多页面HTML、单页面HTML、PDF、EPUB等文件格式。比较好的一点是你可以对于Centos和Scientific Linux社区企业发行版使用相同的文档。这些文档随操作系统一起下载提供也就是说当你没有网络的时候你也可以使用他们。RHEL的文档**涵盖从安装到配置器群的所有内容**。唯一的缺点是你需要成为付费用户。当然这对于企业公司来说是一件完美的事。
1. RHEL 文档: [HTML/PDF格式][3]
2. 支持论坛: 只能通过红帽公司的用户网站提交支持案例。
### 关于CentOS Wiki和论坛的说明
![Centos Linux Wiki][4]
1. [文档 wiki][87]
2. [论坛支持][88]
## #2: Arch的 Wiki 和 论坛
![Arch Linux wiki 和 教程][5]
Arch linux 是一个独立开发的 Linux 操作系统它有基于wiki网站形式的非常不错的文档。它是由Arch社区的一些用户共同协作开发出来的并且允许任何用户添加或修改内容。这些文档教程被分为几类比如说[网络][6]、优化、软件包管理、系统管理、X window 系统还有获取安装 Arch 。它的[官方论坛][7]在解决许多问题的时候也非常有用。他有总共4万多个注册用户、超过1百万次提交。 wiki 包含一些 **其他Linux发行版也适用的通用信息**
1. Arch 社区文档: [Wiki][8]
2. 是否支持论坛: [是][7]
## #3: Gentoo Linux Wiki 和 论坛
![Gentoo Linux 手册 和 Wiki][9]
Gentoo Linux 基于portage包管理系统。Gentoo Linux 用户根据他们选择的配置在本地编译源代码。多数 Gentoo Linux 用户都会定制自己独有的程序集。 Gentoo Linux 的文档会给你一些有关Gento Linux操作系统的说明和一些有关安装、软件包、网络和其他等主要出现的问题的解决方法。Gentoo有对你来说 **非常有用的论坛**论坛中有超过13万4千的用户总共有5442416次文章提交。
1. Gentoo 社区文档: [手册][10] and [Wiki][11]
2. 是否支持论坛: [是][12]
3. 用户提供的文档可以在 [][13] 查看
## #4: Ubuntu Wiki 和 文档
Ubuntu 是领先的台式机和笔记本电脑发行版之一。官方文档由 Ubuntu 文档工程开发维护。你可以在从官方文档中查看大量的信息比如如何开始使用Ubuntu的教程。这些信息中最好的一部分是和基于 Debian 的系统共同工作。你可能会找到由Ubuntu的用户们创建的社区文档其中是有关Ubuntu的使用教程和技巧等。Ubuntu Linux 是有着网络上最大的Linux社区的操作系统。
![Ubuntu Linux Wiki 和 论坛][14]
1. Ubuntu 社区文档: [wiki][15].
2. Ubuntu 官方文档: [wiki][16].
3. 是否支持论坛: [是][17].
## #5: IBM开发者项目
IBM开发者项目为 Linux 程序员和系统管理员提供技术资源,其中包含数以百计的文章、教程和技巧来协助 Linux 程序员的编程工作和应用开发还有系统管理员的日常工作。
![IBM: Linux 程序员和系统管理员用到的技术][18]
1. IBM 开发者项目文档: [HTML格式][19]
2. 是否支持论坛: [是][20].
## #6: FreeBSD 文档和手册
FreeBSD 的手册是由 FreeBSD 文档工程所创建的,介绍 FreeBSD 操作系统的安装、管理和一些日常使用技巧等内容。FreeBSD 的手册页通常比GNU Linux 的手册页要好一点。FreeBSD **附带有全部最新手册页的文档**。 FreeBSD 手册涵盖任何你想要的内容。手册包含一些通用 Unix 资料,这些资料同样适用于其他的 Linux 发行版。FreeBSD 官方论坛会在你遇到棘手问题时给予帮助。
![Freebsd Documentation][21]
1. FreeBSD 文档: [HTML/PDF 格式][90]
2. 是否支持论坛: [是][91].
## #7: Bash 用户的 Wiki
![Bash 用户的 wiki][22]
这是一个对于 bash 使用者来说非常好的资源。Bash 使用者的 wiki 是为了归纳所有类型的 GNU Bash 文档。这个项目的动力是为了提供可阅读的文档和资料来避免用户被迫一点一点阅读 Bash 的手册有时候这是非常麻烦的。Bash 用户 Wiki 分为各个类比如说脚本和通用资料、如何使用、代码风格、bash 命令格式和其他。
1. Bash 用户教程 [wiki][23] wiki 格式)
## #8: Bash 常见问题
![Bash 常见问题: 一些有关 GNU/BASH 常见问题的解决方法][24]
这是一个为bash新手设计的一个wiki。在IRC网络的 #bash 频道里有比较常见的问题集合的解决方法,这些解决方法是由频道的常规成员提供。当你遇到问题的时候不要忘了在[BashPitfalls][25]模块检索查找答案。这些常见问题的解决方法可能会倾向于Bash或者偏向于最低标准的Bourne Shell这决定于是谁给出的答案。大多数情况会尽力提供方便的Bourne和高效的Bash在适当情况下的两类答案。
1. Bash 常见问题 [wiki][26] 格式.
## #9: 如何锻造技术 - Linux 教程
博客作者 Falko 在如何锻造技术文档上有一些非常不错的东西。这个网站提供 Linux 关于各种各样主题的教程,比如说其作为最佳服务器系列,网站将主题分为几类,比如说 web 服务器、linux 发行版、DNS 服务器、虚拟化、高可用性、电子邮件和反垃圾邮件、FTP 服务器、编程主题还有一些其他的内容。这个网站也支持德语。
1. 如何锻造技术 [html][28] 格式.
2. 是否支持论坛: 是
## #10: OpenBSD 常见问题和文档
![OpenBSD 文档][29]
OpenBSD 是另一个类Unix 计算机操作系统它是基于伯克利软件包的。OpenBSD 是来由 NetBSD 项目分支而来。OpenBSD 因高质量的代码和文档而著名对软件许可协议有着坚定的立场并且强烈关注安全问题。OpenBSD 的文档分为多个主题类别,比如说安装、包管理、防火墙设置、用户管理、网络、磁盘和磁盘阵列管理等。
1. OpenBSD [html][30] 格式.
2. 是否支持论坛: 否, 但是可以通过 [邮件列表][31] 来咨询.
## #11: Calomel -开源研究和参考文档
这个极好的网站是专门作为开源软件和那些特别专注于 OpenBSD 的软件的文档来使用的。这是最简洁的引导网站之一,专注于高质量的内容。网站内容分为多个类,比如说 DNS、OpenBSD、安全、web 服务器、Samba 文件服务器、各种工具等。
1. Calomel 官网 [html][33] 格式.
2. 是否支持论坛: 否
## #12: Slackware 书籍项目
![Slackware Linux 手册和文档 ][34]
Slackware Linux 是我的第一个 Linux 发行版。Slackware 是基于 Linux 内核的最早的发行版之一,也是当前正在维护的最古老的 Linux 发行版。 这个发行版面向专注于稳定性的高级用户。 Slackware 也是很少有的的类Unix的 Linux 发行版之一。官方 slackware 手册是为了让用户快速开始了解 Slackware 操作系统的使用方法而设计的。 这不是说它将包含发行版的每一个方面,而是为了说明它的实用性和给使用者一些有关系统的基础工作使用方法。手册分为多个主题,比如说安装、网络和系统配置、系统管理、包管理等。
1. Slackware [Linux 手册 html][35], pdf, 和 其他 格式.
2. 是否支持论坛: 是
## #13: Linux 文档工程 (TLDP)
![Linux 学习网站和文档][36]
Linux 文档工程旨在给 Linux 操作系统提供自由开发、高质量文档。网站是由志愿者创建和维护的。网站分为具体主题的帮助、由浅入深的指南等。在此我想推荐一个非常好的[文档][37],这个文档既是一个教程也是一个 shell 脚本编程的参考文档,对于新用户来说[使用方法列表][38]也是一个不错的开始。
1. Linux [文档工程][39] 支持多种查阅格式.
2. 是否支持论坛: 否
## #14: Linux Home Networking
![Linux Home Networking][40]
Linux Home Networking 是学习 linux 的另一个比较好的资源,这个网站包含了 Linux 软件认证考试的内容比如 RHCE还有一些计算机培训课程。网站包含了许多主题比如说网络、Samba 文件服务器、无线网络、web 服务器等。
1. Linux [home networking][41] 可通过 html 格式和 PDF部分免费格式查阅.
2. 是否支持论坛: 是
## #15: Linux Action Show
![Linux 播客][42]
Linux Action Show ("LAS") 是一个关于 Linux 的资源播放平台。这个网站是由 Bryan Lunduke, Allan Jude, 和 Chris Fisher 共同发布的。它包含了 FOSS 的最新消息。网站内容主要是评论一些应用程序和 Linux 发行版。有时候也会发布一些和开源项目著名人物的采访视频。
1. Linux [action show][43] 支持音频和视频格式.
2. 是否支持论坛: 是
## #16: Commandlinefu
Commandlinefu 列出了各个 shell 命令,这些命令可能会让你感到十分有趣和有用。对于所有命令都可以评论、讨论和投票(支持或反对)。对于所有 Unix 命令行用户来说是一个极好的资源。不要忘了查看[最佳命令][44]
![Commandlinefu 的最优 Unix / Linux 命令][45]
1. [Commandlinefu][46] 支持 html 格式.
2. 是否支持论坛: 否
## #17: Debian 管理技巧和资源
这个网站包含一些只和 Debian GNU/Linux 相关的主题、技巧和教程,特别是关于系统管理的有趣和有用的信息。你可以在上面贡献文章、建议和问题。提交了之后不要忘记查看[最佳文章列表][47]里有没有你的文章。
![Debian Linux 管理: 系统管理员技巧和教程][48]
1. Debian [系统管理][49] 支持 html 格式.
2. 是否支持论坛s: 否
## #18: Catonmat - Sed 流编辑器, Awk 文本处理工具, Perl 语言教程
![Sed 流编辑器, Awk 文本处理工具, Perl 语言教程][50]
这个网站是由博客作者 Peteris Krumins 维护的。主要关注命令行和 Unix 编程主题,比如说 sed 流编辑器、perl 语言、AWK 文本处理工具等。不要忘了查看 [sed 介绍][51]、sed [one liner][52] 的含义解释,还有命令行历史的[权威指南][53]和 [awk][54]的解释。
1. [catonmat][55] 支持html格式.
2. 是否支持论坛: 否
## #19: Debian GNU/Linux 文档和 Wiki
![Debian Linux 教程和 Wiki][56]
Debian 是另外一个基于 Linux 的操作系统,主要使用 GNU 发布的软件。Debian 因严格坚持 Unix 和自由软件的理念而著名,它也是很受欢迎并且有一定影响力的 Linux 发行版本之一。 Ubuntu 等发行版本都是基于 Debian 的。Debian 项目提供给用户一种易于访问的形式的特有文档。这个网站分为 Wiki、安装指导、常见问题、支持论坛几个模块。
1. Debian GNU/Linux [文档][57] 支持 html 和其他格式访问.
2. Debian GNU/Linux [wiki][58]
3. 是否支持论坛: [是][59]
## #20: Linux Sea
Linux Sea 这本书提供了比较通俗易懂但充满技术(从最终用户角度来看)的 Linux 操作系统的介绍,使用 Gentoo Linux 作为例子。它既没有谈论Linux内核或Linux发行版的历史也没有谈到 Linux 用户不那么感兴趣的细节。
1. Linux [sea][60] 支持 html 格式访问.
2. 是否支持论坛: 否
## #21: Oreilly Commons
![免费 Linux / Unix / Php / Javascript / Ubuntu 学习笔记][61]
Oreilly 出版社发布了不少 wiki 格式的文章。这个网站主要是为了给那些喜欢创作、参考、使用、修改、更新和修订 OReilly上面或者其他来源的材料的社区提供资料。这个网站包含关于 Ubuntu、PHP、Spamassassin、Linux 等的免费书籍。
1. Oreilly [commons][62] 支持 Wiki 格式.
2. 是否支持论坛: 否
## #22: Ubuntu 袖珍指南
![Ubuntu 新手书籍][63]
这本书的作者是 Keir Thomas。这本指南或者说是书籍对于所有 ubuntu 用户来说都值得一读。这本书旨在向用户介绍 Ubuntu 操作系统和支撑的理念。你可以从官网下载这本书的 PDF 版本,也可以在亚马逊买印刷版。
1. Ubuntu [pocket guide][64] 支持 PDF 和印刷版本.
2. 是否支持论坛: 否
## #23: Linux: Rute User's Tutorial and Exposition
![GNU/LINUX system administration book][65]
这本书讲述了 GNU/LINUX 系统管理,主要是对主流的发布版本比如红帽和 Debian 的说明,作为新用户的教程和高级管理员的参考。这本书旨在给出 Unix 系统的每个面的简明彻底的解释和实践性的例子。想要全面了解LINUX的人都不需要再看了 - 这里没有涉及的内容。
1. Linux: [Rute User's Tutorial and Exposition][66] 支持印刷版和 html 格式.
2. 是否支持论坛: 否
## #24: 高级 Linux 编程
![高级 Linux 编程][67]
这本书是写给那些已经熟悉了C语言编程的程序员的。这本书采取一种教程式的方式来讲述大多数在 GNU/Linux 系统应用编程中重要的概念和功能特性。如果你是一个已经对 GNU/Linux 系统编程有一定经验的开发者或者是对其他类Unix系统编程有一定经验的开发者或者对 GNU/Linux 软件开发有兴趣或者想要从非Unix系统环境转换到 Unix 平台并且已经熟悉了优秀软件的开发原则,那你很适合读这本书。另外,你会发现这本书同样适合于 C 和 C++编程。
1. [高级 Linux 编程][68] 支持印刷版和 PDF 格式.
2. 是否支持论坛: 否
## #25: LPI 101 Course Notes
![Linux 国际专业协会认证书籍][69]
LPIC 1、2、3级是用于 Linux 系统管理员认证的。这个网站提供了 LPI 101 和 LPI 102 的测试训练。这些是根据 GNU自有文档协议 发布的。这些课程材料基于Linux 国际专业协会的 LPI 101 和 102 考试的目的。这个课程是为了提供给你一些必备的 Linux 系统的操作和管理的技能。
1. 下载 LPI [训练手册][70] 支持 PDF 格式.
2. 是否支持论坛: 否
## #26: FOSS 手册
FLOSS手册是一系列关于免费和开源软件以及用于创建它们的工具和使用这些工具的社区的手册。社区的成员包含作者、编辑、设计师、软件开发者、积极分子等。这些手册中说明了怎样安装使用一些免费开源软件如何操作比如设计和维持在线安全开源软件这其中也包含如何使用或支持免费软件和格式的免费文化服务的手册。你也会发现关于一些像 VLC, [Linux video editing][71], Linux, OLPC / SUGAR, GRAPHICS 等软件的手册。
![FLOSS Manuals is a collection of manuals about free and open source software][72]
1. 你可以浏览 [FOSS 手册][73] 支持 Wiki 格式.
2. 是否支持论坛: 否
## #27: Linux 入门包
![Linux 入门包][74]
刚接触 Linux 这个美好世界想找一个简单的入门方式你可以下载一个130页的指南来掌握系统。这个指南会向你展示如何在你的个人电脑上安装 Linux如何浏览桌面掌握最主流行的 Linux 程序和修复可能出现的问题的方法。
1. 下载 [Linux 入门包][75] 支持 PDF 格式.
2. 是否支持论坛: f否
## #28: - Linux 信息来源 是Linux基金会的一个产品。这个网站上提供一些新闻、指南、教程和一些关于Linux的其他信息。利用全球 Linux 用户的力量来通知、写作、连接 Linux 的事务。
1. 在线访问 [][76] .
2. 是否支持论坛: 是
## #29: LWN
LWN 是一个注重Linux和其他类Unix操作系统免费软件的网站。这个网站有周刊、每日小故事碎片和对小故事线索的讨论。该网站提供有关Linux和FOSS相关的开发法律商业和安全问题的全面报道。
1. 在线访问 [][77].
2. 是否支持论坛: 否
## #30: Mac OS X 相关网站
与Mac OS X相关网站的快速链接
* [Mac OS X 提示][78] - 这个网站专用于苹果的 Mac OS X Unix 操作系统。网站有很多有关 Bash 和 Mac OS X 的使用建议、技巧和教程
* [Mac OS 开发库][79] - 苹果拥有和 OS X 开发相关的优秀系列。不要忘了看一看 [bash shell 脚本入门][80].
* [Apple 知识库][81] - 这个有点像红帽网络公司的知识库。这个网站提供了所有苹果产品包括 OS X 相关的指南和故障报修建议。
## #30: NetBSD
NetBSD 是另一个基于伯克利软件包 Unix 操作系统的免费开源操作系统。NetBSD 项目专注于系统的高质量设计、稳定性和性能。由于 NetBSD 的可移植性和伯克利类的协议NetBSD 常用于嵌入式系统。这个网站提供了一些 NetBSD 官方文档和各种第三方文档 的链接。
1. 在线访问 [netbsd][82] 文档,支持 html、PDF 格式.
2. 是否支持论坛: 否
## 你要做的事:
这是我的个人列表,这可能并不完全是权威的,因此如果你有你自己喜欢的独特 Unix/Linux 网站,可以在下方参与评论分享。
// 图片来源: [Flickr photo][83] by PanelSwitchman. 一些连接是用户在我们的Facebook粉丝页面上建议添加的。
// 对于那些庆祝的人,圣诞快乐! 对于其他人来说,享受周末。
## 关于作者
作者是nixCraft的创建者和经验丰富的系统管理员以及Linux操作系统/ Unix shell脚本的培训师。他曾与全球客户及各行各业合作包括IT教育国防和空间研究以及一些非营利部门。可以关注作者的[Twitter][84], [Facebook][85], [Google+][86]。
作者:[Vivek Gite][a]
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出
[1]: "Dennis Ritchie and Ken Thompson working with UNIX PDP11"
[2]: "Red hat Enterprise Linux Docs"
[4]: "Centos Linux Wiki, Support, Documents"
[5]: "Arch Linux wiki and tutorials "
[9]: "Gentoo Linux Handbook and Wiki"
[14]: "Ubuntu Linux Wiki and Forums"
[18]: "IBM: Technical for Linux programmers and system administrators"
[21]: "Freebsd Documentation"
[22]: "Bash hackers wiki for bash users"
[24]: "Bash FAQ: Answers to frequently asked questions about GNU/BASH"
[27]: "Howtoforge tutorials"
[29]: "OpenBSD Documenation"
[32]: "Open Source Research and Reference Documentation"
[34]: "Slackware Linux Book and Documentation "
[36]: "Linux Learning Site and Documentation "
[40]: "Linux Home Networking "
[42]: "Linux Podcast "
[45]: "The best Unix / Linux Commands "
[48]: "Debian Linux Adminstration: Tips and Tutorial For Sys Admin"
[50]: "Sed, Awk, Perl Tutorials"
[56]: "Debian Linux Tutorials and Wiki"
[61]: "Oreilly Free Linux / Unix / Php / Javascript / Ubuntu Books"
[63]: "Ubuntu Book For New Users"
[65]: "GNU/LINUX system administration free book"
[67]: "Download Advanced Linux Programming PDF version"
[69]: "Download Linux Professional Institute Certification PDF Book"
[72]: "Download manuals about free and open source software"
[74]: "New to Linux? Start Linux starter book [ PDF version ]"

[#]: translator: (geekpi)
[#]: reviewer: ( )
[#]: publisher: ( )
[#]: subject: (5 Firefox extensions to protect your privacy)
[#]: via: (
[#]: author: ([Chris Short](
[#]: url: ( )
5 个保护你隐私的 Firefox 扩展
在剑桥分析公司这件事后,我仔细研究了我让 Facebook 渗透到我的网络生活的程度。由于我一般担心单点故障,我不是一个使用社交登录的人。我使用密码管理器为每个站点创建唯一的登录(你也应该这样做)。
我最担心的 Facebook 对我的数字生活的普遍侵扰。在深入了解剑桥分析公司这件事后,我几乎立即卸载了 Facebook 的移动程序。我还从 Facebook [取消连接了所有应用、游戏和网站][1]。是的,这将改变你在 Facebook 上的体验,但它也将保护您的隐私。作为一名有遍布全球朋友的人,保持 Facebook 的社交连接对我来说非常重要。
我还仔细审查了其他服务。我检查了 Google、Twitter、GitHub 以及任何未使用的连接应用。但我知道这还不够。我需要我的浏览器主动防止侵犯我隐私的行为。我开始研究如何做到最好。当然,我可以锁定浏览器,但是我需要使我用的网站和工具正常使用,同时试图防止它们泄露数据。
以下是五种可在使用浏览器时保护你隐私的工具。前三个扩展可用于 Firefox 和 Chrome而后两个仅适用于 Firefox。
### Privacy Badger
我已经使用 [Privacy Badger][2] 有一段时间了。其他内容或广告拦截器做得更好吗也许。很多内容拦截器的问题在于它们“付费显示”。这意味着他们有收费的“合作伙伴”白名单。这就站在了为什么存在内容拦截器的对立面。Privacy Badger 是由电子前沿基金会 EFF 制作的这是一家以捐赠为基础的商业模式的非营利实体。Privacy Badger 承诺从你的浏览习惯中学习并且很少需要调整。例如我只需将一些网站列入白名单。Privacy Badger 允许精确控制在哪些站点上启用哪些跟踪器。这是我的第一个无论在哪个浏览器必须安装的扩展。
### DuckDuckGo Privacy Essentials
搜索引擎 DuckDuckGo 通常有隐私意识。[DuckDuckGo Privacy Essentials][3] 适用于主流的移动设备和浏览器。它的独特之处在于它根据你提供的设置对网站进行评分。例如即使启用了隐私保护Facebook 也会获得 D。同时[][4] 在启用隐私保护时获得 B 和禁用时获得 C。如果你因任何原因不喜欢于 EFF 或 Privacy Badger我会推荐 DuckDuckGo Privacy Essentials选择一个而不是两个因为它们基本上做同样的事情
### HTTPS Everywhere
[HTTPS Everywhere][5] 是 EFF 的另一个扩展。根据 HTTPS Everywhere 的说法,“网络上的许多网站都通过 HTTPS 提供一些有限的加密支持,但使它难以使用。例如,它们可能默认为未加密的 HTTP 或在加密的页面里面使用返回到未加密站点的链接。HTTPS Everywhere 扩展通过使用聪明的技术将对这些站点的请求重写为 HTTPS 来解决这些问题。“虽然许多网站和浏览器在实施 HTTPS 方面越来越好但仍有很多网站仍需要帮助。HTTPS Everywhere 将尽力确保你的流量已加密。
### NoScript Security Suite
[NoScript Security Suite][6] 不适合胆小的人。虽然这个 Firefox 独有扩展“允许 JavaScript、Java、Flash 和其他插件只能由你选择的受信任网站执行”但它并不能很好地确定你的选择。但是毫无疑问防止泄漏数据的可靠方法是不执行可能会泄露数据的代码。NoScript 通过其“基于白名单的抢占式脚本阻止”实现了这一点。这意味着你需要为尚未加入白名单的网站构建白名单。请注意NoScript 仅适用于 Firefox。
### Facebook Container
Facebook Container][7] 使 Firefox 成为我在使用 Facebook 时的唯一浏览器。 “Facebook Container 的工作原理是将你的 Facebook 身份隔离到一个单独的容器中,这使得 Facebook 更难以使用第三方 Cookie 跟踪你访问其他网站。” 这意味着 Facebook 无法窥探浏览器中其他地方发生的活动。 突然间,这些令人毛骨悚然的广告将停止频繁出现(假设你在移动设备上卸载了 Facebook 应用)。 在隔离的空间中使用 Facebook 将阻止任何额外的数据收集。 请记住,你已经提供了 Facebook 数据,而 Facebook Container 无法阻止这些数据被共享。
这些是我浏览器隐私的首选扩展。 你的是什么? 请在评论中分享。
### 转换为简单网站
手动开发 HTML 网站的日子早已不复存在。现在的网站是动态的,并使用最新的 JavaScriptPHP 或 Python 框架即时构建。结果,这些网站更加脆弱:数据库崩溃,升级出错或者未修复的漏洞都可能使数据丢失。在我以前是一名 Web 开发人员时,我不得不接受客户希望网站基本上可以永久工作的想法。这种期望与 web 开发“快速行动和破除陈规”的理念不相符。在这方面,使用 [Drupal][2] 内容管理系统CMS尤其具有挑战性因为重大更新会破坏与第三方模块的兼容性这意味着客户很少承担的起高昂的升级成本。解决方案是将这些网站存档以实时动态的网站为基础将其转换为任何 web 服务器可以永久服务的纯 HTML 文件。此过程对你自己的动态网站非常有用,也适用于你想保护但无法控制的第三方网站。
对于简单的静态网站,古老的 [Wget][3] 程序就可以胜任。然而,镜像保存一个完整页面的方法,虽然复杂但很固定:
$ nice wget --mirror --execute robots=off --no-verbose --convert-links \
--backup-converted --page-requisites --adjust-extension \
--base=./ --directory-prefix=./ --span-hosts \,
以上命令下载了网页的内容,但也抓取了指定域名中的所有内容。在对你喜欢的网站执行此操作之前,请考虑此类抓取可能对网站产生的影响。上面的命令故意忽略了 `robots.txt` 规则,就像现在[档案管理者的习惯做法][4],并尽可能快的存档网站。大多数抓取工具都可以选择点击暂停并限制带宽使用,以避免使网站瘫痪。
上面的命令还将获取 “page requisites译者注单页面所需的所有元素像样式表CSS图像和脚本等。下载的页面内容将会被修改以便链接也指向本地副本。任意 web 服务器均可托管生成的文件集,从而生成原始网站的静态副本。
以上所述是事情一切顺利的时候。任意使用过计算机的人都知道事情的进展很少如计划那样;各种各样的事情可以使程序以有趣的方式脱离正规。比如,在网站上有一个日历块很流行。内容管理系统会动态生成这些内容,这会使爬虫程序陷入死循环以尝试检索所有页面。灵巧的存档者可以使用正则表达式(例如 Wget 有一个 `--reject-regex` 选项)来忽略有问题的资源。如果可以访问网站的管理界面,另一个方法是禁用日历、登录表单、评论表单和其他动态区域。一旦网站变成静态的,(那些动态区域)也肯定会停止工作,因此从原始网站中移除这些杂乱的东西也不是全无意义。
### JavaScript 的厄运
很不幸,有些网站不仅仅是纯 HTML 文件构建的。比如在单页面网站中web 浏览器通过执行一个小的 JavaScript 程序来构建内容。像 Wget 这样的简单用户代理将难以重建这些网站的有意义的静态副本,因为它根本不支持 JavaScript。理论上网站应该使用[渐进增强][5]技术,在不使用 JavaScript 的情况下提供内容和实现功能,但这些指示很少被遵循,因为使用 [NoScript][6] 或 [uMatrix][7] 等插件的人都很确定。
传统的存档方法有时是最愚蠢的方式,会导致失败。在尝试为一个本地报纸网站([][8])创建备份时,我发现 WordPress 在末尾包含 JavaScript且添加了查询字符串例如`?ver=1.12.4`)。这会使提供存档服务的 web 服务器不能正确进行内容类型检测,因为其靠文件扩展名来发送正确的 `Content-Type` 头部信息。在 web 浏览器加载此类存档时,这些脚本将无法加载,导致动态网站受损。
随着 web 向使用浏览器作为虚拟机执行任意代码转化,依赖于纯 HTML 文件解析的存档方法也需要随之适应。这个问题的解决方案是在抓取时记录(以及重现)服务器提供的 HTTP 头部信息,实际上专业的档案管理者就使用这种方法。
### 创建和显示 WARC 文件Creating and displaying WARC files
在 [Internet Archive][9] 网站Brewster Kahle 和 Mike Burner 在 1996 年设计了 [ARC][10] (用于 "ARChive")文件格式,以提供一种聚合档案工作产生的百万个小文件的方法。该格式最终标准化为 WARC“Web ARChive”[规范][11],并在 2009 年作为 ISO 标准发布2017 年修订。标准化工作由[国际互联网保护联盟][12]IIPC领导据维基百科称这是一个“为共同保护未来互联网内容而建立的图书馆和国际组织”它有美国国会图书馆和互联网档案馆等成员。后者内部在其基于 Java 的 [Heritrix crawler][13](译者注:一种爬虫程序)上使用 WARC 格式。
WARC 在单个压缩文件中聚合了多种资源,像 HTTP 头部信息,文件内容,以及其他元数据。方便的是实际上 Wget 提供了 `--warc` 参数来支持 WARC 格式。不幸的是 web 浏览器不能直接显示 WARC 文件,所以为了访问存档文件,一个查看器或某些格式转换是很有必要的。我所发现的最简单的查看器是 [pywb][14],它以 Python 包的形式运行一个简单的 web 服务器提供一个像网站时光倒流机网站的界面,来浏览 WARC 文件的内容。执行以下命令将会在 `http://localhost:8080/` 地址显示 WARC 文件的内容:
$ pip install pywb
$ wb-manager init example
$ wb-manager add example crawl.warc.gz
$ wayback
顺便说一句,这个工具是由 [Webrecorder][15] 服务提供者建立的Webrecoder 服务可以使用 web 浏览器保存动态页面的内容。
很不幸pywb 无法加载 Wget 生成的 WARC 文件,因为它[遵循][16][不一致的 1.0 规范][17][1.1 规范修复了此问题][17]。就算 Wget 或 pywb 修复了这些问题Wget 生成的 WARC 文件对我的使用来说不够可靠,所以我找了其他的替代品。引起我注意的爬虫程序简称 [crawl][19]。以下是它的调用方式:
$ crawl
(它的 README 文件说“非常简单”。)该程序确实支持一些命令行参数选项,但大多数默认值都是最佳的:它会从其他域获取页面需求(除非使用 `-exclude-related` 参数),但肯定不会递归出域。默认情况下,它会与远程站点建立十个并发连接,这个值可以使用 `-c` 参数更改。但是,最重要的是,生成的 WARC 文件可以使用 pywb 完美加载。
### 未来的工作和替代方案
这里还有更多有关使用 WARC 文件的[资源][20]。特别要提的是,这里有一个专门用来存档网站的 Wget 的直接替代品,叫做 [Wpull][21]。它实验性地支持了 [PhantomJS][22] 和 [youtube-dl][23] 的集成,即允许分别下载更复杂的 JavaScript 页面以及流媒体。该程序是一个叫做 [ArchiveBot][24] 的复杂档案工具的基础ArchiveBot 被那些在 [ArchiveTeam][25] 的“零散离群的档案管理者、程序员、作家以及演说家”使用,他们致力于“在历史永远丢失之前保存他们”。集成 PhantomJS 好像并没有如团队期望的那样良好工作,所以 ArchiveTeam 也用其他的低等工具来镜像保存更复杂的网站。例如,[snscrape][26] 将抓取社交媒体配置文件以生成要发送到 ArchiveBot 的页面列表。团队使用的另一个工具是 [crocoite][27],它在 Chrome 浏览器下以无头文件信息的模式来存档 JavaScript 较多的网站。
如果没有提到称做“网站复制者”的 [HTTrack][28] 项目,那么这篇文章算不上完整。工作方式和 Wget 相似HTTrack 可以对远程站点创建一个本地的副本,但是不幸的是它不支持输出 WRAC 文件。对于不熟悉命令行的小白用户来说,它在人机交互方面显得更有价值。
同样,在我的研究中,我发现了叫做 [Wget2][29] 的 Wget 的完全重制版本,它支持多线程操作,这可能使它比前身更快。和 Wget 相比,它[舍弃了一些功能][30]但是最值得注意的是拒绝模式、WARC 输出以及 FTP 支持,并增加了 RSS、DNS 缓存以及改进的 TLS 支持。
最后,我个人对这些工具的愿景是将他们与现有的书签系统集成起来。目前我在 [Wallabag][31] 中保留了一些有趣的链接,这是一种自托管式的“稍后阅读”服务,意在成为 [Pocket][32](现在由 Mozilla 拥有)的免费替代品。但是 Wallabag 在设计上只保留了文章的“可读”副本,而不是一个完整的拷贝。在某些情况下,“可读版本”实际上[不可读][33],并且 Wallabag 有时[无法解析文章][34]。恰恰相反,像 [bookmark-archiver][35] 或 [reminiscence][36] 这样其他的工具会保存页面的屏幕截图以及完整的 HTML 文件,但遗憾的是,它没有 WRAC 文件所以没有办法更可信的重现网页内容。
本文由 [LCTT]( 原创编译,[Linux中国]( 荣誉推出