帮挪位置
18 KiB
已部署的核心算法
在我看来,一个系统背后主要驱动的算法更容易在非算法课程上找到,同理,目前的程序更容易在应用数学而不是理论数学中找到。在讲座中,很少有实际问题有一个抽象问题的精确就够。追根究底地说,我认为没有理由为何流行算法课程资料。诸如Strassen乘法,AKS素性测试、或者Moser-Tardos算法与底层实际问题,如实现视频数据库、优化的编译器、操作系统、网络拥堵控制系统或者其他系统有相关。这些课程的价值是学习利用错综复杂的方法找出问题的结构而找出有效的解决方案。高级算法也满足了一些简单算法,这些分析并不平凡。正是由于这个原因,我不会不理会简单随机算法或者PageRank。
我想你可以选择任何一个大型软件并会内部实现了发现基础和高级的算法。作为一个研究案例,我选择了Linux内核,并会示例一些Chromium里面的例子。
Linux内核中的基本数据结构和算法
链接在这里(source code on github)。
2.B+ 树的注释会告诉你无法在教科书上找到的东西。
一个相对简单的B+树的实现。我把它作为一个学习练习来帮助理解B+树是如何工作的。这同样也被证明是有用的。
...
一个技巧在教科书中并不常见。最小的值在右侧而不是在左侧。所有在一个节点里用到的槽都在左侧,所有没有用到的槽包含了空值(NUL)。大多数操作只简单地遍历所有的槽一次并在第一个空值时(NUL)终止。
4.红黑树用于调度、虚拟内存管理、追踪文件描述符和目录项等。
5.区间树
根树一个通用的用处是存储指针到结构页中。
第七章中,简单的基于CLR的只插入,含有指针的静态大小优先级堆
8.哈希函数,参考了Knuth和一篇论文。
Knuth建议约黄金比例的素数通过对乘法散列机器字的最大整数表示。Chuck Lever验证了该技术的有效性:
http://www.citi.umich.edu/techreports/reports/citi-tr-00-1.pdf
这些素数的选择是位稀疏的,他们可以通过移位和加法操作,而不必使用乘法器,乘法器是很慢的。
9.一部分代码,比如这个驱动,实现了他们自己的哈希函数。
哈希函数使用了一种旋转哈希算法
Knuth, D. 计算机程序设计艺术, 卷 3: 排序与搜索, 第6.7章. Addison Wesley, 1973
11.位数组用于处理标志位、中断等等。并在Knuth的卷4中阐述。
14.B树的二分查找。
执行一个修改过的遍历深度优先的命名空间树,以指定的start_handle节点开始以及结束。回调函数会在任何一个参数匹配的节点被发现时被调用。如果回调函数返回了一个非0值,搜索将会激励结束并且将返回值给调用者。
16.广度有限搜索用于检测运行时锁定的正确性。
18.冒泡排序在一个驱动库中也是一个令人惊讶的实现。
根据Knuth、Morris和Pratt 1实现了一个线性时间的字符串匹配算法。他们的算法避免了转换函数的显式地计算DELTA。对于长度为n的文本,其匹配时间是O(n),对于长度为m的模式(pattern),仅使用一个辅助函数PI[1 . .m],预先计算模式的时间为O(m)。数组PI允许转换函数DELTA被实时有效地计算。粗略地说,对于任何状态"q"= 0,1,…、m和在SIGMA中的任何字符"a",PI["q"]的值包含的信息是独立的"a"并需要计算DELTA("q","a") 2.既然PI只有m个记录,而DELTA有O(m |SIGMA|)个记录,在预处理时间计算PI而不是DELTA的时候,我们可以节省一个因数|SIGMA|
1 Cormen, Leiserson, Rivest, Stein,算法介绍,第二版,MIT出版社
2 见有限自动机原理
20.Boyer-Moore 模式匹配是在找替代品时的参考和建议。
实现了Boyer-Moore字符串匹配算法:
1 一个快速的字符串搜索算法,R.S. Boyer and Moore.计算机通信协会,20(10), 1977, pp. 762-772. http://www.cs.utexas.edu/users/moore/publications/fstrpos.pdf
2 准确的字符串匹配算法手册,Thierry Lecroq, 2004 http://www-igm.univ-mlv.fr/~lecroq/string/string.pdf
注:由于Boyer-Moore(BM)从右到左搜索匹配,仍然有可能匹配分布在多个块,在这种情况下该算法不会找到任何巧合。
如果你愿意确保这样的事情永远不会发生,那使用Knuth-Pratt-Morris(KMP)实现。总之,根据您的设置适当地选择字符串搜索算法。
如果你正在用文本搜索器进行过滤,NIDS或任何类似的注重安全的目的,那么使用KMP。否则,如果你真的关心性能,并且你对数据包进行分类以使用服务质量(QoS)政策,且你不介意匹配可能分布分散,那么用BM。
Chromium 浏览器中的数据结构和算法
链接在这里(source code on Google code)。我只会列出一部分。我建议使用搜索来找到你最喜欢的算法或者数据结构。
1.伸展树。
The tree is also parameterized by an allocation policy (Allocator). The policy is used for allocating lists in the C free store or the zone; see zone.h.
2.Voronoi diagrams用于一个示例。
也有这样的第三方的数据结构和算法包含在Chromium代码中。
1.二叉树
2.红黑树
Julian Walker的总结
红黑树是有趣的野兽。他们被认为比AVL树(它们的直接竞争对手)简单,乍一看这似乎是由于插入是一项轻松的乐事。然而,当你开始玩删除算法,红黑树变得非常棘手。然而, 平衡物增加了复杂性,插入和删除可以使用单通道,实现自上而下的算法。这与AVL树情况不一样,只能写自顶向下插入算法。删除从AVL树需要自下而上的算法。 ...
红黑树是很流行的,因为大多数数据结构都有一个古怪的名字。比如,在Java和c++库映射结构通常用红黑树实现。红黑树的速度也与AVL树相当。而AVL树平衡不是很好,需要保持平衡的工作红黑树通常更好。有一些误解被流传,但在大多数情况下对红黑树的宣传是准确的。
3.AVL 树
4.Rabin-Karp字符串匹配用于比较。
5.计算机器人后缀
6.由Apple公司实现的布隆过滤器
7.Bresenham 算法.
编程语言库
我想这个问题值得思考。编程语言设计者们认为这值得花一些工程师时间和精力来实现这些数据结构和算法,这样其他人你不必这么做了。库的存在是我们可以在一些用C写的软件,但比Java少,重新实现了基础数据结构的部分原因。
1.C++ STL包含了链表、栈、队列、map、向量和对排序、搜索和堆操作算法。
2.Java API是非常广阔的并且覆盖了更多。 3.Boost C++ 库包含了像 Boyer-Moore以及Knuth-Morris-Pratt字符串匹配算法。
分配和调度算法
我发现这些很有趣,因为即使他们被称为启发式,您使用的策略规定了算法类型和需要的数据结构,因此,所以需要人们知道栈和队列。
1.最近最少使用算法可以用不同的方法实现。Linux内核有一种基于列表的实现。
2.其他的还有先入先出、最常使用、和轮循。
3.FIFO的一个变种用于VAX/VMS系统。
4.Richard Carr的时钟算法用于Linux中的页面替换。
5.Intel i860处理器是一种随即替代策略。
6.自适应置换高速缓存用于一些IBM存储控制器中,也曾经用于PostgreSQL中(虽然仅仅因为一些专利问题)。
7.Knuth在计算机程序设计艺术,卷1中讨论过的Buddy内存分配算法内用于Linux内核中,jemalloc并发分配器被用于FreeBSD和facebook中。
*nix系统核心工具
1.grep和awk同时实从正则表达式中实现NFA的Thompson-McNaughton-Yamada构造,这显然击败了Perl的实现。
2.tsort实现了拓扑排序。
3.fgrep实现了Aho-Corasick字符串匹配算法。
4.GNU grep,根据作者Mike Haertel实现了Boyer-Mooresuan算法。
5.Unix上的crypt(1)实现了一个在Enigma机器上的不同加密算法。
6.Unix diff由Doug McIllroy实现,基于和James Hunt合作编写的圆形。它比用于计算Levenshtein距离的标准动态规划算法执行地更好。Linux 版本计算最短编辑距离。
加密算法
这可能回事一个非常长的列表。加密算法在所有执行安全通信和交易的程序中都有实现。
1.Merkle 树,特别是 Tiger Tree Hash变种,被用于点对点应用,比如GTK Gnutella和LimeWire。
2.MD5被用于提供软件包的校验和并被用于在*nix系统上的完整性检测((Linux 实现)),同样也在Windows和OSX中支持。
3.OpenSSL实现了很多加密算法包括AES、Blowfish、DES、SHA-1、SHA-2、RSA、DES等等
编译器
1.LALR 解析用yacc和bison实现。
2.支配算法被用于大多数基于SSA形式的编译器优化。
3.lex和flex编译正则表达式成为NFA。
压缩和图像处理
1.用于GIF图片格式的Lempel-Ziv算法用图形操作程序实现,从*unix工具转化到复杂的程序。
2.行程长度编码用于产生PCX文件(用于原始的画笔程序),是被压缩的BMP和TIFF文件。
3.小波压缩是JPEG2000的基础,所以所有生成JPEG2000文件的数码相机会支持这个算法。
4.Reed-Solomon纠错在Linux内核、CD驱动器、条形码读取器、结合从Voyager中的卷积图像传输中实现。
冲突驱动语句学习算法 (CDCL)
自2000以来,SAT求解器在工业标准的运行时间(通常是硬件工业,虽然其他地方也被使用)以近乎指数的方式每年下跌。这发展中很重要的一部分是冲突驱动语句学习算法,它结合了Davis Logemann和Loveland在约束规划和人工智能研究中关于语句学习的原始论文中的布尔约束传播算法。特定地,工业造型,SAT被认为是一个简单的问题(见这个讨论)。对我而言,这个一个最近最好的成功故事因为它结合了这几年算法的前进推广、聪明的工程理念、实验性的评估、齐心协力地解决一个问题。Malik and Zhang的CACM文章值得阅读。这个算法在许多大学中教授(我参加了4个地方都是如此),但是通常在一个逻辑或者形式方法课上。
SAT求解器的应用有很多。IBM,Intel和许多其他公司都有他们的SAT求解器是西安。OpenSuse的包管理器同样使用了一个SAT求解器。
via: http://cstheory.stackexchange.com/questions/19759/core-algorithms-deployed/19773#19773