字符串匹配查找算法总结

描述
关键点描述

描述

字符串匹配查找常见的算法或数据结构有：暴力搜索、KMP算法(Extend-KMP、BM算法、Sunday算法)、AC自动机、前缀树(Double Array Trie)、后缀树（后缀数组）。以下汇总它们的算法比较，以及关键点：
string match

关键点描述

KMP算法

模式串需要移动的距离＝模式串已匹配的字符长度－（模式串已匹配字符串）前缀后缀最长公长度

next数组（前缀后缀最长公长度）求解：N为next数组，i为数组位置，P为模式串

1、当i＝0，N［0］＝0
2、当i＝1，如果P［1］＝P［0］，N［1］＝N［0］＋1；否则N［1］＝N［0］
3、当i＝j，如果P［j］＝P［N［j－1］］，N［j］＝N［j－1］＋1；
否则，i＝N［j－1］，如果i>0，重复上述计算，否则，N［j］＝0

AC自动机

1、为模式串建立Trie（标志模式串的节点特殊标记，用于匹配时确认匹配成功）
2、为Trie建立Fail（失败）指针（在匹配路径上失败的时，跳转到合适的位置进行下次匹配）
3、对字符串进行匹配（遍历Trie，进行匹配）

Fail指针的建立：对于一个节点C，标识字符a，顺着C的父亲节点的失配指针走，走到第一个有儿子也是a的节点D，那么C的失配指针就指向D的标识a的儿子节点（假设为E，从根节点到E节点表示的模式串P2是从根节点到C节点的字符串的后缀P1的后缀，当模式串P1匹配失败时，尝试匹配模式串P2，这是Fail 指针的本质作用）。如果找不到这个节点，那么失配指针指向Root

Ukkonen后缀树算法

活动节点：是用于查找一个后缀是否已经存在这棵树里，即查找的时候从活动节点的子节点开始查找，同时当需要插入边的时候也是插入到该节点下；

活动边：是每次需要进行分割的边，即成为活动边就意味着需要被分割；而活动长度则是指明从活动边的哪个位置开始分割。

剩余后缀数：是我们需要插入的后缀的数量，说明程序员点就是缓存的数量，因为每次如果要插入的后缀存在，则缓存起来。

活动点(active point) ：三元组（活动节点，活动边，活动长度）

后缀连接：如果一个步骤插入（Insert）两个以上新的节点，如果该新节点不是当前步骤中创建的第一个节点，则将先前插入的节点与该新节点通过一个特殊的指针连接，称为后缀连接（Suffix Link）。后缀连接通过一条虚线来表示，连接由前一个节点指向后一个节点。从根节点到达后缀连接指向节点的字符串，是从根节点到达后缀连接源节点的字符串的后缀。所以后缀连接的前一个节点需要分割时，需要同时分割后缀连接指向的节点。

代码实现

(未完待续)

参考文档

后缀树: http://www.cnblogs.com/gaochundong/p/suffix_tree.html

Ukkonen 的后缀树算法的清晰解释: http://www.oschina.net/translate/ukkonens-suffix-tree-algorithm-in-plain-english

Aho-Corasick自动机浅析: https://segmentfault.com/a/1190000000484127

AC自动机算法: http://m.blog.csdn.net/article/details?id=7002823

从头到尾彻底理解KMP算法: http://www.ruanyifeng.com/blog/2013/05/Knuth%E2%80%93Morris%E2%80%93Pratt_algorithm.html

从头到尾彻底理解KMP算法: http://blog.csdn.net/v_july_v/article/details/7041827

本文作者 ： cyningsun
本文地址 ： https://www.cyningsun.com/04-10-2016/string-match.html
版权声明 ：本博客所有文章除特别声明外，均采用 CC BY-NC-ND 3.0 CN 许可协议。转载请注明出处！