KMP算法

title: KMP算法 id: 2b62eca118d9c07131c0c8e23dc5b31d tags: [] date: 2000/01/01 00:00:00 updated: 2023/03/04 19:29:12 isPublic: true --#|[分隔]|#--

KMP算法

适用场景

给定一个长字符串,再给定短字符串,判断这个长字符串是否包含短字符串。

当短字符串自己内部有小循环时,性能优化程度更大(比如ababcabcab等等)。

暴力解的方式

暴力解的话,时间复杂度为O(mn),m和n分别为长字符串和短字符串的字符数。

但实际上,短字符串本身,可能会局部重复自身,比如:

  • 长字符串:abababc

  • 短字符串:ababc

可以发现,按照暴力解法,会遍历长字符串,依次从每个字符开始,对比后面几位是否和段字符串完全一致。

let result = judge('abababc', 'ababc')
console.log(result)

// 判断方法
function judge(longStr, shortStr) {
  // 双层遍历, 一次对比
  for (let i = 0; i < longStr.length; i++) {
    for (let j = 0; j < shortStr.length; j++) {
      // 判断是否匹配相等
      if (longStr[i + j] === shortStr[j]) { // 相等,进一步判断
        if (j === shortStr.length - 1) { // 是否是 shortStr 的最后一个字符,也就是全相等了
          return true
        } else continue
      } else break // 不相等, 跳出当前循环
    }
  }
  return false
}

可以发现,两个字符串的前4个字符是全等的,但第5个字符不等,按照逻辑,内部for循环跳出,外部for循环的i加1,再开始依次对比,所以时间复杂度是O(mn)

KMP算法的具体思路

解析整理短字符串

先处理短字符串,找出其内部的小循环,比如ababc中,两个ab就形成了循环。

声明一个数组table,长度为短字符串的长度,然后遍历短字符串,给table对应位置设置上数字:

概括说明:table中,索引值为index的数字number,表示的是,短字符串的索引为index的字符,预计和它本身的索引值为number的那个字母是重复的。

详细举例说明:

  • table的索引值为 0 的一项的值为 0 :短字符串索引值为 0 的字母为 a ,预计和索引值为 0 的字母 a 相同

  • table的索引值为 1 的一项的值为 0 :短字符串索引值为 1 的字母为 b ,预计和索引值为 0 的字母 a 相同

  • table的索引值为 2 的一项的值为 0 :短字符串索引值为 2 的字母为 a ,预计和索引值为 0 的字母 a 相同

  • table的索引值为 3 的一项的值为 1 :短字符串索引值为 3 的字母为 b ,预计和索引值为 1 的字母 b 相同

  • table的索引值为 4 的一项的值为 2 :短字符串索引值为 4 的字母为 c ,预计和索引值为 2 的字母 a 相同

遍历长字符串对比时,对算法进行调整

之前遍历长字符串对比的思路是:从长字符串的每一项开始,往后依次和短字符串进行全等比较(可查看上面的暴力解的代码示例)

现在的思路需要调整:

  • 长字符串从 i = 0 开始,短字符串从 j = 0 开始,结束条件是长字符串被遍历完

  • 依次对比 长字符串[i]短字符串[j]

  • 如果相等,就 ++i++j,循环再次判断,直到把短字符串遍历完,则说明有全重复的了,可以记录下来 i 的值,再把 j = 0,再继续循环

  • 如果不相等,则判断 j 是否等于 0

    • j === 0,则 ++i,继续循环

    • j !== 0,则设置 j = table[j]关键),并继续循环

这里整体完成后,能拿到若干个开始重复的索引值,这样的索引值有几个,就说明有几个循环。

这里对上面的关键进行说明,不一定能明白,最好是打开代码,用脑编译,跟着流程一步步走一走:

j === 0,说明当前对比就是短字符串的第 1 个字符,第一个字符就不一样,那就可以 ++i,继续下一次循环了

j !== 0,说明当前对比的是短字符串中间的某个字符,而短字符串有可能是内部循环的,是否循环我们已经有记录了,就在 table 中,table[j] 就是记录当前这个字符,和前面的索引值为几的字符是重复的。

虽然是预计重复,但不一定真重复,所以 j = table[j] 后,i 的值不变就再去循环判断

只要 table[j] !== 0,就说明当前字符,是处在一个短字符串的内部循环中的。

既然 j 能走到这个值,说明短字符串的前面几位,和长字符串最近几位是全等的,那说明长字符串的这部分,也是和短字符串一样是内部循环的。

如下所示,长字符串和短字符串的前 4 位相同,但第 5 位的红字 ac 不相同(github不支持行内样式,看不到颜色):

长字符串:abababc

短字符串:ababc

table 的值为:[0, 0, 0, 1, 2]

此时 i === j === 4 ,设置 j = table[j],则 j === table[4] === 2,在按照逻辑去循环(此时 i === 4, j === 2),对比变成了如下所示:

长字符串:abababc

短字符串:ababc

也就是舍弃了长字符串的前两位,从第3为开始对比,短字符串则认为只对比到了第 3 位。

长字符串的第 5 位,和短字符串的第 3 位的红色的字符都为 a,预计的相等真的相等了,可以把 a 标绿。

就这样,长字符串从第三位开始、短字符串从第一位开始,继续对比了。

当然,如果此时红字处的双方仍然不等,按照上面的逻辑,需要设置 j = table[j],也就是 j === table[2] === 0,相当于把 j 归零了,也就是重头开始对比短字符串,逻辑也是正确的。

代码实现

Last updated

Was this helpful?