Go 语言实现敏感词检测（前缀树）

2022-10-29 16:10

一、前言

大家都知道游戏文字、文章等一些风控场景都实现了敏感词检测，一些敏感词会被屏蔽掉或者文章无法发布。今天我就分享用Go实现敏感词前缀树来达到文本的敏感词检测，让我们一探究竟！

二、敏感词检测

实现敏感词检测都很多种方法，例如暴力、正则、前缀树等。例如一个游戏的文字交流的场景，敏感词会被和谐成 * ，该如何实现呢？首先我们先准备一些敏感词如下：

sensitiveWords := []string{
   "傻逼",
   "傻叉",
   "垃圾",
   "妈的",
   "sb",
}

由于文章审核原因敏感词就换成别的了，大家能理解意思就行。

当在游戏中输入 什么垃圾打野，傻逼一样，叫你来开龙不来，sb， 该如何检测其中的敏感词并和谐掉

暴力匹配

sensitiveWords := []string{
   "傻逼",
   "傻叉",
   "垃圾",
   "妈的",
   "sb",
}
text := "什么垃圾打野，傻逼一样，叫你来开龙不来，sb"

for _, word := range sensitiveWords {
   text = strings.Replace(text, word, "*", -1)
}

println("text -> ", text)

这样采用的Go的内置的字符串替换的方法来进行暴力替换结果如下：

text ->  什么*打野，*一样，叫你来开龙不来，*

但暴力替换的时间复杂度太高了O（N^2），不建议这样，而且和谐的字符只有一个 *，感觉像屏蔽了一个字一样，因此改造一下并引出go中的 rune 类型。

sensitiveWords := []string{
   "傻逼",
   "傻叉",
   "垃圾",
   "妈的",
   "sb",
}
text := "什么垃&圾打野，傻&逼一样，叫你来开龙不来，s&b"

for _, word := range sensitiveWords {
   replaceChar := ""
   for i, wordLen := 0, len(word); i < wordLen; i++ {
      // 根据敏感词的长度构造和谐字符
      replaceChar += "*"
   }
   text = strings.Replace(text, word, replaceChar, -1)
}

println("text -> ", text)


>>>out
text ->  什么******打野，******一样，叫你来开龙不来，**

为什么中文的和谐字符多了这么*？

因为Go中默认采用utf-8来进行中文字符编码，因此一个中文字符要占3个字节

因此引出 Go 中的 rune 类型，它可以代表一个字符编码的int32的表现形式，就是说一个字符用一个数字唯一标识。有点像 ASCII 码一样 a => 97， A => 65

源码解释如下
// rune is an alias for int32 and is equivalent to int32 in all ways. It is used, by convention, to distinguish character values from integer values.
type rune = int32

fmt.Println("a -> ", rune('a'))
fmt.Println("A -> ", rune('A'))

fmt.Println("晖 -> ", rune('晖'))
fmt.Println("霞 -> ", rune('霞'))

fmt.Println("晖霞 -> ", []rune("晖霞"))

>>>out
a ->  97
A ->  65                                               
晖 ->  26198                                           
霞 ->  38686                                           
晖霞 ->  [26198 38686]

因此将敏感词字符串转换成rune类型的数组然后来计算其字符个数

sensitiveWords := []string{
   "傻逼",
   "傻叉",
   "垃圾",
   "妈的",
   "sb",
}
text := "什么垃圾打野，傻逼一样，叫你来开龙不来，sb"

for _, word := range sensitiveWords {
   replaceChar := ""

   for i, wordLen := 0, len([]rune(word)); i < wordLen; i++ {
      // 根据敏感词的长度构造和谐字符
      replaceChar += "*"
   }
   text = strings.Replace(text, word, replaceChar, -1)
}

println("text -> ", text)


>>>out
text ->  什么**打野，**一样，叫你来开龙不来，**

正则匹配

// 正则匹配
func regDemo() {
   sensitiveWords := []string{
      "傻逼",
      "傻叉",
      "垃圾",
      "妈的",
      "sb",
   }
   text := "什么垃圾打野，傻逼一样，叫你来开龙不来，sb"

   // 构造正则匹配字符
   regStr := strings.Join(sensitiveWords, "|")
   println("regStr -> ", regStr)
   wordReg := regexp.MustCompile(regStr)
   text = wordReg.ReplaceAllString(text, "*")

   println("text -> ", text)
}


>>>out
regStr ->  傻逼|傻叉|垃圾|妈的|sb           
text   ->  什么*打野，*一样，叫你来开龙不来，*

再优化下：

// 正则匹配敏感词
func regDemo(sensitiveWords []string, matchContents []string) {

   banWords := make([]string, 0) // 收集匹配到的敏感词

   // 构造正则匹配字符
   regStr := strings.Join(sensitiveWords, "|")
   wordReg := regexp.MustCompile(regStr)
   println("regStr -> ", regStr)

   for _, text := range matchContents {
      textBytes := wordReg.ReplaceAllFunc([]byte(text), func(bytes []byte) []byte {
         banWords = append(banWords, string(bytes))
         textRunes := []rune(string(bytes))
         replaceBytes := make([]byte, 0)
         for i, runeLen := 0, len(textRunes); i < runeLen; i++ {
            replaceBytes = append(replaceBytes, byte('*'))
         }
         return replaceBytes
      })
      fmt.Println("srcText        -> ", text)
      fmt.Println("replaceText    -> ", string(textBytes))
      fmt.Println("sensitiveWords -> ", banWords)
   }
}

func main() {
   sensitiveWords := []string{
      "傻逼",
      "傻叉",
      "垃圾",
      "妈的",
      "sb",
   }
   matchContents := []string{
      "什么垃圾打野，傻逼一样，叫你来开龙不来，sb",
   }

   regDemo(sensitiveWords, matchContents)

}

>>>out
regStr ->  傻逼|傻叉|垃圾|妈的|sb                            
srcText        ->  什么垃圾打野，傻逼一样，叫你来开龙不来，sb
replaceText    ->  什么**打野，**一样，叫你来开龙不来，**    
sensitiveWords ->  [垃圾 傻逼 sb]

这里是通过敏感词去构造正则表达式然后再去匹配。

本文重点是使用Go实现前缀树完成敏感词的匹配，具体细节都在这里实现。

三、Go 语言实现敏感词前缀树

前缀树结构

前缀树、也称字典树（Trie），是N叉树的一种特殊形式，前缀树的每一个节点代表一个字符串（前缀）。每一个节点会有多个子节点，通往不同子节点的路径上有着不同的字符。子节点代表的字符串是由节点本身的原始字符串，以及通往该子节点路径上所有的字符组成的。

如上图所示，就是一颗前缀树，注意前缀树的根节点不存数据。那么我们该如何表示一颗前缀树呢？

可以参考一下二叉树的节点结构

type BinTreeNode struct {
   Val        string
   LeftChild  *BinTreeNode
   RightChild *BinTreeNode
}

二叉树，一个节点最多只能有两个孩子节点，非常明确，而前缀是一颗多叉树，一个节点不确定有多少子节点，因此可以用 切片Slice、Map 来存储子节点，然后一般会设置标志位 End 来标识是否是字符串的最后一个节点。结构如下

// TrieNode 敏感词前缀树节点
type TrieNode struct {
   childMap map[rune]*TrieNode // 本节点下的所有子节点
   Data     string             // 在最后一个节点保存完整的一个内容
   End      bool               // 标识是否最后一个节点
}

这里采用 Map 来存储子节点，更方便找字节点。key是rune类型（字符），value是子节点。Data则是在最后一个节点保存完整的一个内容。

// SensitiveTrie 敏感词前缀树
type SensitiveTrie struct {
   replaceChar rune // 敏感词替换的字符
   root        *TrieNode
}

这里再用另一个结构体来代表整个敏感词前缀树。

添加敏感词

添加敏感词用于构造一颗敏感词前缀树。

相对每个节点来说 childMap 都是保存相同前缀字符的子节点

// AddChild 前缀树添加
func (tn *TrieNode) AddChild(c rune) *TrieNode {

   if tn.childMap == nil {
      tn.childMap = make(map[rune]*TrieNode)
   }

   if trieNode, ok := tn.childMap[c]; ok {
      // 存在不添加了
      return trieNode
   } else {
      // 不存在
      tn.childMap[c] = &TrieNode{
         childMap: nil,
         End:      false,
      }
      return tn.childMap[c]
   }
}

敏感词前缀树则是一个完整的敏感词的粒度来添加

// AddWord 添加敏感词
func (st *SensitiveTrie) AddWord(sensitiveWord string) {
   // 将敏感词转换成rune类型(int32)
   tireNode := st.root
   sensitiveChars := []rune(sensitiveWord)
   for _, charInt := range sensitiveChars {
      // 添加敏感词到前缀树中
      tireNode = tireNode.AddChild(charInt)
   }
   tireNode.End = true
   tireNode.Data = sensitiveWord
}

具体是把敏感词转换成 []rune 类型来代表敏感词中的一个个字符，添加完后再将最后一个字符节点的End设置True，Data为完整的敏感词数据。

可能这样还不好理解，举个例子：

// SensitiveTrie 敏感词前缀树
type SensitiveTrie struct {
   replaceChar rune // 敏感词替换的字符
   root        *TrieNode
}

// TrieNode 敏感词前缀树节点
type TrieNode struct {
   childMap map[rune]*TrieNode // 本节点下的所有子节点
   Data     string             // 在最后一个节点保存完整的一个内容
   End      bool               // 标识是否最后一个节点
}

// NewSensitiveTrie 构造敏感词前缀树实例
func NewSensitiveTrie() *SensitiveTrie {
   return &SensitiveTrie{
      replaceChar: '*',
      root:        &TrieNode{End: false},
   }
}

// AddWord 添加敏感词
func (st *SensitiveTrie) AddWord(sensitiveWord string) {

   // 将敏感词转换成utf-8编码后的rune类型(int32)
   tireNode := st.root
   sensitiveChars := []rune(sensitiveWord)
   for _, charInt := range sensitiveChars {
      // 添加敏感词到前缀树中
      tireNode = tireNode.AddChild(charInt)
   }
   tireNode.End = true
   tireNode.Data = sensitiveWord
}

// AddChild 前缀树添加子节点
func (tn *TrieNode) AddChild(c rune) *TrieNode {

   if tn.childMap == nil {
      tn.childMap = make(map[rune]*TrieNode)
   }

   if trieNode, ok := tn.childMap[c]; ok {
      // 存在不添加了
      return trieNode
   } else {
      // 不存在
      tn.childMap[c] = &TrieNode{
         childMap: nil,
         End:      false,
      }
      return tn.childMap[c]
   }
}

func main() {
    sensitiveWords := []string{
       "傻逼",
       "傻叉",
       "垃圾",
    }
    
    st := NewSensitiveTrie()
    for _, word := range sensitiveWords {
       fmt.Println(word, []rune(word))
       st.AddWord(word)
    }
}

>>>out
傻逼 [20667 36924]
傻叉 [20667 21449]
垃圾 [22403 22334]

添加前两个敏感词傻逼、傻叉，有一个共同的前缀 傻、rune-> 200667

前缀的root是没有孩子节点，添加第一个敏感词时先转换成 []rune（可以想象成字符数组）
遍历rune字符数组，先判断有没有孩子节点（一开始root是没有的），没有就先构造，然后把 傻（200667） 存到 childMap中 key 为傻(200667)，value 为 TrieNode 但没有任何数据然后返回当前新增的节点

TrieNode{
    childMap: nil
    End:      false,
}

此时添加 逼（36924） ，同样做2的步骤，傻逼这个敏感词添加完成走出for循环，然后将End=true、Data=傻逼。

添加第二个敏感词傻叉的时候又是从根节点开始，此时root有childMap，也存在傻（20667）节点，则是直接不添加把傻（20667）节点返回，然后再此节点上继续添加叉（21449），不存在添加到傻节点的childMap中。

添加第三个敏感词垃圾，又从根节点开始，垃（22403） ，根节点不存在该子节点，故添加到根节点的childMap中，然后返回新增的垃（22403）节点
在垃节点基础上添加 圾（22334） 节点，不存在子节点则添加并返回。

由此一颗敏感词前缀树就构造出来了。

总结：添加敏感词字符节点存在不添加返回存在的节点，不存在添加新字符节点并返回新添节点，当敏感词的所有字符都添加完毕后，让最后一个节点，End=true，存储一个完整的敏感词。

匹配敏感词

将待匹配的内容转换成 []rune 类型，然后遍历寻找前缀树种第一个匹对的前缀节点，然后从后一个位置继续，直到完整匹配到了敏感词，将匹配文本的敏感词替换成 *

// FindChild 前缀树寻找字节点
func (tn *TrieNode) FindChild(c rune) *TrieNode {
   if tn.childMap == nil {
      return nil
   }

   if trieNode, ok := tn.childMap[c]; ok {
      return trieNode
   }
   return nil
}

// replaceRune 字符替换
func (st *SensitiveTrie) replaceRune(chars []rune, begin int, end int) {
   for i := begin; i < end; i++ {
      chars[i] = st.replaceChar
   }
}

// Match 查找替换发现的敏感词
func (st *SensitiveTrie) Match(text string) (sensitiveWords []string, replaceText string) {
   if st.root == nil {
      return nil, text
   }
   
   textChars := []rune(text)
   textCharsCopy := make([]rune, len(textChars))
   copy(textCharsCopy, textChars)
   for i, textLen := 0, len(textChars); i < textLen; i++ {
      trieNode := st.root.FindChild(textChars[i])
      if trieNode == nil {
         continue
      }

      // 匹配到了敏感词的前缀，从后一个位置继续
      j := i + 1
      for ; j < textLen && trieNode != nil; j++ {
         if trieNode.End {
            // 完整匹配到了敏感词，将匹配的文本的敏感词替换成 *
            st.replaceRune(textCharsCopy, i, j)
         }
         trieNode = trieNode.FindChild(textChars[j])
      }

      // 文本尾部命中敏感词情况
      if j == textLen && trieNode != nil && trieNode.End {
         if _, ok := sensitiveMap[trieNode.Data]; !ok {
            sensitiveWords = append(sensitiveWords, trieNode.Data)
         }
         sensitiveMap[trieNode.Data] = nil
         st.replaceRune(textCharsCopy, i, textLen)
      }
   }

   if len(sensitiveWords) > 0 {
      // 有敏感词
      replaceText = string(textCharsCopy)
   } else {
      // 没有则返回原来的文本
      replaceText = text
   }

   return sensitiveWords, replaceText
}

这样需要注意的是在内容的末尾匹配到了的敏感词处理，因为j+1后，会等于textLen的从而不进入for循环从而没有处理末尾，因此需要特殊处理下末尾情况。具体测试如下

// AddWords 批量添加敏感词
func (st *SensitiveTrie) AddWords(sensitiveWords []string) {
   for _, sensitiveWord := range sensitiveWords {
      st.AddWord(sensitiveWord)
   }
}

// 前缀树匹配敏感词
func trieDemo(sensitiveWords []string, matchContents []string) {

   trie := NewSensitiveTrie()
   trie.AddWords(sensitiveWords)

   for _, srcText := range matchContents {
      matchSensitiveWords, replaceText := trie.Match(srcText)
      fmt.Println("srcText        -> ", srcText)
      fmt.Println("replaceText    -> ", replaceText)
      fmt.Println("sensitiveWords -> ", matchSensitiveWords)
      fmt.Println()
   }

   // 动态添加
   trie.AddWord("牛大大")
   content := "今天，牛大大去挑战灰大大了"
   matchSensitiveWords, replaceText := trie.Match(content)
   fmt.Println("srcText        -> ", content)
   fmt.Println("replaceText    -> ", replaceText)
   fmt.Println("sensitiveWords -> ", matchSensitiveWords)
}


func main() {
   sensitiveWords := []string{
      "傻逼",
      "傻叉",
      "垃圾",
      "妈的",
      "sb",
   }
   matchContents := []string{
      "你是一个大傻逼，大傻叉",
      "你是傻☺叉",
      "shabi东西",
      "他made东西",
      "什么垃圾打野，傻逼一样，叫你来开龙不来，SB",
      "正常的内容☺",
   }

   //fmt.Println("--------- 普通暴力匹配敏感词 ---------")
   //normalDemo(sensitiveWords, matchContents)
   //
   //fmt.Println("\n--------- 正则匹配敏感词 ---------")
   //regDemo(sensitiveWords, matchContents)

   fmt.Println("\n--------- 前缀树匹配敏感词 ---------")
   trieDemo(sensitiveWords, matchContents)

}

结果如下：

--------- 前缀树匹配敏感词 ---------
srcText        ->  你是一个大傻&逼，大傻 叉
replaceText    ->  你是一个大傻&逼，大傻 叉
sensitiveWords ->  []

srcText        ->  你是傻☺叉
replaceText    ->  你是傻☺叉
sensitiveWords ->  []

srcText        ->  shabi东西
replaceText    ->  shabi东西
sensitiveWords ->  []

srcText        ->  他made东西
replaceText    ->  他made东西
sensitiveWords ->  []

srcText        ->  什么垃 圾打野，傻 逼一样，叫你来开龙不来，傻 逼东西，S B
replaceText    ->  什么**打野，**一样，叫你来开龙不来，**
sensitiveWords ->  [垃圾 傻逼]

srcText        ->  正常的内容☺
replaceText    ->  正常的内容☺
sensitiveWords ->  []

过滤特殊字符

可以发现在敏感词内容的中间添加一些空格、字符、表情都不能正确的在前缀树中匹配到。因此我们在进行匹配的时候应该过滤一些特殊的字符，只保留汉字、数字、字母，然后全部以小写来进行匹配。

// FilterSpecialChar 过滤特殊字符
func (st *SensitiveTrie) FilterSpecialChar(text string) string {
   text = strings.ToLower(text)
   text = strings.Replace(text, " ", "", -1) // 去除空格

   // 过滤除中英文及数字以外的其他字符
   otherCharReg := regexp.MustCompile("[^\u4e00-\u9fa5a-zA-Z0-9]")
   text = otherCharReg.ReplaceAllString(text, "")
   return text
}

感觉这里去除空格是多余的步骤，正则以已经帮你排除了。

\u4e00-\u9fa5a 代表所有的中文
a-zA-Z 代表大小写字母
0-9 数字
连起来在最前面加上一个 ^ 就是进行一个取反

添加拼音检测

最后就是添加中文的拼音检测，让输入的拼音也能正确的匹配到，拼音检测是把我们的敏感词转换成拼音然后添加到前缀树中。

实现中文转拼音可以用别人造好的轮子

go get github.com/chain-zhang/pinyin

查看源码整体的思路就是用文件把文字的rune和拼音对应上，具体细节自行查看

测试一下

// HansCovertPinyin 中文汉字转拼音
func HansCovertPinyin(contents []string) []string {
   pinyinContents := make([]string, 0)
   for _, content := range contents {
      chineseReg := regexp.MustCompile("[\u4e00-\u9fa5]")
      if !chineseReg.Match([]byte(content)) {
         continue
      }

      // 只有中文才转
      pin := pinyin.New(content)
      pinStr, err := pin.Convert()
      println(content, "->", pinStr)
      if err == nil {
         pinyinContents = append(pinyinContents, pinStr)
      }
   }
   return pinyinContents
}

func main() {
   sensitiveWords := []string{
      "傻逼",
      "傻叉",
      "垃圾",
      "妈的",
      "sb",
   }
   
   // 汉字转拼音
   pinyinContents := HansCovertPinyin(sensitiveWords)
   fmt.Println(pinyinContents)
 }
 
 
 >>>out
傻逼 -> sha bi                             
傻叉 -> sha cha                            
垃圾 -> la ji                              
妈的 -> ma de                              
[sha bi sha cha la ji ma de]

然后再测试敏感词匹配的效果

// Match 查找替换发现的敏感词
func (st *SensitiveTrie) Match(text string) (sensitiveWords []string, replaceText string) {
   if st.root == nil {
      return nil, text
   }

   // 过滤特殊字符
   filteredText := st.FilterSpecialChar(text)
   sensitiveMap := make(map[string]*struct{}) // 利用map把相同的敏感词去重
   textChars := []rune(filteredText)
   textCharsCopy := make([]rune, len(textChars))
   copy(textCharsCopy, textChars)
   for i, textLen := 0, len(textChars); i < textLen; i++ {
     ...
   }

   if len(sensitiveWords) > 0 {
      // 有敏感词
      replaceText = string(textCharsCopy)
   } else {
      // 没有则返回原来的文本
      replaceText = text
   }

   return sensitiveWords, replaceText
}

// 前缀树匹配敏感词
func trieDemo(sensitiveWords []string, matchContents []string) {

   // 汉字转拼音
   pinyinContents := HansCovertPinyin(sensitiveWords)
   fmt.Println(pinyinContents)

   trie := NewSensitiveTrie()
   trie.AddWords(sensitiveWords)
   trie.AddWords(pinyinContents) // 添加拼音敏感词

   for _, srcText := range matchContents {
      matchSensitiveWords, replaceText := trie.Match(srcText)
      fmt.Println("srcText        -> ", srcText)
      fmt.Println("replaceText    -> ", replaceText)
      fmt.Println("sensitiveWords -> ", matchSensitiveWords)
      fmt.Println()
   }

   // 动态添加
   trie.AddWord("牛大大")
   content := "今天，牛大大去挑战灰大大了"
   matchSensitiveWords, replaceText := trie.Match(content)
   fmt.Println("srcText        -> ", content)
   fmt.Println("replaceText    -> ", replaceText)
   fmt.Println("sensitiveWords -> ", matchSensitiveWords)
}

func main() {
   sensitiveWords := []string{
      "傻逼",
      "傻叉",
      "垃圾",
      "妈的",
      "sb",
   }

   matchContents := []string{
      "你是一个大傻逼，大傻叉",
      "你是傻☺叉",
      "shabi东西",
      "他made东西",
      "什么垃 圾打野，傻逼一样，叫你来开龙不来，SB",
      "正常的内容☺",
   }

   fmt.Println("\n--------- 前缀树匹配敏感词 ---------")
   trieDemo(sensitiveWords, matchContents)

}

结果如下：

--------- 前缀树匹配敏感词 ---------
srcText        ->  你是一个大傻逼，大傻叉                  
replaceText    ->  你是一个大**大**                          
sensitiveWords ->  [傻逼 傻叉]                               
                                                             
srcText        ->  你是傻☺叉                                 
replaceText    ->  你是**                                    
sensitiveWords ->  [傻叉]                                    
                                                             
srcText        ->  shabi东西                                 
replaceText    ->  *****东西                                 
sensitiveWords ->  [shabi]                                   
                                                             
srcText        ->  他made东西                                
replaceText    ->  他****东西                                
sensitiveWords ->  [made]                                    
                                                             
srcText        ->  什么垃圾打野，傻逼一样，叫你来开龙不来，SB
replaceText    ->  什么**打野**一样叫你来开龙不来**          
sensitiveWords ->  [垃圾 傻逼 sb]                            
                                                             
srcText        ->  正常的内容☺                               
replaceText    ->  正常的内容☺                               
sensitiveWords ->  []                                        

srcText        ->  今天，牛大大挑战灰大大
replaceText    ->  今天***挑战灰大大
sensitiveWords ->  [牛大大]