如何高效分析是否包含屏蔽词? [ 未指定版本 ]
现在有一个屏蔽词列表,大约几千个词。假设有一个繁忙的社区,发帖量巨大,要求每发一篇文章就要快速分析是否包含屏蔽词,请给出解决方案。
大神们,请给出你们的解决方案。
共 1 个回答
-
这个事情 如果要做的很到位 很不容易 应该能算一个专业的课题了 :
舆情监控
最常见的 比如 : x你老m f(ck 等.... 随便变个花样 都很难搞
简而言之
如果只要求定位到关键词列表, 不用那么复杂 用php内置函数足矣
如果要求严格 做C扩展吧 要涉及很多复杂的算法 不简单 之前看过一篇介绍相关算法的文章 : http://www.cnblogs.com/sumtec/archive/2008/02/01/1061742.html
共 4 条回复word1018808441 回复于 2015-11-28 16:47 回复如果只是求定位到关键词列表,用php内置函数,能够处理非常频繁的几千个屏蔽词列表吗?
@word1018808441 既然是繁忙的社区, 估计帖子大多几十字, 甚至几个字, 几百上千字的估计少数 几千字的可能更少... 我觉得完全没问题
@word1018808441 我试了一下 长度1500的字符串 用
stripos
循环查10000次, 每次循环查找三个长度为10的词 总的执行时间只有 0.37秒左右 用正则大概是0.44秒左右word1018808441 回复于 2015-11-28 19:45 回复@500miles 恩,谢谢!我心里大概有底了。
luoxiao 觉得很赞
word1018808441 重庆
注册时间:2015-03-24
最后登录:2018-07-04
在线时长:629小时49分
最后登录:2018-07-04
在线时长:629小时49分
- 粉丝49
- 金钱7395
- 威望40
- 积分14085