加入收藏 | 设为首页 | 会员中心 | 我要投稿 北几岛 (https://www.beijidao.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

php – 如何在最大的数据库中查找类似的消息

发布时间:2021-08-28 03:43:27 所属栏目:大数据 来源: https://www.jb51.cc
导读:我有一个包含2.000.000条消息的数据库.当用户收到消息时,我需要根据单词的出现在我的数据库中查找相关消息. 我曾尝试运行批处理来汇总我的数据库: 1 – 存储所有消息的所有单词(a,a,the,for …除外). 2 – 在所有消息和其中包含的单词之间建立关联(我还会在

我有一个包含2.000.000条消息的数据库.当用户收到消息时,我需要根据单词的出现在我的数据库中查找相关消息.

我曾尝试运行批处理来汇总我的数据库:
1 – 存储所有消息的所有单词(a,a,the,for …除外).
2 – 在所有消息和其中包含的单词之间建立关联(我还会在消息中显示该单词的频率.)

然后,当我收到一条消息时:
1 – 我解析单词(看起来像我的批处理的第一步.)
2 – 在数据库中执行查询以获取按重合字数排序的消息.

但是,更新我的单词库和查询以获取类似消息的过程非常繁重和缓慢.对于3000字节的消息,字基更新持续~1.2111秒.对于具有相同大小的消息,查询类似消息持续约9.8秒.

数据库调优已经完成,代码工作正常.

我需要一个更好的算法来做到这一点.

有任何想法吗?

解决方法:

我建议使用设置Apache Solr(http://lucene.apache.org/solr/).设置和索引数百万个文档非常容易. Solr处理所有必要的优化(虽然它是开源的,所以你可以调整它,如果你觉得你需要).

然后,您可以使用可用的API进行查询,我更喜欢Java API SolrJ(http://wiki.apache.org/solr/Solrj).我通常会在一秒钟内看到返回的结果.

Solr通常优于MySQL进行文本索引.

(编辑:北几岛)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读