php – 如何在最大的数据库中查找类似的消息

发布时间：2021-08-28 03:43:27 所属栏目：大数据来源： https://www.jb51.cc

导读：我有一个包含2.000.000条消息的数据库.当用户收到消息时,我需要根据单词的出现在我的数据库中查找相关消息. 我曾尝试运行批处理来汇总我的数据库： 1 – 存储所有消息的所有单词(a,a,the,for …除外). 2 – 在所有消息和其中包含的单词之间建立关联(我还会在

我有一个包含2.000.000条消息的数据库.当用户收到消息时,我需要根据单词的出现在我的数据库中查找相关消息.

我曾尝试运行批处理来汇总我的数据库：
1 – 存储所有消息的所有单词(a,a,the,for …除外).
2 – 在所有消息和其中包含的单词之间建立关联(我还会在消息中显示该单词的频率.)

然后,当我收到一条消息时：
1 – 我解析单词(看起来像我的批处理的第一步.)
2 – 在数据库中执行查询以获取按重合字数排序的消息.

但是,更新我的单词库和查询以获取类似消息的过程非常繁重和缓慢.对于3000字节的消息,字基更新持续~1.2111秒.对于具有相同大小的消息,查询类似消息持续约9.8秒.

数据库调优已经完成,代码工作正常.

我需要一个更好的算法来做到这一点.

有任何想法吗？

解决方法:

我建议使用设置Apache Solr(http://lucene.apache.org/solr/).设置和索引数百万个文档非常容易. Solr处理所有必要的优化(虽然它是开源的,所以你可以调整它,如果你觉得你需要).

然后,您可以使用可用的API进行查询,我更喜欢Java API SolrJ(http://wiki.apache.org/solr/Solrj).我通常会在一秒钟内看到返回的结果.

Solr通常优于MySQL进行文本索引.

（编辑：北几岛）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!