绑定完请刷新页面
取消
刷新

分享好友

×
取消 复制
注意ES的默认排序和慎用_doc排序
2022-01-30 15:40:29

这两天遇到了一个坑,就是ES的默认排序,对于我们有时候直接把ES当数据库来玩的时候,往往返回的结果的_score都是0, 而ES默认的排序,恰恰就是按 _score的desc。

那么,在全部doc的_score 都是0分的时候,分页就会错乱,有时候出现在页的结果很可能会重复出现在第二页,第三页 (取决于当时shards 返回的结果的顺序。

好了,有些人会觉得,为了提高性能,又不care排序的顺序的话,可能会立刻想到用_doc排序。包括我也是这么想的,那么结果告诉你,这也是会有问题的。 我们先看看_doc的描述:

也就是说,我们简单理解,_doc 其实就是按照Lucene 文件结构的当时索引时的先后顺序,那么按道理它就是快的,可是,别忘了,ES是分布式的,也就是说,这里有很多个Lucene,这个_doc 在一个shard 里它是的,可是在ES集群则不然,比如一个doc1 在shard A 上是2 ,那么它的_doc就是2, 可是有可能doc5 在shard C上也是2,因此他们两个的_doc值是一样的,也就是说还是避免不了排序上的先后,只不过这种几率会减少了很多。

其实,_doc 仅用在scroll scan下是有意义的, 因为scroll的scan 是直接按Lucene全量导,而按Lucene的文件系统先后顺序来导是快的,在其他场景记得慎用。

那么想对不打分的文档做排序的话怎么办好呢,有人也会想到_id, 好的,_id其实是可以的,只不过,如果你想排序的话,可以考虑用 _uid去代替 _id,_id是不支持排序的,因为_id默认是not index的,而uid其实是一个 _type + _id的字符串。

作者:华安火车迷链接:https://www.jianshu.com/p/bdf98307d984来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
分享好友

分享这个小栈给你的朋友们,一起进步吧。

Elasticsearch
创建时间:2020-05-22 14:49:51
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。我们建立一个网站或应用程序,并要添加搜索功能,但是想要完成搜索工作的创建是非常困难的。我们希望搜索解决方案要运行速度快,我们希望能有一个零配置和一个完全免费的搜索模式,我们希望能够简单地使用JSON通过HTTP来索引数据,我们希望我们的搜索服务器始终可用,我们希望能够从一台开始并扩展到数百台,我们要实时搜索,我们要简单的多租户,我们希望建立一个云的解决方案。因此我们利用Elasticsearch来解决所有这些问题及可能出现的更多其它问题。
展开
订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅:虚拟交易,一经交易不退款;若特殊情况,可3日内客服咨询

• 专区发布评论属默认订阅所评论专区(除付费小栈外)

技术专家

查看更多
  • 栈栈
    专家
戳我,来吐槽~