elasticsearch集群搭建及参数详解

2022-01-04 17:05:07

介绍

elasticsearch集群的搭建教程很多。网上一搜都是，但是，搭建不难。更重要的是明白集群原理，性能以及运维知识点。所以，本文将从这些点着重介绍。

配置参数详解

在elasticsearch配置文件中有以下这些参数，将逐一介绍(其实配置文件中英文描述已经非常清楚)：

cluster.name 集群名，自定义集群名，默认为elasticsearch，建议修改，因为低版本多播模式下同一网段下相同集群名会自动加入同一集群，如生产环境这样易造成数据运维紊乱。
node.name 节点名，同一集群下要求每个节点的节点名不一致，起到区分节点和辨认节点作用
node.master 是否为主节点，选项为true或false，当为true时在集群启动时该节点为主节点，在宕机或任务挂掉之后会选举新的主节点，恢复后该节点依然为主节点
node.data 是否处理数据，选项为true或false。负责数据的相关操作
path.data 默认数据路径，可用逗号分隔多个路径
path.logs 默认日志路径
bootstrap.mlockall 内存锁，选项为true或false，用来确保用户在es-jvm中设置的ES_HEAP_SIZE参数内存可以使用一半以上而又不溢出
network.host 对外暴露的host，0.0.0.0时暴露给外网
http.port 对外访问的端口号，默认为9200，所以外界访问该节点一般为http://ip:9200/
transport.tcp.port 集群间通信的端口号，默认为9300
discovery.zen.ping.unicast.hosts 集群的ip集合，可指定端口，默认为9300，如 ["192.168.1.101","192.168.1.102"]
discovery.zen.minimum_master_nodes 少的主节点个数，为了防止脑裂，好设置为(总结点数/2 + 1)个
discovery.zen.ping_timeout 主节点选举超时时间设置
gateway.recover_after_nodes 值为n，网关控制在n个节点启动之后才恢复整个集群
node.max_local_storage_nodes 值为n，一个系统中多启用节点个数为n
action.destructive_requires_name 选项为true或false，删除indices是否需要现实名字

理解主节点、副节点、分片与复制分片

关系

起初创建节点与分片的关系，设置shards=2,replicas=1

elasticsearch节点与分片的关系图.png

解析

node-master主节点集群中用于元数据(metadata)的请求处理，比如确定分片位置，索引的新增、删除请求分配等
node 包括client node和 data node

1. `client node` node.master=true,node.data=false 用于转发请求，起到平衡负载的作用
2. `data node` node.master=flase,node.data=true
> 节点上保存了数据分片。它负责数据相关操作，比如分片的 CRUD，以及搜索和整合操作。这些操作都比较消耗 CPU、内存和 I/O 资源

shards 分片在设置索引时默认(5)或自己设置的分片数量，即indices(1)--shards(n)，而每插入一条数据都会在主分片中，即Document(n)--shards(1)
replicas 复制分片同样在设置索引时会默认(1)或自定义复制分片数量，该数量对应关系为每个主分片对应的复制分片，即shards(1)--replicas(n)

要点

当集群健康状态为yello表示存在复制分片未被分配(unassigned)到节点中（或者分配的复制节点个数少于设置的个数）,这时如果硬件有故障将无法找回数据。
在同一个节点上既保存原始数据又保存副本是没有意义的，因为一旦失去了那个节点，我们也将丢失该节点上的所有副本数据。
主分片数量一般是在建立索引时就固定的，一般是不作修改的，如果减少分片数量意味着数据将要丢失
复制分片一定意义上可以起到负载的功能，提高数据的冗余量。但如果只是在相同节点数目的集群上增加更多的副本分片并不能提高性能，因为每个分片从节点上获得的资源会变少。你需要增加更多的硬件资源来提升吞吐量

节点与分片模型

同样设置shards=2,replicas=1

elasticsearch节点与分片可分配关系图.png

elasticsearch节点与分片正常存储关系图.png

分布式文档存储的关系原理

这个由于在官网指南中写的很清楚了，直接贴出章节。分布式文档存储

集群搭建

配置集群

修改配置文件

# vi /etc/elasticsearch/elasticsearch.yml

# 统一的集群名
cluster.name: syncwt-es
# 当前节点名
node.name: syncwt-es-node-1
# 对外暴露端口使外网访问
network.host: 0.0.0.0
# 对外暴露端口
http.port: 9200
# ...还有很多可以设置，这些是基础的。具体看上面的配置参数说明

重启并查看集群健康状态：

# sudo systemctl start elasticsearch.service
# curl -XGET 'http://localhost:9200/_cat/health?v'

集群可视化插件安装elasticsearch-head

# cd ${elasticsearch_HOME}
# ./plugin install mobz/elasticsearch-head

页面访问效果(单节点)： http://119.29.248.199:9200/_plugin/head/

elasticsearch_head效果图.png

注意

集群中es的版本应保持一致，好内网部署，外网不是很稳定。
可用容器(如docker)封装统一部署集群各节点以保持配置一致性
可在一台机器上运行多个节点来构建集群，只是性能会和机器配置相关

总结

集群中节点选型策略。node-data节点(随着数据增加而增加)，note-client(随着查询压力而增加)节点
集群节点数量上升时，多关注配置参数，如gateway.recover_after_nodes等，会带来很多效率的提高
当集群数量较大时，建议横向扩展集群。单纯增加es节点的内存和CPU不会有很大提升，建议多增加节点

作者：syncwt链接：https://www.jianshu.com/p/149a8da90bbc来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

分享好友

分享这个小栈给你的朋友们，一起进步吧。

Elasticsearch

创建时间：2020-05-22 14:49:51

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。我们建立一个网站或应用程序，并要添加搜索功能，但是想要完成搜索工作的创建是非常困难的。我们希望搜索解决方案要运行速度快，我们希望能有一个零配置和一个完全免费的搜索模式，我们希望能够简单地使用JSON通过HTTP来索引数据，我们希望我们的搜索服务器始终可用，我们希望能够从一台开始并扩展到数百台，我们要实时搜索，我们要简单的多租户，我们希望建立一个云的解决方案。因此我们利用Elasticsearch来解决所有这些问题及可能出现的更多其它问题。

展开

订阅须知

• 所有用户可根据关注领域订阅专区或所有专区

• 付费订阅：虚拟交易，一经交易不退款；若特殊情况，可3日内客服咨询

• 专区发布评论属默认订阅所评论专区（除付费小栈外）

技术专家

查看更多

栈栈
专家