Elasticsearch是一款非常强大的开源搜索引擎,具备非常多强大功能,可以帮助用户从海量数据中快速找到需要的内容。例如:在GitHub搜索代码、在百度搜索问题的答案、在打车软件搜索附近的车。
elasticsearch结合kibana、Logstash、Beats,也就是elastic stack(ELK)。被广泛应用在日志数据分析、实时监控等领域:
而elasticsearch是elastic stack的核心,负责存储、搜索、分析数据。
elasticsearch底层是基于lucene来实现的。
Lucene是一个Java语言的搜索引擎类库,是Apache公司的顶级项目,由DougCutting于1999年研发。是Apache的开源搜索引擎类库,提供了搜索引擎的核心API。
官网地址:https://lucene.apache.org/
elasticsearch的发展历史:
官网地址: https://www.elastic.co/cn/
倒排索引的概念是基于MySQL这样的正向索引而言的。
那么什么是正向索引呢?例如给下表(tb_goods)中的id创建索引:
如果是根据id查询,那么直接走索引,查询速度非常快。
但如果是基于title做模糊查询,只能是逐行扫描数据,流程如下:
1)用户搜索数据,条件是title符合"%手机%"。
2)逐行获取数据,比如id为1的数据。
3)判断数据中的title是否符合用户搜索条件。
4)如果符合则放入结果集,不符合则丢弃。回到步骤1。
逐行扫描,也就是全表扫描,随着数据量增加,其查询效率也会越来越低。当数据量达到数百万时,就是一场灾难。
倒排索引中有两个非常重要的概念:
创建倒排索引是对正向索引的一种特殊处理,流程如下:
倒排索引的搜索流程如下(以搜索"华为手机"为例):
1)用户输入条件"华为手机"进行搜索。
2)对用户输入内容分词,得到词条:华为、手机。
3)拿着词条在倒排索引中查找,可以得到包含词条的文档id:1、2、3。
4)拿着文档id到正向索引中查找具体文档。
虽然要先查询倒排索引,再查询倒排索引,但是无论是词条、还是文档id都建立了索引,查询速度非常快!无需全表扫描。
那么为什么一个叫做正向索引,一个叫做倒排索引呢?
正向索引是最传统的,根据id索引的方式。但根据词条查询时,必须先逐条获取每个文档,然后判断文档中是否包含所需要的词条,是根据文档找词条的过程。
而倒排索引则相反,是先找到用户要搜索的词条,根据词条得到保护词条的文档的id,然后根据id获取文档。是根据词条找文档的过程。
正向索引:
倒排索引:
elasticsearch中有很多独有的概念,与mysql中略有差别,但也有相似之处。
elasticsearch是面向**文档(Document)**存储的,可以是数据库中的一条商品数据,一个订单信息。文档数据会被序列化为json格式后存储在elasticsearch中:
而Json文档中往往包含很多的字段(Field),类似于数据库中的列。
索引(Index),就是相同类型的文档的集合。
例如:
因此,可以把索引当做是数据库中的表。
数据库的表会有约束信息,用来定义表的结构、字段的名称、类型等信息。因此,索引库中就有映射(mapping),是索引中文档的字段约束信息,类似表的结构约束。
我们统一的把mysql与elasticsearch的概念做一下对比:
MySQL | Elasticsearch | 说明 |
---|---|---|
Table | Index | 索引(index),就是文档的集合,类似数据库的表(table) |
Row | Document | 文档(Document),就是一条条的数据,类似数据库中的行(Row),文档都是JSON格式 |
Column | Field | 字段(Field),就是JSON文档中的字段,类似数据库中的列(Column) |
Schema | Mapping | Mapping(映射)是索引中文档的约束,例如字段类型约束。类似数据库的表结构(Schema) |
SQL | DSL | DSL是elasticsearch提供的JSON风格的请求语句,用来操作elasticsearch,实现CRUD |
MySQL与Elasticsearch两者各自有自己的长处:
Mysql:擅长事务类型操作,可以确保数据的安全和一致性
Elasticsearch:擅长海量数据的搜索、分析、计算
因此在企业中,往往是两者结合使用:
后续还要部署kibana容器,因此需要让es和kibana容器互联。这里先创建一个网络:
docker network create es-net
镜像文件比较大,可能需要等待一会
docker pull elasticsearch:7.12.1
运行docker命令,部署单点es:
docker run -d \ --name es \ -e "ES_JAVA_OPTS=-Xms1024m -Xmx1024m" \ -e "discovery.type=single-node" \ -v es-data:/usr/share/elasticsearch/data \ -v es-plugins:/usr/share/elasticsearch/plugins \ --privileged \ --network es-net \ -p 9200:9200 \ -p 9300:9300 \ elasticsearch:7.12.1
命令解释:
访问http://192.168.xxx.xxx:9200,如果看到以下页面,则证明elasticsearch安装成功。
kibana可以提供一个elasticsearch的可视化界面,便于学习。
docker pull kibana:7.12.1
运行docker命令,部署kibana
docker run -d \ --name kibana \ -e ELASTICSEARCH_HOSTS=http://es:9200 \ --network=es-net \ -p 5601:5601 \ kibana:7.12.1
kibana启动一般比较慢,需要多等待一会,可以通过命令:
docker logs -f kibana
查看运行日志,当查看到下面的日志,说明成功:
此时,在浏览器输入地址访问:http://192.168.xxx.xxx:5601,即可看到结果
kibana中提供了一个DevTools界面,这个界面中可以编写DSL来操作elasticsearch。并且对DSL语句有自动补全功能。
# 进入容器内部 docker exec -it es /bin/bash # 在线下载并安装 ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v7.12.1/elasticsearch-analysis-ik-7.12.1.zip #退出 exit #重启容器 docker restart es
IK分词器包含两种模式:
ik_smart:最少切分
ik_max_word:最细切分
随着互联网的发展,“造词运动”也越发的频繁。出现了很多新的词语,在原有的词汇列表中并不存在。如:“泰酷辣”、“永远的神”等。
所以我们的词汇也需要不断的更新,IK分词器提供了扩展词汇的功能。
1)打开IK分词器config目录(前置目录:/var/lib/docker/volumes/es-plugins/_data ):
2)在IKAnalyzer.cfg.xml配置文件内容添加:
IK Analyzer 扩展配置 ext.dic
3)新建一个 ext.dic,可以参考config目录下复制一个配置文件进行修改
泰酷辣 永远的神
4)重启elasticsearch
docker restart es # 查看 日志 docker logs -f es
日志中已经成功加载ext.dic配置文件。
在互联网项目中,在网络间传输的速度很快,所以很多语言是不允许在网络上传递的,如:关于宗教、政治等敏感词语,那么我们在搜索时也应该忽略当前词汇。
IK分词器也提供了强大的停用词功能,让我们在索引时就直接忽略当前的停用词汇表中的内容。
1)IKAnalyzer.cfg.xml配置文件内容添加:
IK Analyzer 扩展配置 ext.dic stopword.dic
3)在 stopword.dic 添加停用词
“一些敏感词汇”(该内容过于敏感,不宜显示)
4)重启elasticsearch
# 重启服务 docker restart es docker restart kibana # 查看 日志 docker logs -f es
日志中已经成功加载stopword.dic配置文件
注:当前文件的编码必须是UTF- 8格式,严禁使用Windows记事本编辑。
索引库就类似数据库表,mapping映射就类似表的结构。要向es中存储数据,必须先创建“库”和“表”。
mapping是对索引库中文档的约束,常见的mapping属性包括:
统一使用Kibana编写DSL的方式来演示。
创建索引库和映射
格式:
PUT /索引库名称 { "mappings": { "properties": { "字段名":{ "type": "text", "analyzer": "ik_smart" }, "字段名2":{ "type": "keyword", "index": "false" }, "字段名3":{ "properties": { "子字段": { "type": "keyword" } } }, // ...略 } } }
查询索引库
请求方式:GET
请求路径:/索引库名
请求参数:无
格式:
GET /索引库名
修改索引库
倒排索引结构虽然不复杂,但是一旦数据结构改变(比如改变了分词器),就需要重新创建倒排索引,这简直是灾难。因此索引库一旦创建,无法修改mapping。
虽然无法修改mapping中已有的字段,但是却允许添加新的字段到mapping中,因为不会对倒排索引产生影响。
格式:
PUT /索引库名/_mapping { "properties": { "新字段名":{ "type": "integer" } } }
删除索引库
请求方式:DELETE
请求路径:/索引库名
请求参数:无
格式:
DELETE /索引库名
添加字段
格式
PUT /索引库名/_mapping
语法格式
POST /索引库名/_doc/文档id { "字段1": "值1", "字段2": "值2", "字段3": { "子属性1": "值3", "子属性2": "值4" }, // ... }
根据rest风格,新增是post,查询应该是get,不过查询一般都需要条件,这里我们把文档id带上。
语法格式:
GET /{索引库名称}/_doc/{id}
语法格式:
DELETE /{索引库名}/_doc/id值
修改文档有两种方式,一种是全量修改,另一种是增量修改。
全量修改
全量修改是覆盖原来的文档,其本质是:
注意:如果根据id删除时,id不存在,第二步的新增也会执行,也就从修改变成了新增操作了。
语法格式:
PUT /{索引库名}/_doc/文档id { "字段1": "值1", "字段2": "值2", // ... 略 }
增量修改
增量修改是只修改指定id匹配的文档中的部分字段。
语法格式:
POST /{索引库名}/_update/文档id { "doc": { "字段名": "新的值", } }
ES官方提供了各种不同语言的客户端,用来操作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES。
官方文档地址:https://www.elastic.co/guide/en/elasticsearch/client/index.html
其中的Java Rest Client又包括两种:
创建索引库,最关键的是mapping映射,而mapping映射要考虑的信息包括:
其中:
以下面数据结构表为例:
CREATE TABLE `tb_hotel` ( `id` bigint(20) NOT NULL COMMENT '酒店id', `name` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '酒店名称', `address` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '酒店地址', `price` int(10) NOT NULL COMMENT '酒店价格', `score` int(2) NOT NULL COMMENT '酒店评分', `brand` varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '酒店品牌', `city` varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '所在城市', `star_name` varchar(16) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL COMMENT '酒店星级,1星到5星,1钻到5钻', `business` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL COMMENT '商圈', `latitude` varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '纬度', `longitude` varchar(32) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NOT NULL COMMENT '经度', `pic` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL COMMENT '酒店图片', PRIMARY KEY (`id`) USING BTREE ) ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci ROW_FORMAT = Compact;
创建的对应索引库结构为:
PUT /hotel { "mappings": { "properties": { "id": { "type": "keyword" }, "name":{ "type": "text", "analyzer": "ik_max_word", "copy_to": "all" }, "address":{ "type": "keyword", "index": false }, "price":{ "type": "integer" }, "score":{ "type": "integer" }, "brand":{ "type": "keyword", "copy_to": "all" }, "city":{ "type": "keyword", "copy_to": "all" }, "starName":{ "type": "keyword" }, "business":{ "type": "keyword" }, "location":{ "type": "geo_point" }, "pic":{ "type": "keyword", "index": false }, "all":{ "type": "text", "analyzer": "ik_max_word" } } } }
其中上面的location字段为地理坐标,包含经度、纬度。
地理坐标说明:
all字段为组合字段,其目的是将多字段的值利用copy_to合并,提供给用户搜索。
copy_to说明:
在elasticsearch提供的API中,与elasticsearch一切交互都封装在一个名为RestHighLevelClient的类中,必须先完成这个对象的初始化,建立与elasticsearch的连接。
引入es的RestHighLevelClient依赖:
org.elasticsearch.client elasticsearch-rest-high-level-client
因为springboot默认控制的ES版本为7.6.2,不满足使用需求,所以需要覆盖默认的ES版本
1.8 7.12.1
初始化RestHighLevelClient
初始化代码
public class HotelIndexTest { private RestHighLevelClient client; @BeforeEach void setUp() { this.client = new RestHighLevelClient(RestClient.builder( HttpHost.create("http://192.168.xxx.xxx:9200") )); } @AfterEach void tearDown() throws IOException { this.client.close(); } }
创建索引库的API如下:
代码分为三步:
创建Request对象。因为是创建索引库的操作,因此Request是CreateIndexRequest。
添加请求参数,其实就是DSL的JSON参数部分。因为json字符串很长,可以定义为静态字符串常量,让代码看起来更加优雅。
发送请求,client.indices()方法的返回值是IndicesClient类型,封装了所有与索引库操作有关的方法。
根据上面的索引库结构,实现创建索引
创建一个常量类,定义mapping映射的JSON字符串常量
public class HotelConstants { public static final String MAPPING_TEMPLATE = "{\n" + " \"mappings\": {\n" + " \"properties\": {\n" + " \"id\": {\n" + " \"type\": \"keyword\"\n" + " },\n" + " \"name\":{\n" + " \"type\": \"text\",\n" + " \"analyzer\": \"ik_max_word\",\n" + " \"copy_to\": \"all\"\n" + " },\n" + " \"address\":{\n" + " \"type\": \"keyword\",\n" + " \"index\": false\n" + " },\n" + " \"price\":{\n" + " \"type\": \"integer\"\n" + " },\n" + " \"score\":{\n" + " \"type\": \"integer\"\n" + " },\n" + " \"brand\":{\n" + " \"type\": \"keyword\",\n" + " \"copy_to\": \"all\"\n" + " },\n" + " \"city\":{\n" + " \"type\": \"keyword\",\n" + " \"copy_to\": \"all\"\n" + " },\n" + " \"starName\":{\n" + " \"type\": \"keyword\"\n" + " },\n" + " \"business\":{\n" + " \"type\": \"keyword\"\n" + " },\n" + " \"location\":{\n" + " \"type\": \"geo_point\"\n" + " },\n" + " \"pic\":{\n" + " \"type\": \"keyword\",\n" + " \"index\": false\n" + " },\n" + " \"all\":{\n" + " \"type\": \"text\",\n" + " \"analyzer\": \"ik_max_word\"\n" + " }\n" + " }\n" + " }\n" + "}"; }
编写单元测试,实现创建索引
@Test void createHotelIndex() throws IOException { // 1.创建Request对象 CreateIndexRequest request = new CreateIndexRequest("hotel"); // 2.准备请求的参数:DSL语句 request.source(MAPPING_TEMPLATE, XContentType.JSON); // 3.发送请求 client.indices().create(request, RequestOptions.DEFAULT); }
删除索引库的DSL语句非常简单:
DELETE /hotel
与创建索引库相比有以下几点变化:
所以代码的差异,注意体现在Request对象上。
编写单元测试,实现删除索引:
@Test void testDeleteHotelIndex() throws IOException { // 1.创建Request对象 DeleteIndexRequest request = new DeleteIndexRequest("hotel"); // 2.发送请求 client.indices().delete(request, RequestOptions.DEFAULT); }
判断索引库是否存在,本质就是查询,对应的DSL是:
GET /hotel
因此与删除的Java代码流程是类似的。依然是三步走:
@Test void testExistsHotelIndex() throws IOException { // 1.创建Request对象 GetIndexRequest request = new GetIndexRequest("hotel"); // 2.发送请求 boolean exists = client.indices().exists(request, RequestOptions.DEFAULT); // 3.输出 System.err.println(exists ? "索引库已经存在!" : "索引库不存在!"); }
JavaRestClient操作elasticsearch的流程基本类似。核心是client.indices()方法来获取索引库的操作对象。
索引库操作的基本步骤:
为了与索引库操作分离,再次添加一个测试类
@SpringBootTest public class HotelDocumentTest { @Autowired private IHotelService hotelService; // 利用IHotelService去查询酒店数据 // 初始化RestHighLevelClient private RestHighLevelClient client; @BeforeEach void setUp() { this.client = new RestHighLevelClient(RestClient.builder( HttpHost.create("http://192.168.150.101:9200") )); } @AfterEach void tearDown() throws IOException { this.client.close(); } }
定义一个酒店实体类
@Data @NoArgsConstructor public class HotelDoc { private Long id; private String name; private String address; private Integer price; private Integer score; private String brand; private String city; private String starName; private String business; private String location; private String pic; public HotelDoc(Hotel hotel) { this.id = hotel.getId(); this.name = hotel.getName(); this.address = hotel.getAddress(); this.price = hotel.getPrice(); this.score = hotel.getScore(); this.brand = hotel.getBrand(); this.city = hotel.getCity(); this.starName = hotel.getStarName(); this.business = hotel.getBusiness(); this.location = hotel.getLatitude() + ", " + hotel.getLongitude(); this.pic = hotel.getPic(); } }
前面已经知道了新增文档的DSL的语法格式
POST /索引库名/_doc/文档id // 举例说明 POST /hotel/_doc/1 { "name": "Jack", "age": 21 }
其对应的Java代码为
@Test void testIndexDocument() throws IOException { // 1.创建request对象 IndexRequest request = new IndexRequest("hotel").id("1"); // 2.准备JSON文档 request.source("{\"name\": \"Jack\", \"age\": 21}", XContentType.JSON); // 3.发送请求 client.index(request, RequestOptions.DEFAULT); }
从代码中可以看出与创建索引库类似,也分为三步:
主要的变化在于,此处直接使用了client的API,不再使用client.indices()。
这里结合了数据库查询的数据,将查询出来的数据转换成JSON的形式新增为文档。
@Test void testAddDocument() throws IOException { // 1.根据id查询酒店数据 Hotel hotel = hotelService.getById(1); // 2.转换为文档类型 HotelDoc hotelDoc = new HotelDoc(hotel); // 3.将HotelDoc转json String json = JSON.toJSONString(hotelDoc); // 1.准备Request对象 IndexRequest request = new IndexRequest("hotel").id(hotelDoc.getId().toString()); // 2.准备Json文档 request.source(json, XContentType.JSON); // 3.发送请求 client.index(request, RequestOptions.DEFAULT); }
查询的DSL语句如下:
GET /hotel/_doc/{id}
非常简单,因此代码大概分两步:
不过查询的目的是得到结果,解析为HotelDoc,因此难点是结果的解析。完整代码如下:
可以看到,结果是一个JSON,其中文档放在一个_source属性中,因此解析就是拿到_source,反序列化为Java对象即可。
在测试类中,编写单元测试
@Test void testGetDocumentById() throws IOException { // 1.准备Request GetRequest request = new GetRequest("hotel", "61082"); // 2.发送请求,得到响应 GetResponse response = client.get(request, RequestOptions.DEFAULT); // 3.解析响应结果 String json = response.getSourceAsString(); HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class); System.out.println(hotelDoc); }
删除的DSL的
DELETE /hotel/_doc/{id}
与查询相比,仅仅是请求方式从DELETE变成GET。
单元测试方法
@Test void testDeleteDocument() throws IOException { // 1.准备Request DeleteRequest request = new DeleteRequest("hotel", "61083"); // 2.发送请求 client.delete(request, RequestOptions.DEFAULT); }
修改有两种方式:
在RestClient的API中,全量修改与新增的API完全一致,判断依据是ID:
这里主要关注增量修改。
代码示例
单元测试方法
@Test void testUpdateDocument() throws IOException { // 1.准备Request UpdateRequest request = new UpdateRequest("hotel", "61083"); // 2.准备请求参数 request.doc( "price", "952", "starName", "四钻" ); // 3.发送请求 client.update(request, RequestOptions.DEFAULT); }
批量处理BulkRequest,其本质就是将多个普通的CRUD请求组合在一起发送。
其中提供了一个add方法,用来添加其他请求:
可以看到,能添加的请求包括:
因此Bulk中添加了多个IndexRequest,就是批量新增功能了。
@Test void testBulk() throws IOException { // 1.创建Bulk请求 BulkRequest request = new BulkRequest(); // 2.添加要批量提交的请求:这里添加了两个新增文档的请求 request.add(new IndexRequest("hotel") .id("101").source("json source", XContentType.JSON)); request.add(new IndexRequest("hotel") .id("102").source("json source2", XContentType.JSON)); // 3.发起bulk请求 client.bulk(request, RequestOptions.DEFAULT); }
这里与上面的不同之处在于Request对象为BulkRequest。调用的请求方法为client.bulk()。
单元测试方法
@Test void testBulkRequest() throws IOException { // 批量查询酒店数据 Listhotels = hotelService.list(); // 1.创建Request BulkRequest request = new BulkRequest(); // 2.准备参数,添加多个新增的Request for (Hotel hotel : hotels) { // 2.1.转换为文档类型HotelDoc HotelDoc hotelDoc = new HotelDoc(hotel); // 2.2.创建新增文档的Request对象 request.add(new IndexRequest("hotel") .id(hotelDoc.getId().toString()) .source(JSON.toJSONString(hotelDoc), XContentType.JSON)); } // 3.发送请求 client.bulk(request, RequestOptions.DEFAULT); }
Elasticsearch的查询依然是基于JSON风格的DSL来实现的。
Elasticsearch提供了基于JSON的DSL(Domain Specific Language)来定义查询。常见的查询类型包括:
查询所有:查询出所有数据,一般测试用。例如:match_all
全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配。例如:
精确查询:根据精确词条值查找数据,一般是查找keyword、数值、日期、boolean等类型字段。例如:
地理(geo)查询:根据经纬度查询。例如:
复合(compound)查询:复合查询可以将上述各种查询条件组合起来,合并查询条件。例如:
语法格式:
GET /indexName/_search { "query": { "查询类型": { "查询条件": "条件值" } } }
我们以查询所有为例,其中:
// 查询所有 GET /indexName/_search { "query": { "match_all": { } } }
其它查询无非就是查询类型、查询条件的变化。
全文检索查询的基本流程如下:
因为是拿着词条去匹配,因此参与搜索的字段也必须是可分词的text类型的字段。
常见的全文检索查询包括:
match查询语法格式:
GET /indexName/_search { "query": { "match": { "FIELD": "TEXT" // FIELD:字段名 } } }
mulit_match语法格式:
GET /indexName/_search { "query": { "multi_match": { "query": "TEXT", "fields": ["FIELD1", " FIELD12"] } } }
精确查询一般是查找keyword、数值、日期、boolean等类型字段。所以不会对搜索条件分词。常见的有:
因为精确查询的字段搜是不分词的字段,因此查询的条件也必须是不分词的词条。查询时,用户输入的内容跟自动值完全匹配时才认为符合条件。如果用户输入的内容过多,反而搜索不到数据。
语法格式:
// term查询 GET /indexName/_search { "query": { "term": { "FIELD": { // FIELD:字段名 "value": "VALUE" } } } }
范围查询,一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。
语法格式:
// range查询 GET /indexName/_search { "query": { "range": { "FIELD": { // FIELD:字段名 "gte": 100, // 这里的gte代表大于等于,gt则代表大于 "lte": 200 // lte代表小于等于,lt则代表小于 } } } }
所谓的地理坐标查询,其实就是根据经纬度查询。
官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常见的使用场景包括:
矩形范围查询,也就是geo_bounding_box查询,查询坐标落在某个矩形范围的所有文档:
查询时,需要指定矩形的左上、右下两个点的坐标,然后画出一个矩形,落在该矩形内的都是符合条件的点。
语法格式:
// geo_bounding_box查询 GET /indexName/_search { "query": { "geo_bounding_box": { "FIELD": { "top_left": { // 左上点 "lat": 31.1, "lon": 121.5 }, "bottom_right": { // 右下点 "lat": 30.9, "lon": 121.7 } } } } }
附近查询,也叫做距离查询(geo_distance):查询到指定中心点小于某个距离值的所有文档。
在地图上找一个点作为圆心,以指定距离为半径,画一个圆,落在圆内的坐标都算符合条件:
语法说明:
// geo_distance 查询 GET /indexName/_search { "query": { "geo_distance": { "distance": "15km", // 半径 "FIELD": "31.21,121.5" // 圆心 } } }
复合(compound)查询:复合查询可以将其它简单查询组合起来,实现更复杂的搜索逻辑。常见的有两种:
在Elasticsearch中,早期使用的打分算法是TF-IDF算法,公式如下:
在后来的5.1版本升级中,elasticsearch将算法改进为BM25算法,公式如下:
TF-IDF算法有一各缺陷,就是词条频率越高,文档得分也会越高,单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限,曲线更加平滑:
根据相关度打分是比较合理的需求,但合理的不一定是产品经理需要的。
要想认为控制相关性算分,就需要利用elasticsearch中的function score 查询了。
语法说明
function score 查询中包含四部分内容:
function score的运行流程如下:
因此,其中的关键点是:
布尔查询是一个或多个查询子句的组合,每一个子句就是一个子查询。子查询的组合方式有:
每一个不同的字段,其查询的条件、方式都不一样,必须是多个不同的查询,而要组合这些查询,就必须用bool查询了。
需要注意的是,搜索时,参与打分的字段越多,查询的性能也越差。因此这种多条件查询时,建议这样做:
搜索的结果可以按照用户指定的方式去处理或展示。
Elasticsearch默认是根据相关度算分(_score)来排序,但是也支持自定义方式对搜索结果排序。可以排序字段类型有:keyword类型、数值类型、地理坐标类型、日期类型等。
普通字段排序
keyword、数值、日期类型排序的语法基本一致。
语法:
GET /indexName/_search { "query": { "match_all": {} }, "sort": [ { "FIELD": "desc" // 排序字段、排序方式ASC、DESC } ] }
排序条件是一个数组,也就是可以写多个排序条件。按照声明的顺序,当第一个条件相等时,再按照第二个条件排序,以此类推。
地理坐标排序
这个查询的含义是:
语法说明:
GET /indexName/_search { "query": { "match_all": {} }, "sort": [ { "_geo_distance" : { "FIELD" : "纬度,经度", // 文档中geo_point类型的字段名、目标坐标点 "order" : "asc", // 排序方式 "unit" : "km" // 排序的距离单位 } } ] }
获取你的位置的经纬度的方式:https://lbs.amap.com/demo/jsapi-v2/example/map/click-to-get-lnglat/
Elasticsearch 默认情况下只返回top10的数据。而如果要查询更多数据就需要修改分页参数了。elasticsearch中通过修改from、size参数来控制要返回的分页结果:
基础分页
语法格式
GET /hotel/_search { "query": { "match_all": {} }, "from": 0, // 分页开始的位置,默认为0 "size": 10, // 期望获取的文档总数 "sort": [ {"price": "asc"} ] }
深度分页问题
要查询9900~10000的数据,查询逻辑应该这么写
GET /hotel/_search { "query": { "match_all": {} }, "from": 9900, // 分页开始的位置,默认为0 "size": 10, // 期望获取的文档总数 "sort": [ {"price": "asc"} ] }
这里是查询9900开始的数据,也就是 第9900~第10000条 数据。
不过,Elasticsearch内部分页时,必须先查询 0~10000条,然后截取其中的9900 ~ 10000的这10条
查询TOP10000,如果ES是单点模式,这并无太大影响。
但是Elasticsearch将来一定是集群,例如我集群有10个节点,我要查询TOP10000的数据,并不是每个节点查询1000条就可以了。
因为节点A的TO1P000,在另一个节点可能排到100000名以外了。
因此要想获取整个集群的TOP10000,必须先查询出每个节点的TOP10000,汇总结果后,重新排名,重新截取TOP10000。
当查询分页深度较大时,汇总数据过多,对内存和CPU会产生非常大的压力,因此elasticsearch会禁止from+ size 超过10000的请求。
针对深度分页,ES提供了两种解决方案,
官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/paginate-search-results.html
三种分页查询的实现方案及其优缺点
from + size:
after search:
scroll:
日常生活中,在百度搜索时,关键字会变成红色,比较醒目,这便是高亮显示。
高亮显示的实现分为两步:
高亮的语法:
GET /hotel/_search { "query": { "match": { "FIELD": "TEXT" // 查询条件,高亮一定要使用全文检索查询 } }, "highlight": { "fields": { // 指定要高亮的字段 "FIELD": { "pre_tags": "", // 用来标记高亮字段的前置标签 "post_tags": "" // 用来标记高亮字段的后置标签 } } } }
注意:
文档的查询同样适用昨天学习的 RestHighLevelClient对象,基本步骤包括:
代码演示:
@Test void testMatchAll() throws IOException { // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.组织DSL参数 request.source() .query(QueryBuilders.matchAllQuery()); // 3.发送请求,得到响应结果 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // ...解析响应结果 } // 对比DSL的查询请求 //GET /indexName/_search //{ // "query": { // "match_all": {} // } //}
第一步,创建SearchRequest对象,指定索引库名。
第二步,利用request.source()构建DSL,DSL中可以包含查询、分页、排序、高亮等。
第三步,利用client.search()发送请求,得到响应。
这里关键的API有两个,一个是request.source(),其中包含了查询、排序、分页、高亮等所有功能:
另一个是QueryBuilders,其中包含match、term、function_score、bool等各种查询:
响应结果的解析:
elasticsearch返回的结果是一个JSON字符串,结构包含:
因此,解析响应结果,就是逐层解析JSON字符串,流程如下:
完整的查询代码
@Test void testMatchAll() throws IOException { // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.准备DSL request.source() .query(QueryBuilders.matchAllQuery()); // 3.发送请求 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 4.解析响应 handleResponse(response); } private void handleResponse(SearchResponse response) { // 4.解析响应 SearchHits searchHits = response.getHits(); // 4.1.获取总条数 long total = searchHits.getTotalHits().value; System.out.println("共搜索到" + total + "条数据"); // 4.2.文档数组 SearchHit[] hits = searchHits.getHits(); // 4.3.遍历 for (SearchHit hit : hits) { // 获取文档source String json = hit.getSourceAsString(); // 反序列化 HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class); System.out.println("hotelDoc = " + hotelDoc); } }
查询的基本步骤是:
创建SearchRequest对象
准备Request.source(),也就是DSL。
① QueryBuilders来构建查询条件
② 传入Request.source() 的 query() 方法
发送请求,得到结果
解析结果(参考JSON结果,从外到内,逐层解析)
全文检索的match和multi_match查询与match_all的API基本一致。差别是查询条件,也就是query的部分。
因此,Java代码上的差异主要是request.source().query()中的参数了。同样是利用QueryBuilders提供的方法:
而结果解析代码则完全一致,可以抽取并共享。
完整代码:
@Test void testMatch() throws IOException { // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.准备DSL request.source() .query(QueryBuilders.matchQuery("all", "如家")); // 3.发送请求 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 4.解析响应 handleResponse(response); }
精确查询主要是两者:
与之前的查询相比,差异同样在查询条件,其它都一样。
查询条件构造的API如下:
布尔查询是用must、must_not、filter等方式组合其它查询,代码示例如下:
可以看到,API与其它查询的差别同样是在查询条件的构建,QueryBuilders,结果解析等其他代码完全不变。
完整代码:
@Test void testBool() throws IOException { // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.准备DSL // 2.1.准备BooleanQuery BoolQueryBuilder boolQuery = QueryBuilders.boolQuery(); // 2.2.添加term boolQuery.must(QueryBuilders.termQuery("city", "杭州")); // 2.3.添加range boolQuery.filter(QueryBuilders.rangeQuery("price").lte(250)); request.source().query(boolQuery); // 3.发送请求 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 4.解析响应 handleResponse(response); }
搜索结果的排序和分页是与query同级的参数,因此同样是使用request.source()来设置。
对应的API如下:
完整代码:
@Test void testPageAndSort() throws IOException { // 页码,每页大小 int page = 1, size = 5; // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.准备DSL // 2.1.query request.source().query(QueryBuilders.matchAllQuery()); // 2.2.排序 sort request.source().sort("price", SortOrder.ASC); // 2.3.分页 from、size request.source().from((page - 1) * size).size(5); // 3.发送请求 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 4.解析响应 handleResponse(response); }
高亮的代码与之前代码有两点差异较大:
高亮请求的构建API如下:
高亮查询必须使用全文检索查询,并且要有搜索关键字,将来才可以对关键字高亮。
完整代码:
@Test void testHighlight() throws IOException { // 1.准备Request SearchRequest request = new SearchRequest("hotel"); // 2.准备DSL // 2.1.query request.source().query(QueryBuilders.matchQuery("all", "如家")); // 2.2.高亮 request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false)); // 3.发送请求 SearchResponse response = client.search(request, RequestOptions.DEFAULT); // 4.解析响应 handleResponse(response); }
高亮的结果与查询的文档结果默认是分离的,并不在一起。
因此解析高亮的代码需要额外处理:
完整代码:
private void handleResponse(SearchResponse response) { // 4.解析响应 SearchHits searchHits = response.getHits(); // 4.1.获取总条数 long total = searchHits.getTotalHits().value; System.out.println("共搜索到" + total + "条数据"); // 4.2.文档数组 SearchHit[] hits = searchHits.getHits(); // 4.3.遍历 for (SearchHit hit : hits) { // 获取文档source String json = hit.getSourceAsString(); // 反序列化 HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class); // 获取高亮结果 MaphighlightFields = hit.getHighlightFields(); if (!CollectionUtils.isEmpty(highlightFields)) { // 根据字段名获取高亮结果 HighlightField highlightField = highlightFields.get("name"); if (highlightField != null) { // 获取高亮值 String name = highlightField.getFragments()[0].string(); // 覆盖非高亮结果 hotelDoc.setName(name); } } System.out.println("hotelDoc = " + hotelDoc); } }
聚合可以极其方便的实现对数据的统计、分析、运算。
官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations.html
实现这些统计功能的比数据库的sql要方便的多,而且查询速度非常快,可以实现近实时搜索效果。
**注意:**参加聚合的字段必须是keyword、日期、数值、布尔类型
聚合常见的有三类:
**桶(Bucket)**聚合:用来对文档做分组
**度量(Metric)**聚合:用以计算一些值,比如:最大值、最小值、平均值等
**管道(pipeline)**聚合:其它聚合的结果为基础做聚合
日常中要统计所有数据中的分类有几种,其实就是要按照分类对数据分组,也就是Bucket聚合。
语法格式
GET /hotel/_search { "size": 0, // 设置size为0,结果中不包含文档,只包含聚合结果 "aggs": { // 定义聚合 "brandAgg": { //给聚合起个名字 "terms": { // 聚合的类型,按照品牌值聚合,所以选择term "field": "brand", // 参与聚合的字段 "size": 20 // 希望获取的聚合结果数量 } } } }
默认情况下,Bucket聚合会 Bucket 内的文档数量,记为_count,并且按照_count降序排序。
可以指定order属性,自定义聚合的排序方式。
GET /hotel/_search { "size": 0, "aggs": { "brandAgg": { "terms": { "field": "brand", "order": { "_count": "asc" // 按照_count升序排列 }, "size": 20 } } } }
默认情况下,Bucket聚合是对索引库的所有文档做聚合,但真实场景下,用户会输入搜索条件,因此聚合必须是对搜索结果聚合。那么聚合必须添加限定条件。
可以限定要聚合的文档范围,只要添加query条件即可
GET /hotel/_search { "query": { "range": { "price": { "lte": 200 // 只对200元以下的文档聚合 } } }, "size": 0, "aggs": { "brandAgg": { "terms": { "field": "brand", "size": 20 } } } }
可以对桶内的数据进行运算,获得每个品牌的用户评分的min、max、avg等值。
这里就要用到Metric聚合,例如stat聚合:就可以获取min、max、avg等结果。
语法格式如下:
GET /hotel/_search { "size": 0, "aggs": { "brandAgg": { "terms": { "field": "brand", "size": 20 }, "aggs": { // 是brands聚合的子聚合,也就是分组后对每组分别计算 "score_stats": { // 聚合名称 "stats": { // 聚合类型,这里stats可以计算min、max、avg等 "field": "score" // 聚合字段,这里是score } } } } } }
这次的score_stats聚合是在brandAgg的聚合内部嵌套的子聚合。因此需要在每个桶分别计算。
聚合条件与query条件同级别,因此需要使用request.source()来指定聚合条件。
聚合条件的语法格式:
聚合的结果也与查询结果不同,API也比较特殊。不过同样是JSON逐层解析:
在日常的搜索中,当用户在搜索框中输入字符时,就会提示出相关的搜索项。
这种根据用户输入的字母,提示完整词条的功能即为自动补全。
因为可能需要根据拼音字母来推断,因此要用到拼音分词功能。
要实现根据字母做补全,就必须对文档按照拼音分词。在GitHub上恰好有elasticsearch的拼音分词插件。
地址:https://github.com/medcl/elasticsearch-analysis-pinyin
安装方式:
详细安装步骤可以查看IK分词器的安装过程。
测试用法
POST /_analyze { "text": ["今天天气真好"], "analyzer": "pinyin" }
测试结果
{ "tokens" : [ { "token" : "jin", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 0 }, { "token" : "jttqzh", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 0 }, { "token" : "tian", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 1 }, { "token" : "tian", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 2 }, { "token" : "qi", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 3 }, { "token" : "zhen", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 4 }, { "token" : "hao", "start_offset" : 0, "end_offset" : 0, "type" : "word", "position" : 5 } ] }
默认的拼音分词器会将每个汉字单独分为拼音,而我们希望的是每个词条形成一组拼音,需要对拼音分词器做个性化定制,形成自定义分词器。
elasticsearch中分词器(analyzer)的组成包含三部分:
文档分词时会依次由这三部分来处理文档:
声明自定义分词器的语法格式:
PUT /test { "settings": { "analysis": { "analyzer": { // 自定义分词器 "my_analyzer": { // 分词器名称 "tokenizer": "ik_max_word", "filter": "py" } }, "filter": { // 自定义tokenizer filter "py": { // 过滤器名称 "type": "pinyin", // 过滤器类型,这里是pinyin "keep_full_pinyin": false, "keep_joined_full_pinyin": true, "keep_original": true, "limit_first_letter_length": 16, "remove_duplicated_term": true, "none_chinese_pinyin_tokenize": false } } } }, "mappings": { "properties": { "name": { "type": "text", "analyzer": "my_analyzer", "search_analyzer": "ik_smart" } } } }
elasticsearch提供了Completion Suggester查询来实现自动补全功能。这个查询会匹配以用户输入内容开头的词条并返回。为了提高补全查询的效率,对于文档中字段的类型有一些约束:
参与补全查询的字段必须是completion类型。
字段的内容一般是用来补全的多个词条形成的数组。
官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/7.6/search-suggesters.html
举例
一个这样的索引库:
// 创建索引库 PUT test { "mappings": { "properties": { "title":{ "type": "completion" } } } }
然后插入下面的数据:
// 示例数据 POST test/_doc { "title": ["Sony", "WH-1000XM3"] } POST test/_doc { "title": ["SK-II", "PITERA"] } POST test/_doc { "title": ["Nintendo", "switch"] }
查询的DSL语句如下:
// 自动补全查询 GET /test/_search { "suggest": { "title_suggest": { "text": "s", // 关键字 "completion": { "field": "title", // 补全查询的字段 "skip_duplicates": true, // 跳过重复的 "size": 10 // 获取前10条结果 } } } }
对照自动补全查询的DSL,对应的推出JavaAPI的使用方法
而自动补全的结果也比较特殊,解析的代码格式:
Elasticsearch中的酒店数据来自于mysql数据库,因此mysql数据发生改变时,elasticsearch也必须跟着改变,这个就是elasticsearch与mysql之间的数据同步。
常见的数据同步方案有三种:
基本步骤:
基本流程:
基本流程:
三种方式的优缺点
方式一:同步调用
方式二:异步通知
方式三:监听binlog
单机的elasticsearch做数据存储,必然面临两个问题:海量数据存储问题、单点故障问题。
ES集群相关概念:
集群(cluster):一组拥有共同的 cluster name 的 节点。
节点(node) :集群中的一个 Elasticearch 实例
分片(shard):索引可以被拆分为不同的部分进行存储,称为分片。在集群环境下,一个索引的不同分片可以拆分到不同的节点中
解决问题:数据量太大,单点存储量有限的问题。
此处把数据分成3片:shard0、shard1、shard2
主分片(Primary shard):相对于副本分片的定义。
副本分片(Replica shard)每个主分片可以有一个或者多个副本,数据和主分片一样。
数据备份可以保证高可用,但是每个分片备份一份,所需要的节点数量就会翻一倍,成本实在是太高
为了在高可用和成本间寻求平衡,可以这样做:
这样可以大大减少所需要的服务节点数量,如图,以3分片,每个分片备份一份为例:
现在,每个分片都有1个备份,存储在3个节点:
部署es集群可以直接使用docker-compose来完成,不过要求Linux虚拟机至少有4G的内存空间
首先编写一个docker-compose文件,内容如下:
version: '2.2' services: es01: image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1 container_name: es01 environment: - node.name=es01 - cluster.name=es-docker-cluster - discovery.seed_hosts=es02,es03 - cluster.initial_master_nodes=es01,es02,es03 - bootstrap.memory_lock=true - "ES_JAVA_OPTS=-Xms512m -Xmx512m" ulimits: memlock: soft: -1 hard: -1 volumes: - data01:/usr/share/elasticsearch/data ports: - 9200:9200 networks: - elastic es02: image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1 container_name: es02 environment: - node.name=es02 - cluster.name=es-docker-cluster - discovery.seed_hosts=es01,es03 - cluster.initial_master_nodes=es01,es02,es03 - bootstrap.memory_lock=true - "ES_JAVA_OPTS=-Xms512m -Xmx512m" ulimits: memlock: soft: -1 hard: -1 volumes: - data02:/usr/share/elasticsearch/data networks: - elastic es03: image: docker.elastic.co/elasticsearch/elasticsearch:7.12.1 container_name: es03 environment: - node.name=es03 - cluster.name=es-docker-cluster - discovery.seed_hosts=es01,es02 - cluster.initial_master_nodes=es01,es02,es03 - bootstrap.memory_lock=true - "ES_JAVA_OPTS=-Xms512m -Xmx512m" ulimits: memlock: soft: -1 hard: -1 volumes: - data03:/usr/share/elasticsearch/data networks: - elastic volumes: data01: driver: local data02: driver: local data03: driver: local networks: elastic: driver: bridge
es运行前需要修改一些Linux系统权限,修改/etc/sysctl.conf文件
vi /etc/sysctl.conf
添加以下内容
vm.max_map_count=262144
执行命令使配置生效
sysctl -p
通过docker-compose启动集群:
docker-compose up -d
在DevTools中输入命令
PUT /item { "settings": { "number_of_shards": 3, // 分片数量 "number_of_replicas": 1 // 副本数量 }, "mappings": { "properties": { // mapping映射定义。。。 } } }
elasticsearch中集群节点有着不同的职责划分:
节点类型 | 配置参数 | 默认值 | 节点职责 |
---|---|---|---|
master eligible | node.master | true | 备选主节点:主节点可以管理和记录集群状态,决定分片在哪个节点、处理创建和删除库索引的请求 |
data | node.data | true | 数据节点:存储数据、搜索、聚合、CRUD |
ingest | node.ingest | true | 数据存储之前的预处理 |
coordinating | 上面三个参数都为false,则coordinating节点 | 无 | 协调节点:路由请求到其它节点,合并到其它节点处理的结果,返回给用户 |
真实的集群一定要将集群职责分离:
职责分离可以根据不同节点的需求分配不同的硬件去部署。而且避免业务之间的互相干扰。
Elasticsearch中的每个节点角色都有自己不同的职责,因此建议集群部署时,每个节点都有独立的角色。
默认情况下,每个节点都是master eligible节点,因此一旦master节点宕机,其它候选节点会选举一个成为主节点。当主节点与其他节点网络故障时,可能发生脑裂问题。
例如一个集群中,主节点与其它节点失联:
此时,node2和node3认为node1宕机,就会重新选主:
当node3当选后,集群继续对外提供服务,node2和node3自成集群,node1自成集群,两个集群数据不同步,出现数据差异。
当网络恢复后,因为集群中有两个master节点,集群状态的不一致,出现脑裂的情况:
为了避免脑裂,需要要求选票超过 ( eligible节点数量 + 1 )/ 2才能当选为主,因此eligible节点数量最好是奇数。对应配置项是discovery.zen.minimum_master_nodes,在es7.0以后,已经成为默认配置,因此一般不会发生脑裂问题。
当新增文档时,应该保存到不同分片,保证数据均衡,那么coordinating node如何确定数据该存储到哪个分片呢?
Elasticsearch会通过hash算法来计算文档应该存储到哪个分片:
说明:
•_routing默认是文档的id
•算法与分片数量有关,因此索引库一旦创建,分片数量就不能修改。
新增文档的流程:
elasticsearch的查询分成两个阶段:
scatter phase:分散阶段,coordinating node会把请求分发到每一个分片
gather phase:聚集阶段,coordinating node汇总data node的搜索结果,并处理为最终结果集返回给用户
集群的master节点会监控集群中的节点状态,如果发现有节点宕机,会立即将宕机节点的分片数据迁移到其它节点,确保数据安全,这个叫做故障转移。
1)假设一个集群结构如图:
现在,node1是主节点,其它两个节点是从节点。
2)由于发生特殊情况,node1发生了故障:
宕机后的第一件事,需要重新选主,例如选中了node2:
node2成为主节点后,会检测集群监控状态,发现:shard-1、shard-0没有副本节点。因此需要将node1上的数据迁移到node2、node3:
上一篇:Java:List相互转换数组