摘要:本文讲解了GaussDB(DWS)上模糊查询常用的性能优化方法,通过创建索引,能够提升多种场景下模糊查询语句的执行速度。
本文分享自华为云社区《GaussDB(DWS) 模糊查询性能优化》,作者: 黎明的风 。
在使用GaussDB(DWS)时,通过like进行模糊查询,有时会遇到查询性能慢的问题。
(一)LIKE模糊查询
通常的查询语句如下:
当表t1的数据量大时,使用like进行模糊查询,查询的速度非常慢。
通过explain查看该语句生成的查询计划:
查询计划显示对表t1进行了全表扫描,因此在表t1数据量大的时候执行速度会比较慢。
上面查询的模糊匹配条件 'A123%',我们称它为后模糊匹配。这种场景,可以通过建立一个BTREE索引来提升查询性能。
建立索引时需要根据字段数据类型设置索引对应的operator,对于text,varchar和char分别设置和text_pattern_ops,varchar_pattern_ops和bpchar_pattern_ops。
例如上面例子里的c1列的类型为text,创建索引时增加text_pattern_ops,建立索引的语句如下:
增加索引后打印查询计划:
在创建索引后,可以看到语句执行时会使用到前面创建的索引,执行速度会变快。
前面遇到的问题使用的查询条件是后缀的模糊查询,如果使用的是前缀的模糊查询,我们可以看一下查询计划是否有使用到索引。
如上图所示,当查询条件变成前缀的模糊查询,之前建的索引将不能使用到,查询执行时进行了全表的扫描。
这种情况,我们可以使用翻转函数(reverse),建立一个索引来支持前模糊的查询,建立索引的语句如下:
将查询语句的条件采用reverse函数进行改写之后,输出查询计划:
语句经过改写后,可以走索引, 查询性能得到提升。
(二)指定collate来创建索引
如果使用默认的index ops class时,要使b-tree索引支持模糊的查询,就需要在查询和建索引时都指定collate="C"。
注意:索引和查询条件的collate都一致的情况下才能使用索引。
创建索引的语句为:
查询语句的where条件中需要增加collate的设置:
(三)GIN倒排索引
GIN(Generalized Inverted Index)通用倒排索引。设计为处理索引项为组合值的情况,查询时需要通过索引搜索出出现在组合值中的特定元素值。例如,文档是由多个单词组成,需要查询出文档中包含的特定单词。
下面举例说明GIN索引的使用方法:
上述语句在车牌的列上建立了一个GIN倒排索引。
如果要根据车牌进行模糊查询,可以使用下面的语句:
这个语句的查询计划如下:
查询中使用了倒排索引,因此有比较的好的执行性能。