PostgreSQL 中五种主要索引类型的全面详解

喝醉酒的小白

于 2025-06-27 14:48:46 发布

阅读量657

点赞数 31

CC 4.0 BY-SA版权

分类专栏： PG 文章标签： postgresql 哈希算法数据库

本文链接：https://blog.csdn.net/hezuijiudexiaobai/article/details/148952857

PG 专栏收录该内容

309 篇文章

订阅专栏

以下是 PostgreSQL 中五种主要索引类型的全面详解，包括各自的原理、适用场景、优缺点、创建语法及优化建议。

1. B-Tree（默认）

原理概述

结构：平衡多路搜索树（B-Tree），每个节点包含多个键值和指向子节点的指针，叶子节点通过链表串联。
特性：高度平衡，查找、插入、删除操作时间复杂度均为 $O(\log n)$ 。

适用场景

等值查询（=，IN）
范围查询（<、<=、>、>=、BETWEEN）
排序加速（ORDER BY）
前缀匹配（对文本类型，配合 LIKE 'abc%'）

优点

支持多种操作，通用性最高。
PostgreSQL 默认索引类型，对几乎所有标量类型（数值、文本、日期、UUID 等）都支持。
自动平衡，维护开销可控。

局限

对高度随机、散列分布的数据，插入时可能频繁分裂、合并节点；
不适合对大对象（如数组、JSONB）内部元素的索引；
无法加速 LIKE '%pattern%' 类型的模糊查询。

创建语法

-- 创建默认的 B-Tree 索引
CREATE INDEX idx_users_name
  ON users (last_name);

-- 指定升降序、NULLs 排序
CREATE INDEX idx_users_name_desc
  ON users (last_name DESC NULLS LAST);

优化建议

合理选择列顺序：多列索引中，将区分度高、过滤性强的列放在前面。

对大表，考虑使用 CONCURRENTLY 选项在线建索引：

CREATE INDEX CONCURRENTLY idx_users_email
  ON users (email);

定期 REINDEX 或在 VACUUM 阶段维护，以避免膨胀。

2. Hash

原理概述

结构：基于哈希表，将键值经过哈希函数分配到桶（bucket）中，桶内可能存链表或溢出页。
特性：只支持等值查询，查找平均为 $O (1)$ 。

适用场景

纯等值查询（=）非常频繁，对性能要求极高的场合。

优点

对单一等值查询性能略优于 B-Tree（理论上的常数时间查找）。

局限

不支持范围查询；
只能用于单列且要求列类型可哈希；
事务恢复后需要 pg_restore；
早期版本易膨胀（从 PG10 起已有改进，但仍较 B-Tree 较少使用）。

创建语法

CREATE INDEX idx_orders_order_no_hash
  ON orders USING hash (order_no);

优化建议

除非在基准测试中确认 Hash 优于 B-Tree，否则推荐使用 B-Tree。
对大规模等值热点表，可考虑为热点列创建 Hash 索引，测试查询性能。

3. GIN（Generalized Inverted Index）

原理概述

结构：倒排索引，将每个被索引值或子项映射到一组行标识符（TIDs）。内部用 B-Tree 对“键 → TID 列表”做索引。
特性：适合一对多、多对多映射，如数组、全文搜索、JSONB 等。

适用场景

全文检索（tsvector / tsquery）。
数组（int[], text[]）元素查找。
JSONB（查键、查值、路径查询）。
hstore, pg_trgm（模糊匹配）。

优点

支持对“多值”字段高效检索；
可做部分匹配、关键词包含、IN 查询。

局限

索引体积较大，写入/更新开销高；
TID 列表查询合并时有额外成本。

创建语法

-- 全文检索
CREATE INDEX idx_docs_content_gin
  ON documents USING gin (to_tsvector('english', content));

-- 数组
CREATE INDEX idx_user_tags_gin
  ON users USING gin (tags);

-- JSONB
CREATE INDEX idx_orders_data_gin
  ON orders USING gin (data jsonb_path_ops);

优化建议

对写入密集型场景，可使用 fastupdate = off 禁用快速更新，改为批量维护：
```
ALTER INDEX idx_docs_content_gin
  SET (fastupdate = off);
```
结合 pg_repack 或定期 VACUUM 以避免索引 bloat。

4. GiST（Generalized Search Tree）

原理概述

结构：可定制的平衡树框架，定义“ $\text{key}$ ”和“ $\text{predicate}$ ”函数，支持对任意空间或逻辑区间索引。
特性：通过扩展模块实现，如 PostGIS 的空间索引、pg_trgm 的近似匹配。

适用场景

空间数据（geometry, geography）。
全文搜索（早期方案）。
pg_trgm 三元组索引（模糊匹配）。
范围类型（int4range, tsrange）的重叠/包含查询。

优点

高度可定制，支持多种扩展；
对区间/空间/相似度查询性能优异；
与扩展生态结合紧密。

局限

默认逻辑可能不如专用索引高效；
插入/删除时需频繁维护平衡。

创建语法

-- 空间数据 (PostGIS)
CREATE INDEX idx_places_geom_gist
  ON places USING gist (geom);

-- 三元组模糊匹配
CREATE INDEX idx_users_name_trgm
  ON users USING gist (last_name gist_trgm_ops);

-- 范围类型
CREATE INDEX idx_events_timerange
  ON events USING gist (tsrange(start_time, end_time));

优化建议

根据数据类型选择合适的 operator class；
对热点更新表，可设置 buffering 批量插入，再做索引重建。

5. BRIN（Block Range INdex）

原理概述

结构：按物理存储块（默认 8 MB）分区，记录每个块范围内值的最小/最大摘要信息。
特性：极小的索引体积，扫描时先筛选出可能包含目标值的页范围，再做回表。

适用场景

超大表（数十亿行）
按插入顺序有序的列（时间戳、流水号）
数据在物理存储上高度聚集，范围扫描频繁。

优点

索引极小（通常只有原表数据的极少百分比）；
维护成本低，写入开销几乎可忽略。

局限

对随机分布列、离散值多的列无效；
单次回表扫描成本可能较高；
仅适合范围查询，不支持等值单行定位加速。

创建语法

-- 默认块范围大小
CREATE INDEX idx_logs_time_brin
  ON logs USING brin (log_time);

-- 自定义块范围大小
CREATE INDEX idx_logs_time_brin_large
  ON logs USING brin (log_time)
  WITH (pages_per_range = 4);  -- 每个范围 32 MB

优化建议

使用 autosummarize = on（默认）让 PostgreSQL 自动维护摘要；
对物理存储顺序无序的表，可先做 CLUSTER 或按主键重写，再建 BRIN。

总结对比

索引类型	支持查询	体积	写入开销	典型用途
B-Tree	等值+范围+排序	中	中	通用型，绝大多数场景
Hash	等值	小	低	高频等值
GIN	多值、全文	大	高	数组、JSONB、全文检索
GiST	空间、范围、相似	中	中–高	空间数据、模糊匹配、区间查询
BRIN	范围	很小	很低	超大表的范围扫描