Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
15 changes: 15 additions & 0 deletions zh_CN/vector-search/vector-index.md
Original file line number Diff line number Diff line change
Expand Up @@ -79,6 +79,21 @@ CREATE TABLE `t` (
PARTITION BY HASH (`sid`) PARTITIONS 1
```

### 配置

创建向量索引时支持以下配置项:

- `type`:向量索引类型,可以指定为 IVF_PQ、IVF_RQ、HNSW、HNSW_PQ 等任一我们所支持的索引类型。
- `distance`:距离函数,可以指定为 l2、cosine、dot。注意,如果选择 RQ 量化,不允许将距离函数设置为 cosine。
- `num_cells`:适用于 IVF 类索引,使用 `num_cells` 指定向量簇的数量。数量越多,搜索越快,但是构建索引时间更长、召回率越低。默认为 32。
- `num_sub_vectors`:适用于 PQ 量化,使用 `num_sub_vectors` 指定子向量的个数。数量越多,压缩率越高,但是构建索引时间更长、召回率更低。默认为 32。
- `num_bits`:适用于 PQ 量化,使用 `num_bits` 指定使用多少个 bits 来表示一个向量子空间中的质心。 `num_bits` 越大,压缩率越低、召回率更高,但是构建索引时间更长。目前仅支持设置为 8。
- `max_level`:适用于 HNSW 类索引,使用 `max_level` 指定 HNSW 层数。层数越大,查询越快,但是构建索引时间更长。默认为 7。
- `m`:适用于 HNSW 类索引,使用 `m` 指定每个节点可连接的最大邻居数量。 `m` 越大,召回率越高,但是索引构建时间更长、查询更慢。默认为 10。
- `ef_construction`:适用于 HNSW 类索引,使用 `ef_construction` 指定 HNSW 构建过程中考虑连接的候选邻居数量。该参数越高,召回率越高,但是索引构建时间更长。默认为 50。

我们建议用户根据向量维度、数据集大小来设置以上配置项。

## 示例

我们提供了一个 Python 脚本,展示如何使用向量索引来加速向量检索。这个脚本执行的步骤如下:
Expand Down