diff --git a/zh_CN/vector-search/vector-index.md b/zh_CN/vector-search/vector-index.md index 24d4d39..c106102 100644 --- a/zh_CN/vector-search/vector-index.md +++ b/zh_CN/vector-search/vector-index.md @@ -79,6 +79,21 @@ CREATE TABLE `t` ( PARTITION BY HASH (`sid`) PARTITIONS 1 ``` +### 配置 + +创建向量索引时支持以下配置项: + +- `type`:向量索引类型,可以指定为 IVF_PQ、IVF_RQ、HNSW、HNSW_PQ 等任一我们所支持的索引类型。 +- `distance`:距离函数,可以指定为 l2、cosine、dot。注意,如果选择 RQ 量化,不允许将距离函数设置为 cosine。 +- `num_cells`:适用于 IVF 类索引,使用 `num_cells` 指定向量簇的数量。数量越多,搜索越快,但是构建索引时间更长、召回率越低。默认为 32。 +- `num_sub_vectors`:适用于 PQ 量化,使用 `num_sub_vectors` 指定子向量的个数。数量越多,压缩率越高,但是构建索引时间更长、召回率更低。默认为 32。 +- `num_bits`:适用于 PQ 量化,使用 `num_bits` 指定使用多少个 bits 来表示一个向量子空间中的质心。 `num_bits` 越大,压缩率越低、召回率更高,但是构建索引时间更长。目前仅支持设置为 8。 +- `max_level`:适用于 HNSW 类索引,使用 `max_level` 指定 HNSW 层数。层数越大,查询越快,但是构建索引时间更长。默认为 7。 +- `m`:适用于 HNSW 类索引,使用 `m` 指定每个节点可连接的最大邻居数量。 `m` 越大,召回率越高,但是索引构建时间更长、查询更慢。默认为 10。 +- `ef_construction`:适用于 HNSW 类索引,使用 `ef_construction` 指定 HNSW 构建过程中考虑连接的候选邻居数量。该参数越高,召回率越高,但是索引构建时间更长。默认为 50。 + +我们建议用户根据向量维度、数据集大小来设置以上配置项。 + ## 示例 我们提供了一个 Python 脚本,展示如何使用向量索引来加速向量检索。这个脚本执行的步骤如下: