微软:向量搜索和向量数据库

向量是未来的数据表示

向量搜索

方法

减少距离计算次数

- 哈希法
- 空间划分树
- 近邻图
SPTAG

混合了kd树和近邻图


Change
大规律向量搜索

- 内存
- 可扩展

-
倒排索引
-
全局量化进行压缩
-
top1的召回率比较低
-
基于图的近邻图
SPANN


倒排索引中的问题:
- 不平衡的聚类方法
- 低覆盖率

- 有重叠的聚类,不同方向的复制
- 查询状态剪枝,离查询距离比较近的查询倒查表










参考
- https://github.com/microsoft/SPTAG
- HNSW: https://arxiv.org/pdf/1603.09320.pdf
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
