用于处理和搜索非常大的数据集的概率数据结构
项目描述
datasketch 为您提供概率数据结构,可以超快地处理和搜索大量数据,而准确性几乎没有损失。
该软件包包含以下数据草图:
数据草图 |
用法 |
|---|---|
估计 Jaccard 相似度和基数 |
|
估计加权 Jaccard 相似度 |
|
估计基数 |
|
估计基数 |
提供以下数据草图索引以支持次线性查询时间:
指数 |
对于数据草图 |
支持的查询类型 |
|---|---|---|
最小哈希,加权最小哈希 |
杰卡德阈值 |
|
最小哈希,加权最小哈希 |
Jaccard Top-K |
|
最小哈希 |
遏制阈值 |
datasketch 必须与 Python 2.7 或更高版本、NumPy 1.11 或更高版本以及 Scipy 一起使用。
请注意,MinHash LSH和MinHash LSH Ensemble还支持 Redis 和 Cassandra 存储层(请参阅MinHash LSH at Scale)。
安装
使用pip安装数据草图:
pip install datasketch
这也将安装 NumPy 作为依赖项。
要安装 Redis 依赖项:
pip install datasketch[redis]
要安装 Cassandra 依赖项:
pip install datasketch[cassandra]