Skip to main content

用于处理和搜索非常大的数据集的概率数据结构

项目描述

https://github.com/ekzhu/datasketch/workflows/Python%20package/badge.svg https://zenodo.org/badge/DOI/10.5281/zenodo.290602.svg

datasketch 为您提供概率数据结构,可以超快地处理和搜索大量数据,而准确性几乎没有损失。

该软件包包含以下数据草图:

数据草图

用法

最小哈希

估计 Jaccard 相似度和基数

加权最小哈希

估计加权 Jaccard 相似度

超级日志

估计基数

HyperLogLog++

估计基数

提供以下数据草图索引以支持次线性查询时间:

指数

对于数据草图

支持的查询类型

MinHash LSH

最小哈希,加权最小哈希

杰卡德阈值

MinHash LSH 森林

最小哈希,加权最小哈希

Jaccard Top-K

MinHash LSH 合奏

最小哈希

遏制阈值

datasketch 必须与 Python 2.7 或更高版本、NumPy 1.11 或更高版本以及 Scipy 一起使用。

请注意,MinHash LSHMinHash LSH Ensemble还支持 Redis 和 Cassandra 存储层(请参阅MinHash LSH at Scale)。

安装

使用pip安装数据草图:

pip install datasketch

这也将安装 NumPy 作为依赖项。

要安装 Redis 依赖项:

pip install datasketch[redis]

要安装 Cassandra 依赖项:

pip install datasketch[cassandra]

发布历史 发布通知| RSS订阅