Skip to main content

这是 Python 的文本分区器项目。

项目描述

## 概要

这是 Python 分区器项目。partitioner 模块执行高级 NLP 任务,基本上等同于标记化(例如,将文本拆分为单词),并泛化为多单词表达式 (MWE) 分割。对不熟悉 MWE 的人的定义:

“句子中的一组标记,比普通的句法组合更紧密地结合在一起。”

因此,分区器可用于分割一个或多个单词的文本“短语”。

## 代码示例

要加载模块,请运行:

>>> 从 partitioner.tools 导入分区器

由于该模块没有数据,运行通知分区将需要获取训练数据,这可以通过使用.download()方法来获取:

>>> pa = 分区器()

>>> pa.download()

请注意,上述内容需要响应提示。

此外,由于分区器的高性能版本利用 nltk 包的PerceptronTagger()函数,请考虑运行:

>>> 导入 nltk

>>> nltk.下载()

并下载所有 nltk 数据。

下载训练数据后,以下将加载所有英文数据集。这需要大量内存资源,但会产生高性能模型:

>>> pa = partitioner(language = “en”, doPOS = True, doLFD = True, maxgap = 8, q = {“type”: 0.74, “POS”: 0.71})

>>> pa.partition(“这样的事情怎么会突然出现?”)

['如何','','可以','','某事','','喜欢','','这个','','简单','','弹出','' , '出乎意料', '?']

内存开销来自英文维基百科数据集。虽然庞大,但该数据集提供了大量的命名实体。要从特定的英语源加载,请使用:

>>> pa = partitioner(language=”en”, source=”wiktionary”)

或其他数据集之一。要查看所有可用的数据集,请查看:

>>> pa.datasets

要从特定语言加载所有集合(假设数据已添加到来自 Wikipedia 的起始数据之外),请使用:

>>> pa = partitioner(语言=”es”, source=””)

## 动机

partitioner 项目的最初目标是创建一个快速、高效且通用的算法,将文本分割成最小可能的有意义的单元,我们将其称为短语。这本质上与用于综合 MWE 分割的 NLP 任务相吻合。此模块功能的参考可以在以下文章中找到:

https://arxiv.org/pdf/1608.02025.pdf

## 安装

从命令行使用 pip:

>>> pip 安装分区程序

或者,如果从命令行使用 git 首先克隆存储库:

>>> git 克隆https://github.com/jakerylandwilliams/partitioner.git

然后导航存储库的主目录并运行:

>>> 须藤 python setup.py 安装

## 贡献者

杰克莱兰威廉姆斯和安迪里根

## 执照

阿帕奇

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

partitioner-0.1.2.tar.gz (23.0 kB 查看哈希

已上传 source