partitioner - 这是 Python 的文本分区器项目。

这是 Python 的文本分区器项目。

Development Status
- 3 - Alpha
Intended Audience
- Developers
Programming Language

项目描述

## 概要

这是 Python 分区器项目。partitioner 模块执行高级 NLP 任务，基本上等同于标记化（例如，将文本拆分为单词），并泛化为多单词表达式 (MWE) 分割。对不熟悉 MWE 的人的定义：

“句子中的一组标记，比普通的句法组合更紧密地结合在一起。”

因此，分区器可用于分割一个或多个单词的文本“短语”。

## 代码示例

要加载模块，请运行：

>>> 从 partitioner.tools 导入分区器

由于该模块没有数据，运行通知分区将需要获取训练数据，这可以通过使用.download()方法来获取：

>>> pa = 分区器（）

>>> pa.download()

请注意，上述内容需要响应提示。

此外，由于分区器的高性能版本利用 nltk 包的PerceptronTagger()函数，请考虑运行：

>>> 导入 nltk

>>> nltk.下载（）

并下载所有 nltk 数据。

下载训练数据后，以下将加载所有英文数据集。这需要大量内存资源，但会产生高性能模型：

>>> pa = partitioner(language = “en”, doPOS = True, doLFD = True, maxgap = 8, q = {“type”: 0.74, “POS”: 0.71})

>>> pa.partition(“这样的事情怎么会突然出现？”)

['如何'，''，'可以'，''，'某事'，''，'喜欢'，''，'这个'，''，'简单'，''，'弹出'，'' , '出乎意料', '?']

内存开销来自英文维基百科数据集。虽然庞大，但该数据集提供了大量的命名实体。要从特定的英语源加载，请使用：

>>> pa = partitioner(language=”en”, source=”wiktionary”)

或其他数据集之一。要查看所有可用的数据集，请查看：

>>> pa.datasets

要从特定语言加载所有集合（假设数据已添加到来自 Wikipedia 的起始数据之外），请使用：

>>> pa = partitioner(语言=”es”, source=””)

＃＃动机

partitioner 项目的最初目标是创建一个快速、高效且通用的算法，将文本分割成最小可能的有意义的单元，我们将其称为短语。这本质上与用于综合 MWE 分割的 NLP 任务相吻合。此模块功能的参考可以在以下文章中找到：

https://arxiv.org/pdf/1608.02025.pdf

＃＃安装

从命令行使用 pip：

>>> pip 安装分区程序

或者，如果从命令行使用 git 首先克隆存储库：

>>> git 克隆https://github.com/jakerylandwilliams/partitioner.git

然后导航存储库的主目录并运行：

>>> 须藤 python setup.py 安装

## 贡献者

杰克莱兰威廉姆斯和安迪里根

＃＃执照

阿帕奇

项目详情

发布历史发布通知| RSS订阅

这个版本

0.1.2

2017 年 6 月 9 日

0.1.1

2017 年 4 月 26 日

0.1.0

2017 年 4 月 26 日

0.0.4

2016 年 2 月 3 日

0.0.3

2016 年 2 月 3 日

0.0.2

2016 年 2 月 3 日

0.0.1

2016 年 2 月 1 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

partitioner-0.1.2.tar.gz （23.0 kB 查看哈希）

已上传 2017 年 6 月 9 日 source

partitioner-0.1.2.tar.gz 的哈希值

partitioner-0.1.2.tar.gz 的哈希值
算法	哈希摘要
SHA256	`4401570e184e138548364448c08a979ee64c88efec9c6677bd4caac9d4d6f5a0`
MD5	`44f5bc748d5870fabe3fdeffe249d648`
布莱克2-256	`f9cfb4f5fc5e0df01a40468ce79ee0969eba1ff69a54b1c070d9b5305792ed43`

partitioner 0.1.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

partitioner 0.1.2

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

发布历史发布通知| RSS订阅