这是 Python 的文本分区器项目。
项目描述
## 概要
这是 Python 分区器项目。partitioner 模块执行高级 NLP 任务,基本上等同于标记化(例如,将文本拆分为单词),并泛化为多单词表达式 (MWE) 分割。对不熟悉 MWE 的人的定义:
“句子中的一组标记,比普通的句法组合更紧密地结合在一起。”
因此,分区器可用于分割一个或多个单词的文本“短语”。
## 代码示例
要加载模块,请运行:
>>> 从 partitioner.tools 导入分区器
由于该模块没有数据,运行通知分区将需要获取训练数据,这可以通过使用.download()方法来获取:
>>> pa = 分区器()
>>> pa.download()
请注意,上述内容需要响应提示。
此外,由于分区器的高性能版本利用 nltk 包的PerceptronTagger()函数,请考虑运行:
>>> 导入 nltk
>>> nltk.下载()
并下载所有 nltk 数据。
下载训练数据后,以下将加载所有英文数据集。这需要大量内存资源,但会产生高性能模型:
>>> pa = partitioner(language = “en”, doPOS = True, doLFD = True, maxgap = 8, q = {“type”: 0.74, “POS”: 0.71})
>>> pa.partition(“这样的事情怎么会突然出现?”)
['如何','','可以','','某事','','喜欢','','这个','','简单','','弹出','' , '出乎意料', '?']
内存开销来自英文维基百科数据集。虽然庞大,但该数据集提供了大量的命名实体。要从特定的英语源加载,请使用:
>>> pa = partitioner(language=”en”, source=”wiktionary”)
或其他数据集之一。要查看所有可用的数据集,请查看:
>>> pa.datasets
要从特定语言加载所有集合(假设数据已添加到来自 Wikipedia 的起始数据之外),请使用:
>>> pa = partitioner(语言=”es”, source=””)
## 动机
partitioner 项目的最初目标是创建一个快速、高效且通用的算法,将文本分割成最小可能的有意义的单元,我们将其称为短语。这本质上与用于综合 MWE 分割的 NLP 任务相吻合。此模块功能的参考可以在以下文章中找到:
https://arxiv.org/pdf/1608.02025.pdf
## 安装
从命令行使用 pip:
>>> pip 安装分区程序
或者,如果从命令行使用 git 首先克隆存储库:
>>> git 克隆https://github.com/jakerylandwilliams/partitioner.git
然后导航存储库的主目录并运行:
>>> 须藤 python setup.py 安装
## 贡献者
杰克莱兰威廉姆斯和安迪里根
## 执照
阿帕奇