PyNLPl,发音为“菠萝”,是用于自然语言处理的 Python 库。它包含对常见和不太常见的 NLP 任务有用的各种模块。PyNLPl 包含用于基本任务的模块、用于与服务器交互的客户端和 m
项目描述
PyNLPl,发音为“菠萝”,是用于自然语言处理的 Python 库。它包含对常见和不太常见的 NLP 任务有用的各种模块。PyNLPl 可用于基本任务,例如提取 n-gram 和频率列表,以及构建简单的语言模型。还有更复杂的数据类型和算法。此外,还有 NLP 中常见的文件格式解析器(例如 FoLiA/Giza/Moses/ARPA/Timbl/CQL)。还有客户端与各种 NLP 特定服务器交互。PyNLPl 最值得注意的是具有一个非常广泛的库,用于处理 FoLiA XML(语言注释格式)。
该库分为几个包和模块。它适用于 Python 2.7 和 Python 3。
以下模块可用:
pynlpl.datatypes - 额外的数据类型(优先队列、模式、尝试)
pynlpl.evaluation - 评估和实验类(参数搜索、包装渐进式采样、类评估(精度/召回/f-score/auc)、采样器、混淆矩阵、多线程实验池)
pynlpl.formats.cgn - 用于解析 CGN(Corpus Gesproken Nederlands)词性标签的模块
pynlpl.formats.folia - 用于阅读和操作FoLiA格式(语言注释格式)文档的扩展库。
pynlpl.formats.fql - FoLiA 查询语言 (FQL) 的扩展库,建立在pynlpl.formats.folia 之上。FQL 目前在此处记录。
pynlpl.formats.cql - 语料库查询语言 (CQL) 的解析器,也被语料库工作台和草图引擎使用。包含一个到 FQL 的转换器。
pynlpl.formats.giza - 用于读取 GIZA++ 字对齐数据的模块
pynlpl.formats.moses - 用于阅读摩西短语翻译表的模块。
pynlpl.formats.sonar - 用于 SoNaR 语料库预发布的大部分已过时的模块,请改用pynlpl.formats.folia。
pynlpl.formats.timbl - 用于读取 Timbl 输出的模块(考虑使用 python-timbl代替)
pynlpl.lm.lm - 简单语言模型的模块和 ARPA 语言模型数据的阅读器(由 SRILM 使用)。
pynlpl.search - 各种搜索算法(广度优先、深度优先、波束搜索、爬山、A 星、每种算法的各种变体)
pynlpl.statistics - 频率列表、Levenshtein、常用统计和信息论函数
pynlpl.textprocessors - 简单的分词器,n-gram 提取
安装
使用pip install pynlpl(或大多数系统上的 Python 3 的 pip3)直接从 Python 包索引下载并安装最新的稳定版本。对于全局安装,请预先添加sudo。
或者,克隆此存储库并运行python setup.py install(或 python3 setup.py install用于大多数系统上的 Python 3。为全局安装预先添加sudo 。
该软件也可以在某些 Linux 发行版中找到,例如 Debian/Ubuntu、python-pynlpl和python3-pynlpl等最新版本。PyNLPL 也包含在我们的LaMachine发行版中。
文档
API 文档可以在这里找到。