Skip to main content

用于俄语语言的 Yandex MyStem 3.1 形态分析器的 Python 包装器。

项目描述

构建状态

介绍

该模块包含一个用于俄语Yandex Mystem 3.1的优秀形态分析器的包装器,该分析器于 2014 年 6 月发布。形态分析器可以执行文本的词形还原并为每个标记派生一组形态属性。有关该算法的更多详细信息,请参见 I. Segalovich «A fast morphological algorithm with unknown word guessing by a dictionary for a web search engine»,MLMTA-2003,美国内华达州拉斯维加斯。

Python 是许多计算语言学家的首选语言,包括那些使用俄语的人。这种开发的主要动机是没有任何用于 Mystem 的 Python 包装器,Mystem 是最流行的俄语形态分析器之一,还有PyMorphy2TreeTaggerAOT

Mystem 的第三个版本引入了几个重要的改进,最重要的是词性消歧。我们的包装器以执行 POS 消歧的模式运行 Mystem。

这个包装器是在 MIT 许可下开源的。但是,请注意 Yandex Mystem 不是开源的,并且在Yandex 许可证的条件下获得许可。

系统要求

包装器适用于 CPython 2.6+/3.3+ 和 PyPy 1.9+。

包装器在 Ubuntu Linux 12.04+、Mac OSX 10.9+ 和 Windows 7+ 上进行了测试。

对于 32 位架构和 freebsd 平台支持,请使用 ver。0.1.10。

安装

  1. 稳定版:https ://pypi.python.org/pypi/pymystem3 。您可以使用 pip 安装它:

    pip install pymystem3
  1. 最新版本(推荐):https ://github.com/nlpub/pymystem3 :

    pip install git+https://github.com/nlpub/pymystem3

一个简单的例子

词形还原

>>> from pymystem3 import Mystem
>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)
>>> print(''.join(lemmas))
красивый мама красиво мыть рама

获取语​​法信息和引理。

>>> import json
>>> from pymystem3 import Mystem

>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)

>>> print "lemmas:", ''.join(lemmas)
>>> print "full info:", json.dumps(m.analyze(text), ensure_ascii=False, encoding='utf8')

lemmas: красивый мама красиво мыть рама

full info: [{"text": "Красивая", "analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}]}, {"text": " "}, {"text": "мама", "analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}]}, {"text": " "}, {"text": "красиво", "analysis": [{"lex": "красиво", "gr": "ADV="}]}, {"text": " "}, {"text": "мыла", "analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}]}, {"text": " "}, {"text": "раму", "analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}]}, {"text": "\n"}]

问题

请报告您使用 GitHub 问题跟踪器 ( https://github.com/nlpub/pymystem3/issues ) 时遇到的任何错误或请求!我们只有非常有限的资源来维护这个项目:如果您看到解决问题的明显方法,请直接提出拉取请求。我们非常愿意接受错误修复,非常感谢您的帮助。

作者

Github 列出了完整的贡献者列表。您也可以通过电子邮件联系项目的原始贡献者:

  • 丹尼斯·苏霍宁(d.sukhonin):发展

  • 亚历山大·潘琴科 (panchenko.alexander):受孕

@gmail

如果您有兴趣进一步开发或成为该项目的维护者,请给我们发送电子邮件:非常感谢您的帮助。

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

源分布

pymystem3-0.2.0.tar.gz (21.6 kB 查看哈希

已上传 source

内置分布

pymystem3-0.2.0-py3-none-any.whl (10.9 kB 查看哈希

已上传 3 6