用于俄语语言的 Yandex MyStem 3.1 形态分析器的 Python 包装器。
项目描述
介绍
该模块包含一个用于俄语Yandex Mystem 3.1的优秀形态分析器的包装器,该分析器于 2014 年 6 月发布。形态分析器可以执行文本的词形还原并为每个标记派生一组形态属性。有关该算法的更多详细信息,请参见 I. Segalovich «A fast morphological algorithm with unknown word guessing by a dictionary for a web search engine»,MLMTA-2003,美国内华达州拉斯维加斯。
Python 是许多计算语言学家的首选语言,包括那些使用俄语的人。这种开发的主要动机是没有任何用于 Mystem 的 Python 包装器,Mystem 是最流行的俄语形态分析器之一,还有PyMorphy2、TreeTagger和AOT。
Mystem 的第三个版本引入了几个重要的改进,最重要的是词性消歧。我们的包装器以执行 POS 消歧的模式运行 Mystem。
这个包装器是在 MIT 许可下开源的。但是,请注意 Yandex Mystem 不是开源的,并且在Yandex 许可证的条件下获得许可。
系统要求
包装器适用于 CPython 2.6+/3.3+ 和 PyPy 1.9+。
包装器在 Ubuntu Linux 12.04+、Mac OSX 10.9+ 和 Windows 7+ 上进行了测试。
对于 32 位架构和 freebsd 平台支持,请使用 ver。0.1.10。
安装
稳定版:https ://pypi.python.org/pypi/pymystem3 。您可以使用 pip 安装它:
pip install pymystem3
最新版本(推荐):https ://github.com/nlpub/pymystem3 :
pip install git+https://github.com/nlpub/pymystem3
一个简单的例子
词形还原
>>> from pymystem3 import Mystem
>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)
>>> print(''.join(lemmas))
красивый мама красиво мыть рама
获取语法信息和引理。
>>> import json
>>> from pymystem3 import Mystem
>>> text = "Красивая мама красиво мыла раму"
>>> m = Mystem()
>>> lemmas = m.lemmatize(text)
>>> print "lemmas:", ''.join(lemmas)
>>> print "full info:", json.dumps(m.analyze(text), ensure_ascii=False, encoding='utf8')
lemmas: красивый мама красиво мыть рама
full info: [{"text": "Красивая", "analysis": [{"lex": "красивый", "gr": "A=им,ед,полн,жен"}]}, {"text": " "}, {"text": "мама", "analysis": [{"lex": "мама", "gr": "S,жен,од=им,ед"}]}, {"text": " "}, {"text": "красиво", "analysis": [{"lex": "красиво", "gr": "ADV="}]}, {"text": " "}, {"text": "мыла", "analysis": [{"lex": "мыть", "gr": "V,несов,пе=прош,ед,изъяв,жен"}]}, {"text": " "}, {"text": "раму", "analysis": [{"lex": "рама", "gr": "S,жен,неод=вин,ед"}]}, {"text": "\n"}]
问题
请报告您使用 GitHub 问题跟踪器 ( https://github.com/nlpub/pymystem3/issues ) 时遇到的任何错误或请求!我们只有非常有限的资源来维护这个项目:如果您看到解决问题的明显方法,请直接提出拉取请求。我们非常愿意接受错误修复,非常感谢您的帮助。
项目详情
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
源分布
内置分布
pymystem3-0.2.0.tar.gz的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 1aaed6a15451cc73f5750bcda77559e681215e1e391b35dd4325bd132a3afb95 |
|
| MD5 | 98b293cc40a497543b3d3ce7c7c5a07a |
|
| 布莱克2-256 | 4ec256486b7eb180d83363baa2e609fcc2d49280331ad67e348cf8fa456050bf |
pymystem3-0.2.0 -py3-none-any.whl 的哈希值
| 算法 | 哈希摘要 | |
|---|---|---|
| SHA256 | 0bfdb0c2c57157f413c85f3e5f54a41f294880c3d6e8028066e71598ee6b52aa |
|
| MD5 | 2ff2d95a9c352cd8eb1e4697b88527aa |
|
| 布莱克2-256 | 008c98b43c5822620458704e187a1666616c1e21a846ede8ffda493aabe11207 |