Skip to main content

Mysam:阿拉伯语标签管理器

项目描述

Mysam:阿拉伯语标签管理器,ميسم:إدارة الوسوم العربية

تسيير وسوم الكلمات العربية في مجال المعالجة الآلية للغة، ترميز وتفكيك هذه المكتبة توفر سكريبتا خاصا بترميز وسوم الكلمات (الخصائص الصرفية والنحوية والدلالية) في عبارة وسم مختصرة على شكل سلسلة حروف قصيرة مرمّزة نسميها سلسلة الوسوم. quisteحsthipucous

كما تقدّم خدمة متميزة في الإعراب بالطريقة القديمة

  • قائمة الوسوم : 名词, جامد, مضاف, مجرور, متحرك, ينون

  • سلسلة الوسوم المختصرة [N-;-I-;-H;--]

  • جملة الإعراب {اسم مجرور وهو مضاف، والضمير المتصل مبني في محل جر مضاف إليه}

** هذه ليست مكتبة لتوسيم، بل لإدارة الوسوم في معالجة اللغة**

管理阿拉伯语单词标签,编码,解码这个库提供了一个脚本来编码POS标签(单词特征:形态,语法,语义),作为一个称为标签字符串的简短标签字符串。我们可以在标签列表 <==> 编码的标签字符串之间进行转换。我们计划将其用于:

它提供了一个特殊的功能,使传统的屈折变化

转换可以这样做:

  • 标签列表:名词, جامد, مضاف, مجرور, متحرك, ينون

  • 编码标签字符串 [N-;-I-;-H;--]

  • 变形短语 {اسم مجرور وهو مضاف، والضمير المتصل مبني في محل جر مضاف إليه}

** 这不是标签库,而是 NLP 的标签管理器 **

标记系统说明

您可以查看doc/tagset.md上的标记说明

开发者: Taha Zerrouki:http : //tahadz.com taha dot zerrouki at gmail dot com

特征

价值

作者

Taha Zerrouki: http://tahad z.com,gmail dot com 的 taha dot zerrouki

发布

0.2

执照

GPL

追踪器

linuxscout/mysam-tagman ager/问题

网站

https://pypi.python.org/pypi/mysam-t agmanager

资源

Github

反馈

注释

账户

[@Twitter](h ttps://twitt er.com/linux scout) [@Sourceforge](http://so urceforge.net/projects/mysam-tagmana ger/)

喜欢

  • ترميز المزايا إلى وسم موحد مختصر

  • تفكيك الوسم إلى خصائصه

  • توليد الإعراب حسب الطريق التقليدية

特征

  • 将特征编码为统一的标签字符串

  • 将统一标签字符串编码为特征列表

  • 生成传统的变形风格

应用

  • 文字总结。

  • 句子识别。

  • 语法分析。

  • 形态分析。

تطبيقات

  • التنقيب عن المعلومات。

  • التعرف على الجمل。

  • 答案是什么。

  • تسريع التحليل الصرفي。

演示 جرّب

免费_ _

您可以在Mishkal Site上对其进行测试,选择:Tashkeel,然后将鼠标移到单词上以获得提示。

安装

` pip install mysam-tagmanager `

用法

import mysam.tagmaker as tagmaker

例子

测试负载配置

import mysam.tagconfig as tagconfig
import mysam.tag_const as tag_const
import pandas as pd
configuer = tagconfig.tagConfig()
configuer.load_config()
# display
df = pd.DataFrame(tag_const.TAGSDICT)
print('****tagdict ****')
print(df)
*****Result *****
****tagdict ****
          1st person  2nd person  3rd person          Beh          FEH  \
ar_attr          شخص         شخص         شخص           جر          عطف
ar_value       متكلم       مخاطب        غائب          باء        الفاء
attr          person      person      person  preposition  conjonction
code               I           Y           H            B            F
inflect                                            بالباء
part               4           4           4            3            3
pos                4           4           4            2            1
value     1st person  2nd person  3rd person          Beh          FEH
....
....

您可以通过将参数传递给 load_conf 来加载特定的配置文件。如果文件不存在或无法打开,则加载默认配置。

configuer = tagconfig.tagConfig()
configuer.load_config("tag.config")

如果您想知道输入文件是否打开,请将 'debug' 参数修复为 'True'

如果您想知道输入文件是否打开,请将 'debug' 参数修复为 'True'

configuer = tagconfig.tagConfig()
configuer.load_config("tag.config", debug=True)

测试呼叫标记器

import mysam.tagmaker as tagmaker

taglists = [[u'اسم', u'هاء', u'مجرور',],
        u'تعريف::مرفوع:متحرك:ينون:::'.split(":"),
        ]
for taglist in taglists:
tag_maker = tagmaker.tagMaker()
# encode
tag_maker.encode(taglist)
print(u"+".join(taglist).encode('utf8'))
tagstr = str(tag_maker)
print(tagstr)
# decode a unifed tag string
print(tag_maker.decode())

**** result ****

اسم+هاء+مجرور
N--;--I-;----;----
[(u'نوع الكلمة', u'اسم'), (u'جنس', u'لاشيء'), (u'عدد', u'لاشيء'), (u'إعراب', u'مجرور'), (u'علامة', u'لاشيء'), (u'عطف', u'لاشيء'), (u'جر', u'لاشيء'), (u'تعريف', u'نكرة'), (u'ضمير متصل', u'لاشيء'), (u'استقبال', u'لاشيء'), (u'بناء', u'لاشيء'), (u'زمن', u'لاشيء'), (u'شخص', u'لاشيء')]
تعريف++مرفوع+متحرك+ينون+++
---;--U-;--L-;----
[(u'نوع الكلمة', u'لاشيء'), (u'جنس', u'لاشيء'), (u'عدد', u'لاشيء'), (u'إعراب', u'مرفوع'), (u'علامة', u'لاشيء'), (u'عطف', u'لاشيء'), (u'جر', u'لاشيء'), (u'تعريف', u'معرفة'), (u'ضمير متصل', u'لاشيء'), (u'استقبال', u'لاشيء'), (u'بناء', u'لاشيء'), (u'زمن', u'لاشيء'), (u'شخص', u'لاشيء')]

变形例

>>> tag_maker = tagmaker.tagMaker()
>>> tagcode = 'N--;--I-;----;---'
>>> print(tag_maker.inflect(tagcode).encode('utf8'))
اسم مجرور وعلامة جرّه الياء لأنه جمع مذكر سالم وهو مضاف، والضمير المتصل مبني في محل جر مضاف إليه

添加标签示例

>>> tag_maker = tagmaker.tagMaker()
>>> tagcode = 'N--;--I-;----;---'
>>> tag_new = u"تعريف"
>>> tag_maker.add(tag_new)
>>> tag_new = u"اسم"
>>> tag_maker.add(tag_new)
>>> print(str(tag_maker).encode('utf8'))
N--;----;--L-;----

具有标签的示例

>>> tag_maker = tagmaker.tagMaker()
>>> tagcode = 'N--;--I-;----;---'
>>> tag_search = u"مجرور"
>>> print(tag_maker.has_tag(tag_search, tagcode))
True

项目详情


下载文件

下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。

内置分布

mysam_tagmanager-0.3.3-py3-none-any.whl (30.6 kB 查看哈希

已上传 py3