处理塞尔维亚语的库

项目描述

SrbAI - Python biblioteka za procesiranje srpskog jezika

SrbAI je projekat prikupljanja algoritama i modela za procesiranje srpskog jezika u jedinstvenu Python biblioteku。Biblioteka treba da sadrži kako osnovne metode za procesiranje srpskog、poput stemmera、prepoznavanje vrsta reči（词性标注）、negacija、do naprednijih funkcionalnosti、poput prepoznavanje imenovanih entiteta（命名实体标注）、klasifikacije、itd。Biblioteka jednostavno može da se proširi novim metodima, tako da je ideja da se veći broj studenata, doktoranada i drugih ljudi koji rade i su zainteresovani za razvoj srpskog procesiranja jezika uključe u razvoj projekta。

Vizija projekta je da postane jedinstven i sveobuhvatan resurs za obradu srpskog jezika koji bi se koristio bilo u akademske, bilo u komercijalne svrhe。

因斯塔拉西亚

Kada klonirate paket, možete ga instalirati uz pomoć:

python -m pip install --upgrade build .

Paket se može kreirati uz pomoć komande:

python -m build

Nakon čega se može instalirati uz pomoć python pip komande

乌波特雷巴

Nakon instalacije, paket se može importovati kao

from src import srbai

音译

Za transliteraciju postoje 2 metode, jedna za transliteraciju sa ćirilice na latinicu, dok druga za transliteraciju sa latinice na ćirilicu

from src.srbai.Alati.Transliterator import transliterate_cir2lat, transliterate_lat2cir

lat = transliterate_cir2lat("Текст на ћирилици. ")
cir = transliterate_lat2cir("Tekst na latinici. ")

词干

Stemer se može koristiti uz pomoć sledeće dve funkcije:

stem_str - pretvara ulazni tekst u stemmovani izlazni 字符串
stem_arr - pretvata ulazni tekst u niz string-ova koji su stemmovani

底漆：

from src.srbai.SintaktickiOperatori.stemmer_nm import stem_str, stem_arr

sent = stem_str("Jovica je išao u školu. Marija je dobra devojka.")

from src.srbai.SintaktickiOperatori.stemmer_nm import stem_str, stem_arr

sent_arr = stem_arr("Jovica je išao u školu. Marija je dobra devojka.")

Pronalaženje vrsta reči（词性标注）

Za pronalaženje vrsta reči u rečenici i morfološku analizu koristimo HunPos 模型 koji je treniran za srpski i hrvatski jezik。

O karakteristikama modela, oznakama vrsta reči možete više pročitati na http://nlp.ffzg.hr/data/tagging/msd-hr.html

Da bi se 模型 instancirao u memoriju、koristi se klasa、radi brže kasnije obrade i optimizacije resursa。

Primeri korišćenja:

from src.srbai.SintaktickiOperatori.POS_tagger import POS_Tagger

pt = POS_Tagger()
tags = pt.tag('Jovica je išao u školu. Marija je dobra devojka.')
# [('Jovica', b'N-msn'), ('je', b'Vcr3s'), ('išao', b'Vmp-sm'), ('u', b'Sa'), ('školu', b'N-fsa'), ('.', b'Z'), ('Marija', b'N-fsn'), ('je', b'Vcr3s'), ('dobra', b'Agpfsn'), ('devojka', b'N-fsn'), ('.', b'Z')]

Autori i kontributori

项目详情

发布历史发布通知| RSS订阅

这个版本

0.0.3

2022 年 2 月 28 日

0.0.2

2021 年 11 月 24 日

0.0.1

2021 年 11 月 24 日

下载文件

下载适用于您平台的文件。如果您不确定要选择哪个，请了解有关安装包的更多信息。

源分布

SrbAI-0.0.3.tar.gz （7.2 kB 查看哈希）

已上传 2022 年 2 月 28 日 source

内置分布

SrbAI-0.0.3-py3-none-any.whl （9.0 kB 查看哈希）

已上传 2022 年 2 月 28 日 py3

SrbAI -0.0.3.tar.gz 的哈希值

SrbAI-0.0.3.tar.gz 的哈希值
算法	哈希摘要
SHA256	`16e9acf8a35b0f6af5fb4f397cd8922a01d2a3dc5260975ab070699e5dff8f93`
MD5	`43656ac21329c5acc3d648d717278391`
布莱克2-256	`f5664c200148965ae434c0f09407f26b4902794f436a6c4c283e3db1ed747af1`

SrbAI -0.0.3-py3-none-any.whl 的哈希值

SrbAI-0.0.3-py3-none-any.whl 的哈希值
算法	哈希摘要
SHA256	`3b994c33868131e00dd30a5f46081627232ec97b7e1506ee5411d9d5b79ca718`
MD5	`3db50d1b59bac36dfa15d5ca121ecdb5`
布莱克2-256	`f106b93c2a78289b232271c892daf5f0fe385fff88afa2de61c0254c47129c4b`

SrbAI 0.0.3

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

SrbAI - Python biblioteka za procesiranje srpskog jezika

因斯塔拉西亚

乌波特雷巴

音译

词干

Pronalaženje vrsta reči（词性标注）

Autori i kontributori

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史发布通知| RSS订阅

下载文件

源分布

内置分布

SrbAI 0.0.3

导航

项目链接

统计数据

Meta

Maintainers

分类

项目描述

SrbAI - Python biblioteka za procesiranje srpskog jezika

因斯塔拉西亚

乌波特雷巴

音译

词干

Pronalaženje vrsta reči（词性标注）

Autori i kontributori

项目详情

项目链接

统计数据

元

维护者

分类器

发布历史 发布通知| RSS订阅

下载文件

源分布

内置分布

发布历史发布通知| RSS订阅