项目描述
Naeval——比较俄语 NLP 系统的质量和性能。Naeval 用于评估项目 Natasha组件:Razdel、Navec、Slovnet:
代币化
有关更多信息,请参阅Razdel 评估部分。
|
语料库 |
合成标签 |
吉里亚 |
RNC |
|
错误 |
时间 |
错误 |
时间 |
错误 |
时间 |
错误 |
时间 |
| re.findall(\w+|\d+|\p+) |
4161 |
0.5 |
2660 |
0.5 |
2277 |
0.4 |
7606 |
0.4 |
| 斯派西 |
4388 |
6.2 |
2103 |
5.8 |
1740 |
4.1 |
4057 |
3.9 |
| nltk.word_tokenize |
14245 |
3.4 |
60893 |
3.3 |
13496 |
2.7 |
41485 |
2.9 |
| 神秘的 |
4514 |
5.0 |
3153 |
4.7 |
2497 |
3.7 |
2028 |
3.9 |
| 莫斯标记器 |
1886年 |
2.1 |
1330 |
1.9 |
1796 |
1.6 |
2123 |
1.7 |
| segtok.word_tokenize |
2772 |
2.3 |
1288 |
2.3 |
1759 |
1.8 |
1229 |
1.8 |
| aatimofeev/spacy_russian_tokenizer |
2930 |
48.7 |
719 |
51.1 |
678 |
39.5 |
2681 |
52.2 |
| 科齐耶夫/rutokenizer |
2627 |
1.1 |
1386 |
1.0 |
2893 |
0.8 |
9411 |
0.9 |
| razdel.tokenize |
1510 |
2.9 |
1483 |
2.8 |
322 |
2.0 |
2124 |
2.2 |
分句
|
语料库 |
合成标签 |
吉里亚 |
RNC |
|
错误 |
时间 |
错误 |
时间 |
错误 |
时间 |
错误 |
时间 |
| re.split([.?!…]) |
20456 |
0.9 |
6576 |
0.6 |
10084 |
0.7 |
23356 |
1.0 |
| segtok.split_single |
19008 |
17.8 |
4422 |
13.4 |
159738 |
1.1 |
164218 |
2.8 |
| 莫斯标记器 |
41666 |
8.9 |
22082 |
5.7 |
12663 |
6.4 |
50560 |
7.4 |
| nltk.sent_tokenize |
16420 |
10.1 |
4350 |
5.3 |
7074 |
5.6 |
32534 |
8.9 |
| deeppavlov/rusenttokenize |
10192 |
10.9 |
1210 |
7.9 |
8910 |
6.8 |
21410 |
7.0 |
| razdel.sentenize |
9274 |
6.1 |
824 |
3.9 |
11414 |
4.5 |
10594 |
7.5 |
预训练嵌入
有关详细信息,请参阅Navec 评估部分。
|
类型 |
初始化,小号 |
得到,微秒 |
磁盘,mb |
内存,mb |
词汇 |
| ruscorpora_upos_cbow_300_20_2019 |
w2v |
12.1 |
1.6 |
220.6 |
236.1 |
189K |
| ruwikiruscorpora_upos_skipgram_300_2_2019 |
w2v |
15.7 |
1.7 |
290.0 |
309.4 |
248K |
| tayga_upos_skipgram_300_2_2019 |
w2v |
15.7 |
1.2 |
290.7 |
310.9 |
249K |
| tayga_none_fasttextcbow_300_10_2019 |
快速文本 |
11.3 |
14.3 |
2741.9 |
2746.9 |
192K |
| araneum_none_fasttextcbow_300_5_2018 |
快速文本 |
7.8 |
15.4 |
2752.1 |
2754.7 |
195K |
| hudlit_12B_500K_300d_100q |
纳维克 |
1.0 |
19.9 |
50.6 |
95.3 |
500K |
| 新闻_1B_250K_300d_100q |
纳维克 |
0.5 |
20.3 |
25.4 |
47.7 |
250K |
|
类型 |
simlex |
hj |
rt |
ae |
AE2 |
rwc |
| ruscorpora_upos_cbow_300_20_2019 |
w2v |
0.359 |
0.685 |
0.852 |
0.758 |
0.896 |
0.602 |
| ruwikiruscorpora_upos_skipgram_300_2_2019 |
w2v |
0.321 |
0.723 |
0.817 |
0.801 |
0.860 |
0.629 |
| tayga_upos_skipgram_300_2_2019 |
w2v |
0.429 |
0.749 |
0.871 |
0.771 |
0.899 |
0.639 |
| tayga_none_fasttextcbow_300_10_2019 |
快速文本 |
0.369 |
0.639 |
0.793 |
0.682 |
0.813 |
0.536 |
| araneum_none_fasttextcbow_300_5_2018 |
快速文本 |
0.349 |
0.671 |
0.801 |
0.706 |
0.793 |
0.579 |
| hudlit_12B_500K_300d_100q |
纳维克 |
0.310 |
0.707 |
0.842 |
0.931 |
0.923 |
0.604 |
| 新闻_1B_250K_300d_100q |
纳维克 |
0.230 |
0.590 |
0.784 |
0.866 |
0.861 |
0.589 |
形态标记器
|
消息 |
维基 |
小说 |
社会的 |
诗歌 |
| 反悔者 |
0.673 |
0.645 |
0.661 |
0.641 |
0.636 |
| 变形 |
0.896 |
0.812 |
0.890 |
0.860 |
0.838 |
| 丸 |
0.894 |
0.808 |
0.887 |
0.861 |
0.840 |
| 管道 |
0.918 |
0.811 |
0.957 |
0.870 |
0.776 |
| 斯派西 |
0.919 |
0.812 |
0.938 |
0.836 |
0.729 |
| 深巴甫洛夫 |
0.940 |
0.841 |
0.944 |
0.870 |
0.857 |
| deeppavlov_bert |
0.951 |
0.868 |
0.964 |
0.892 |
0.865 |
|
初始化,小号 |
磁盘,mb |
内存,mb |
速度,it/s |
| 反悔者 |
4.8 |
3 |
118 |
48.0 |
| 变形 |
8.7 |
10 |
289 |
16.6 |
| 丸 |
15.8 |
44 |
370 |
36.4 |
| 管道 |
6.9 |
45 |
242 |
56.2 |
| 斯派西 |
10.9 |
89 |
579 |
30.6 |
| 深巴甫洛夫 |
4.0 |
32 |
10240 |
90.0(显卡) |
| deeppavlov_bert |
20.0 |
1393 |
8704 |
85.0(显卡) |
语法解析器
|
消息 |
维基 |
小说 |
社会的 |
诗歌 |
|
无人机系统 |
拉斯 |
无人机系统 |
拉斯 |
无人机系统 |
拉斯 |
无人机系统 |
拉斯 |
无人机系统 |
拉斯 |
| 管道 |
0.873 |
0.823 |
0.622 |
0.531 |
0.910 |
0.876 |
0.700 |
0.624 |
0.625 |
0.534 |
| 斯派西 |
0.876 |
0.818 |
0.770 |
0.665 |
0.880 |
0.833 |
0.757 |
0.666 |
0.657 |
0.544 |
| deeppavlov_bert |
0.962 |
0.910 |
0.882 |
0.786 |
0.963 |
0.929 |
0.844 |
0.761 |
0.784 |
0.691 |
|
初始化,小号 |
磁盘,mb |
内存,mb |
速度,it/s |
| 管道 |
6.9 |
45 |
242 |
56.2 |
| 斯派西 |
10.9 |
89 |
579 |
31.6 |
| deeppavlov_bert |
34.0 |
1427 |
8704 |
75.0(显卡) |
NER
有关详细信息,请参阅Slovnet 评估部分。
|
事实 |
加里耶夫 |
ne5 |
bsnlp |
| f1 |
每 |
LOC |
组织机构 |
每 |
组织机构 |
每 |
LOC |
组织机构 |
每 |
LOC |
组织机构 |
| 深巴甫洛夫 |
0.910 |
0.886 |
0.742 |
0.944 |
0.798 |
0.942 |
0.919 |
0.881 |
0.866 |
0.767 |
0.624 |
| deeppavlov_bert |
0.971 |
0.928 |
0.825 |
0.980 |
0.916 |
0.997 |
0.990 |
0.976 |
0.954 |
0.840 |
0.741 |
| 普伦蒂 |
0.905 |
0.814 |
0.686 |
0.939 |
0.639 |
0.952 |
0.862 |
0.683 |
0.900 |
0.769 |
0.566 |
| 文本 |
0.900 |
0.800 |
0.597 |
0.888 |
0.561 |
0.901 |
0.777 |
0.594 |
0.858 |
0.783 |
0.548 |
| 富田 |
0.929 |
|
|
0.921 |
|
0.945 |
|
|
0.881 |
|
|
| 娜塔莎 |
0.867 |
0.753 |
0.297 |
0.873 |
0.347 |
0.852 |
0.709 |
0.394 |
0.836 |
0.755 |
0.350 |
| 米贴 |
0.888 |
0.861 |
0.532 |
0.849 |
0.452 |
0.753 |
0.642 |
0.432 |
0.736 |
0.801 |
0.524 |
|
初始化,小号 |
磁盘,mb |
内存,mb |
速度,文章/秒 |
| 深巴甫洛夫 |
5.9 |
1024 |
3072 |
24.3(显卡) |
| deeppavlov_bert |
34.5 |
2048 |
6144 |
13.1(显卡) |
| 普伦蒂 |
2.9 |
16 |
253 |
6.0 |
| 文本 |
47.6 |
193 |
3379 |
4.0 |
| 富田 |
2.0 |
64 |
63 |
29.8 |
| 娜塔莎 |
2.0 |
1 |
160 |
8.8 |
| 米贴 |
28.3 |
327 |
261 |
32.8 |
下载文件
下载适用于您平台的文件。如果您不确定要选择哪个,请了解有关安装包的更多信息。
内置分布