ВВЕДЕНИЕ В EAGLES тэггер (v 2.0)
Морфологический анализатор для русского использует набор тегов для представления морфологической информации слов. Этот набор основан на наборе тегов, предложенный группой EAGLES (http://www.ilc.cnr.it/EAGLES96/annotate/node9.html) для всех европейских языков. Поэтому планируется собрать существующие грамматические конструкции на европейских языках. Если атрибут для данного слова отсутствует – то он заменяется на 0.
Дальнейшая расшифровка атрибутов приведена ниже в виде таблиц :
позиция |
атрибут |
колонка 1 |
колонка 2 |
Части речи:
A: Прилагательное
D: Наречие
P: Местоименное наречие
Y: Порядковое числительное
R: Местоименное прилагательное
M: Часть композита
C: Союз
J: Междометие
Z: Числительное
T: Частица
B: Предлог
N: Существительное
E: Местоимение
V: Глагол
Q: Причастие
В зависимости от части речи слово может быть описано следующими атрибутами:
Время глагола:
P: настоящее
F: непрошедшее
S: прошедшее
Дополнительная информация о существительном:
G: географическое название
N: имя собственное
S: отчество
F: фамилия
Падеж:
N: именительный
G: родительный
D: дательный
F: винительный
C: творительный
O: предложный
P: партитив (второй родительный)
L: местный (второй предложный)
V: звательный
Число:
S: единственное
P: множественное
Репрезентация и наклонение глагола:
G: деепричастие
I: инфинитив
D: индикатив / изъявительное наклонение
M: императив / повелительное наклонение
Форма прилагательных:
S: краткая
F: полная
Степень сравнения:
E: превосходная
C: сравнительная
P: притяжательная
Лицо глагола:
P1: 1-е лицо
P2: 2-е лицо
P3: 3-е лицо
Род:
F: женский
M: мужской
A: средний
C: общая форма мужского и женского рода
Вид (аспект) глагола:
F: совершенный
N: несовершенный
Залог:
A: действительный
S: страдательный
Одушевленность:
A: одушевленный
I: неодушевленный
Переходность:
M: переходный глагол
A: непереходный глагол
Прочие обозначения:
P: вводное слово
D: образование формы затруднено
V: искаженная форма
R: предикатив
I: разговорная форма
A: редко встречающееся слово
B: сокращение
E: устаревшая форма
Нецензурная лексика:
H: обсценная лексика
1. Прилагательное
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Падеж |
|
3 |
Число |
|
4 |
Род |
|
5
|
Одушевленность |
|
6 |
Форма прилагательного |
|
7 |
Степень сравнения |
|
8 |
Дополнительная информация |
|
9 |
Признак обсценной лексики |
Примеры:
Слово |
Лемма |
Код |
звонких |
звонкий |
AGP00F000 |
звонких звонкий AGP00F000: A - прилагательное, G – родительный падеж, P – множественное число, F – полная форма прилагательного.
2. Наречие
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Степень сравнения |
|
3 |
Дополнительная информация |
|
4 |
Признак обсценной лексики |
|
3. Местоименное наречие
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
4. Порядковое числительное
Порядковое числительное — класс имён числительных, обозначающий порядок предметов при счёте.
В русском языке порядковые числительные имеют все грамматические признаки относительных прилагательных. Части сложных порядковых числительных (начиная с 21-й) пишутся раздельно: двадцать первый. (википедия)
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Падеж |
|
3 |
Число |
|
4 |
Род |
|
5 |
Одушевленность |
|
Примеры:
Слово |
Лемма |
Код |
сотый |
сотый |
YNSM0 |
сотый |
сотый |
YFSMI |
сотою |
сотый |
YCSF0 |
один |
один |
YNSM0 |
один |
один |
YFSMI |
одну |
один |
YFSF0 |
сотый YNSM0 : Y-порядковое числительное, N-именительный падеж, S-ед. число, M-муж.род 0-одушевленность неопределена
сотый YFSMI : Y-порядковое числительное, N-именительный падеж, S-ед. число, M-муж.род I-неодушевленный
сотою YCSF0 : Y-порядковое числительное, С-творительный падеж, S-ед. число, F-жен.род 0-одушевленность неопределена
5. Местоименное прилагательное
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Падеж |
|
3 |
Число |
|
4 |
Род |
|
5
|
Одушевленность |
|
6 |
Дополнительная информация |
6. Часть композита
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
7. Союз
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
8. Междометие
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
3 |
Признак обсценной лексики |
9. Числительное
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Падеж |
|
3 |
Число |
|
4 |
Род |
|
5 |
Одушевленность |
|
6 |
Дополнительная информация |
|
10. Частица
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
11. Предлог
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Дополнительная информация |
|
12. Существительное
Имя существительное самостоятельная часть речи, принадлежащая к категории имени и классу полнозначных лексем, включающих в себя названия сапог и собак существ и может выступать в предложении в функциях подлежащего, дополнения[1] и именной части сказуемого. В русском языке — самостоятельная часть речи, обозначающая предмет и отвечающая на вопрос «кто?»/«что?». Одна из основных лексических категорий; в предложениях существительное, как правило, выступает в роли подлежащего или дополнения, а также обстоятельства и сказуемого.
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Признак для таггера |
|
3 |
Падеж |
|
4 |
Число |
|
5 |
Род |
|
6
|
Одушевленность |
|
7 |
Доп. информация (сущ.) |
|
8 |
Дополнительная информация |
|
9 |
Признак обсценной лексики |
|
10 |
Дополнительное поле для named recognition, возможные значения P, O, G, V |
Примеры:
Слово |
Лемма |
Код |
|
|
|
скалолазанье |
скалолазание |
NCNSAI0000 |
скалолазании |
скалолазание |
NCOSAI0000 |
растении |
растение |
NCOSAI0000 |
скалолазание скалолазание NCNSAI0000 скалолазание NCFSAI0000 ; 2-е леммы :
NCNSAI0000 – N – существительное, N - Именительный падеж, S – ед. число, A – средний род, I – неодушевленное;
NCFSAI0000 – N – существительное, F - Винительный падеж, S – ед. число, A – средний род, I – неодушевленное;
ретроградстве ретроградство NCOSAI0000
NCOSAI0000 – N – существительное, O – предложный падеж, S – ед. число, A – средний род, I – неодушевленное;
Иванову Иванов NP0000000P
NP0000000P – N – существительное, P – специфичное слово, P – признак персоналии
13. Местоимение
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Падеж |
|
3 |
Число |
|
4 |
Род |
|
5 |
Одушевленность |
|
6 |
Лицо |
|
7 |
Дополнительная информация |
Слово |
Лемма |
Код |
они |
они |
ENP0000 |
ними |
они |
ECP0000 |
14. Глагол
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Наклонение |
|
3 |
Число |
|
4 |
Род |
|
5 |
Время |
|
6 |
Лицо |
|
7 |
Вид глагола |
|
8 |
Залог |
|
9 |
Переходность |
|
10 |
Дополнительная информация |
|
11 |
Признак обсценной лексики |
Примеры:
Слово |
Лемма |
Код |
сей |
скалолазание |
VMS000N0000 |
сею |
скалолазание |
VDS0F0N0000 |
нашей |
нашивать |
VMS00000000 |
сей сеять VMS000N0000 – V – глагол, M – императив, S – единственное число, N - несовершенный
сею сеять VDS0F0N0000 – V – глагол, D – изъявительное, S – единственное число, F – непрошедшее, N - несовершенный
нашей нашивать VMS00000000 – V – глагол, M – императив, S – единственное число
15. Причастие
Поз. |
Атрибут |
|
1 |
Часть речи |
|
2 |
Наклонение |
|
3 |
Число |
|
4 |
Род |
|
5 |
Время |
|
6 |
Лицо |
|
7 |
Вид глагола |
|
8 |
Залог |
|
9 |
Переходность |
|
10 |
Дополнительная информация |
|
11 |
Признак обсценной лексики |
Примеры:
Слово |
Лемма |
Код |
мобилизованному |
мобилизовать |
FDSMSF00000 |
мобилизованных |
мобилизовать |
FGP0SFF0000 |
мобилизованный |
мобилизовать |
FNSMSF00000 |
мобилизованному мобилизовать FDSMSF00000 – F – причастие, D – изъявительное, S – единственное число, M – мужской род, S – прошедшее время, F – полная форма
мобилизованных мобилизовать FGP0SFF0000
мобилизованный мобилизовать FNSMSF00000
Python like attributes description :
attrDict = {
"N": [taggerProp , case , number
, gender , animation , addNounInfo
, others , abuse],
"Y": [case , number , gender ,
animation],
"R": [case , number , gender ,
animation , others],
"V":
[mood , number , gender ,
tense , person , finiteness
, voice , status , others ,
abuse],
"F":
[case , number , gender ,
tense , aform
, finiteness , voice , status ,
others , abuse],
"D": [clevel, others ,
abuse],
"P":
[others],
"R": [case , number , gender ,
animation , others],
"E": [case , number , gender ,
animation , person,
others],
"B":
[others],
"T":
[others],
"Z": [case , number , gender ,
animation , others],
"J":
[others, abuse],
"C":
[others],
"M":
[others],
"A": [case , number , gender ,
animation , aform , clevel , others, abuse],
}