ВВЕДЕНИЕ В EAGLES тэггер (v 2.0)

 

Морфологический анализатор для русского использует набор тегов для представления морфологической информации слов. Этот набор основан на наборе тегов, предложенный группой EAGLES (http://www.ilc.cnr.it/EAGLES96/annotate/node9.html) для всех европейских языков. Поэтому планируется собрать существующие грамматические конструкции на европейских языках. Если атрибут для данного слова отсутствует – то он заменяется на 0.

 

Дальнейшая расшифровка атрибутов приведена ниже в виде таблиц :

 

позиция

атрибут

колонка 1

колонка 2

 

Части речи:

   A: Прилагательное                                 

   D: Наречие                                         

   P: Местоименное наречие                            

   Y: Порядковое числительное                        

   R: Местоименное прилагательное

   M: Часть композита

   C: Союз                                           

   J: Междометие                                     

   Z: Числительное                                   

   T: Частица                                        

   B: Предлог                                        

   N: Существительное                                

   E: Местоимение                                     

   V: Глагол                                                                                                                                                                                                                       

   Q: Причастие

 

В зависимости от части речи слово может быть описано следующими атрибутами:

 

Время глагола:

    P: настоящее

    F: непрошедшее

    S: прошедшее

 

Дополнительная информация о существительном:

    G: географическое название

    N: имя собственное

    S:  отчество

    F:  фамилия

 

Падеж:                                            

    N: именительный                      

    G: родительный

    D: дательный

    F:  винительный

    C: творительный

    O: предложный

    P: партитив (второй родительный)

    L: местный (второй предложный)

    V: звательный

   

Число:

    S: единственное

    P: множественное

 

Репрезентация и наклонение глагола:

    G: деепричастие  

    I:  инфинитив

    D: индикатив / изъявительное наклонение

    M: императив / повелительное наклонение

 

Форма прилагательных:

     S:  краткая

     F:  полная

 

Степень сравнения:

    E: превосходная

    C: сравнительная

    P: притяжательная

 

Лицо глагола:

    P1: 1-е лицо

    P2: 2-е лицо

    P3: 3-е лицо

   

Род:

    F: женский

    M: мужской

    A: средний

    C: общая форма мужского и женского рода

 

Вид (аспект) глагола:

    F: совершенный

    N: несовершенный

 

Залог:

    A: действительный

    S: страдательный

 

Одушевленность:

    A: одушевленный

    I: неодушевленный

 

Переходность:

    M: переходный глагол

    A: непереходный глагол

 

Прочие обозначения:

    P: вводное слово

    D: образование формы затруднено

    V: искаженная форма

    R: предикатив

    I: разговорная форма

    A: редко встречающееся слово

    B: сокращение

    E: устаревшая форма

   

Нецензурная лексика:

    H: обсценная лексика

 

1. Прилагательное

Поз.

Атрибут

1

Часть речи

2

Падеж

3

Число

4

Род

5

 

Одушевленность

             6

             Форма прилагательного

             7

             Степень сравнения

             8

       Дополнительная информация

             9

          Признак обсценной лексики

 

Примеры:

 

Слово

Лемма

Код

звонких

звонкий

AGP00F000

 

звонких звонкий AGP00F000: A -  прилагательное, G – родительный падеж, P – множественное число, F – полная форма прилагательного.

 

2. Наречие   

 

Поз.

Атрибут

1

Часть речи

2

Степень сравнения

3

Дополнительная информация

4

Признак обсценной лексики

                                   

3. Местоименное наречие

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

 

 

4. Порядковое числительное

 

Порядковое числительное — класс имён числительных, обозначающий порядок предметов при счёте.

 

В русском языке порядковые числительные имеют все грамматические признаки относительных прилагательных. Части сложных порядковых числительных (начиная с 21-й) пишутся раздельно: двадцать первый. (википедия)

 

Поз.

Атрибут

1

Часть речи

2

Падеж

3

Число

4

Род

5

Одушевленность

 

Примеры:

Слово

Лемма

Код

сотый

сотый

YNSM0

сотый

сотый

YFSMI

сотою

сотый

YCSF0

один

один

YNSM0

один

один

YFSMI

одну

один

YFSF0

 

сотый YNSM0 : Y-порядковое числительное, N-именительный падеж, S-ед. число, M-мужод 0-одушевленность неопределена

сотый YFSMI : Y-порядковое числительное, N-именительный падеж, S-ед. число, M-мужод I-неодушевленный

сотою YCSF0 : Y-порядковое числительное, С-творительный падеж, S-ед. число, F-женод 0-одушевленность неопределена

 

        

5. Местоименное прилагательное

 

Поз.

Атрибут

1

Часть речи

2

Падеж

3

Число

4

Род

5

 

Одушевленность

             6

         Дополнительная информация

 

 

6. Часть композита

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

 

 

7. Союз  

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

                                        

8. Междометие 

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

                    3

                      Признак обсценной лексики

 

                                   

9. Числительное       

 

Поз.

Атрибут

1

Часть речи

2

Падеж

3

                             Число

4

Род

5

Одушевленность

             6

Дополнительная информация

 

                            

10. Частица 

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

                                     

11. Предлог       

 

Поз.

Атрибут

1

Часть речи

2

Дополнительная информация

            

                   

12. Существительное    

 

    Имя существительное самостоятельная часть речи, принадлежащая к категории имени и классу     полнозначных лексем, включающих в себя названия сапог и собак существ и может выступать в предложении в функциях подлежащего, дополнения[1] и именной части сказуемого. В русском языке — самостоятельная часть речи, обозначающая предмет и отвечающая на вопрос «кто?»/«что?». Одна из основных лексических категорий; в предложениях существительное, как правило, выступает в роли подлежащего или дополнения, а также обстоятельства и сказуемого.                           

 

Поз.

Атрибут

1

Часть речи

2

Признак для таггера

3

Падеж

4

Число

5

Род

6

 

Одушевленность

             7

            Доп. информация (сущ.)

             8

         Дополнительная информация

             9

          Признак обсценной лексики

          10

Дополнительное поле для named recognition, возможные значения P, O, G, V

 

Примеры:

Слово

Лемма

Код

 

 

 

скалолазанье

скалолазание

NCNSAI0000

скалолазании

скалолазание

NCOSAI0000

растении

растение

NCOSAI0000

 

скалолазание скалолазание NCNSAI0000 скалолазание NCFSAI0000 ; 2-е леммы :

NCNSAI0000 – N – существительное, N - Именительный падеж, S – ед. число, A – средний род, I – неодушевленное;

NCFSAI0000  – N – существительное, F - Винительный падеж, S – ед. число, A – средний род, I – неодушевленное;

ретроградстве ретроградство NCOSAI0000

NCOSAI0000 – N – существительное, O – предложный падеж, S – ед. число, A – средний род, I – неодушевленное;

Иванову Иванов NP0000000P

NP0000000P N – существительное, P – специфичное слово, P – признак персоналии

13. Местоимение 

 

Поз.

Атрибут

1

Часть речи

2

Падеж

3

Число

      4

Род

5

Одушевленность

      6

                          Лицо

      7

      Дополнительная информация

 

 

 

Слово

Лемма

Код

они

они

ENP0000

ними

они

ECP0000

                                   

14. Глагол 

 

Поз.

Атрибут

1

Часть речи

2

Наклонение

3

Число

4

Род

5

Время

             6

                               Лицо

             7

                           Вид глагола

             8

                               Залог

             9

                            Переходность

            10

           Дополнительная информация

            11

          Признак обсценной лексики

                                                                                                                                                                                     

Примеры:

Слово

Лемма

Код

сей

скалолазание

VMS000N0000

сею

скалолазание

VDS0F0N0000

нашей

нашивать

VMS00000000

 

 

сей сеять VMS000N0000 – V – глагол, M – императив, S – единственное число, N - несовершенный

сею сеять VDS0F0N0000 – V – глагол, D – изъявительное, S – единственное число, F – непрошедшее, N - несовершенный

нашей нашивать VMS00000000 – V – глагол, M – императив, S – единственное число

                               

15. Причастие

 

Поз.

Атрибут

1

Часть речи

2

Наклонение

3

Число

4

Род

5

Время

             6

                               Лицо

             7

                           Вид глагола

             8

                               Залог

             9

                            Переходность

            10

           Дополнительная информация

            11

          Признак обсценной лексики

                                                                                                                                                                                      

Примеры:

Слово

Лемма

Код

мобилизованному

мобилизовать

FDSMSF00000

мобилизованных

мобилизовать

FGP0SFF0000

мобилизованный

мобилизовать

FNSMSF00000

 

 

мобилизованному мобилизовать FDSMSF00000 – F – причастие, D – изъявительное, S – единственное число, M – мужской род, S – прошедшее время, F – полная форма

мобилизованных мобилизовать FGP0SFF0000

мобилизованный мобилизовать FNSMSF00000

 

 

Python like attributes description :

 

attrDict = {

    "N": [taggerProp  , case  ,   number  ,  gender  , animation ,   addNounInfo  ,  others  ,  abuse],

    "Y": [case  ,   number  ,  gender  , animation],

    "R": [case  ,   number  ,  gender  , animation ,   others],

    "V": [mood  ,   number  ,  gender  , tense     ,   person ,  finiteness  ,  voice  ,  status  ,  others   ,  abuse],

    "F": [case  ,   number  ,  gender  , tense     ,   aform  ,  finiteness  ,  voice  ,  status  ,  others   ,  abuse],

    "D": [clevel,   others  ,  abuse],

    "P": [others],

    "R": [case  ,   number  ,  gender  , animation ,   others],

    "E": [case  ,   number  ,  gender  , animation ,     person,   others],

    "B": [others],

    "T": [others],

    "Z": [case  ,   number  ,  gender  , animation , others],

    "J": [others,  abuse],

    "C": [others],

    "M": [others],

    "A": [case  ,   number  ,  gender  , animation , aform   ,   clevel  ,  others,  abuse],

            }