Морфологічна розмітка

ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u (Андрій Рисін, Василь Старко та ін.).

Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки) на основі словника ВЕСУМ. Проаналізований текст, за яким працює пошук в корпусі, має такий вигляд:

Він /|він|/|noun:m:v_naz:&pron:pers:3| поспішав /|поспішати|/|verb:imperf:past:m| писати /|писати|/|verb:imperf:inf|

Таким чином, шукати можна за словоформою, лемою або тегами, і різними їх сполученнями.

Леми визначаються тільки для тих слів, які є в словнику. Інші слова можна знайти лише за словоформою.

Повний перелік граматичних тегів (r2u):

 

[КЛ] - ключ леми (тег, який розрізняє різні леми з омонімів)


noun    іменник

    [КЛ] anim       істота

    [КЛ] fname      ім'я

    [КЛ] lname      прізвище

    [КЛ] pname       по батькові

    [КЛ] inanim     неістота

    [КЛ] unanim     невизначена категорія істота/неістота (бактерія)

         prop       власна назва

         geo        топонім


verb    дієслово

    [КЛ] imperf недоконаний вид

    [КЛ] perf доконаний вид

    [КЛ] rev  зворотна форма (дієслова) (тег є неявним ключем, оскільки лема на -ся завжди відрізняється від прямого дієслова)


    inf інфінітив

    futr  майбутній час

    past  минулий час

    pres  теперішній час

    impr    наказова форма

    impers безособова форма


    1       1-а особа

    2       2-а особа

    3       3-а особа


    short   короткі форми дієслів 3-ї особи, інфінітиви на -ть

    long    наказові форми на -іте



adj     прикметник

    compb    базова форма

    compc    порівняльна форма

    comps    найвища форма

    short    короткі форми прикметників

    long     нестягнені форми прикметників


    adjp    дієприкметник: (:&adjp - лише дієприкметник; :&&adjp - дієприкметник і прикметник)

        actv   активний

        pasv   пасивний

        imperf недоконаний вид

        perf   доконаний вид


    (past/pres є в коментарях сирців для більшості дієприкметників, але наразі не використовується)


    v_zna:rinanim   знахідний для неістот (лише ч.р.)

    v_zna:ranim     знахідний для істот (лише ч.р.)


adv     прислівник

    compb    базова форма

    compc    порівняльна форма

        short вкорочені порівняльні форми

    comps    найвища форма


advp    дієприслівник

    [КЛ] perf

    [КЛ] imperf


    long звортні дієприслівники на -ся


prep    прийменник


conj    сполучник

    subord підрядний

    coord сурядний


part    частка


intj    вигук


numr    числівник



noninfl     невідмінювані частини (най-най, брутто, екстра...)

    foreign     запозичені слова невизначеної частини мови (Альгемайне, Юнайтед, ла (Ла Страда) тощо)


onomat (клас звуконаслідувальних слів)



Спільні для noun/adj/adjp:

    Відмінки:

        v_naz   називний

        v_rod   родовий

        v_dav   давальний

        v_zna   знахідний

        v_oru   орудний

        v_mis   місцевий

        v_kly   кличний

        nv    не відмінюється

        np    без множини (TODO: проставлено не всюди)

        ns    без однини (TODO: проставлено не всюди)




Спільні для noun/adj/adjp/verb

    p  множина

    s  однина


    Рід:

        m  чоловічий

        f  жіночий

        n  середній



Додаткові теги:


    abbr  абревіатура

    bad   покруч/помилкове написання

    subst просторічна форма

    rare  рідковживане

    coll  розмовне слово/розмовна форма

    arch  застаріле/архаїчне/(інколи) діалектне.

    slang сленг та (проф)жаргонізми

    alt   альтернативне написання (не за чинним правописом)

    vulg  вульгарне


    ua_1992 за правописом 1992

    ua_2019 за правописом 2019


    var   варіативний знах. відм.


    :xp[1-9] омоніми, що відрізняються парадигмою відмінювання (напр. бар - р.в. бару, бар - р.в. бара)

    # в коментарях також :xv[1-9] омоніми, що відрізняються семантично (напр. глупий (дурний, має вищий ступінь глупіший) і глупий - глупа ніч, без порівняльних форм)



    v-u   паралельні форми на в-/у- (для правил милозвучності, не генерується за уставою)



Додаткові теги класів слів (після &):

     &adjp — слова, що є дієприкметниками

     &&adjp — слова, що є і прикметниками і дієприкметниками

[КЛ] &pron - наразі всі займенники мають теги відповідних частин мови (noun/adj/adv), але всі мають додатковий тег &pron

        (тег &pron разом з наступним класифікатором стає ключем леми)

     &numr - слова, що є порядковими числівниками

     &&numr - слова, що є і іменниками і кількісними числівниками

     &insert - може бути вставним словом

     &predic - може бути предикативом



Теги займенників:

    pers  особовий

    refl  зворотний

    pos   присвійний

    dem   вказівний

    def   означальний

    int   питальний

    rel   відносний

    neg   заперечний

    ind   неозначений

    gen   узагальнювальний

    emph  підсилювальний



Деяка асиметрія тегів:

    adj

        ranim/rinanim присутні лише для adj:m:v_zna та adj:p:v_zna


    pron

        деякі pron (він, вона, воно, вони) не мають anim/inanim: "він noun:m:..."

        деякі pron (ти, я) не мають роду: "я noun:anim:s:..."

        персональні займенники мають тег особи: "вони noun:p:v_naz:&pron:pers:3"


    verb

        дієслова мин.ч. мають рід: "вибіляв verb:imperf:past:m"

        дієслова теп./майб.ч. мають особу та число: "вибілюю verb:imperf:pres:s:1", "вибілятиме verb:imperf:futr:s:3", "вибілятимем verb:imperf:futr:p:1"



Динамічні теги (відсутні в словнику, їх проставляє модуль тегування LT):

    number - число

    number:latin - число латинськими цифрами

    date - дата

    time - час


Заувага: у словнику є декілька слів з тегами number:latin (усі з :bad) - вони записані кирилицею, це спрощує тегування і позначення 

    випадків коли латинські числа записані кириличніми літерами


Динамічні теги (відсутні в словнику, їх проставляє модуль тегування TagText):

    punct - знаки пунктуації

    noninfl:foreign - слова латиницею


Внутнішні теги:

    Ці теги використовуються для визначення закінчень в р.в. II відміни для назви міст з правописом-2019 (§ 82. 2.1.1.2)

    :town - позначає місто (II відміна)

    :towna - позначає місто, що має наголос на останньому складі в р.в. і тому має лише закінчення -а


    Коментар # lim позначає обмежені форми (коли лема не має всіх форм, зокрема коли вони їх не вживають, або для :bad коли вона перетинається з правильною лемою)


Теги, яких немає, але які теоретично нескладно додати:

    noun:

        common gender

    verb:

        dual form (imperf+perf)

    adj:

        qualitative (має порівняльні форми) / relative (не має порівняльних)

    adjp:

        past/pres

    advp:

        past/pres


    tm  торгова марка

Джерело: https://github.com/brown-uk/dict_uk/blob/master/doc/tags.txt

В. Старко. А. Рисін. Великий електронний словник української мови (ВЕСУМ) як засіб NLP для української мови. Галактика Слова. Галині Макарівні Гнатюк / Ін-т укр. мови НАН України. К. : Вид. дім Дмитра Бураго, 2020. С. 135–141



How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.