Семантична розмітка


Починаючи з версії 10 в корпусі ГРАК застосовується система семантичної анотації для тегування найчастотнішої лексики в текстах. Відповідно до цієї системи, слову присвоюється одна чи більше семантичних ознак, наприклад, автор тегується як 1:conc:hum, де conc означає ‘конкретний іменник’, а hum — ‘людина’. Двокрапка розмежовує окремі семантичні теги в межах послідовностей. Прикметник малий має три значення, й кожна позначено іншим тегом: size (розмір), age (вік) та degree (ступінь). Повна анотація для цього слова має вигляд 1:size:2:age:3:degree. Числами розмежовано окремі значення, причому 1 позначає найчастотніше.

Всі семантично проанотовані слова становлять Український семантичний лексикон (УСЛ). Його поточна версія доступна онлайн.

Семантичний тегсет (набір тегів) наведено нижче, а тут відзначмо, що деякі теги семантичного типу наявні не в семантичній, а в мофрологічній частині розмітки корпусу ГРАК, бо вони містяться в словнику словозміни української мови  VESUM, який використовується для морфологічного анотування корпусу. Ось ці теги:

abbr (скорочення)

prop (власна назва)

Власні назви далі позначаються у ВЕСУМі одним із конкретніших тегів:

prop:lname (прізвище)

prop:fname (ім’я)

prop:pname (по батькові)

prop:geo (географічна назва)

prop:abbr (абревіатура власної назви)

Назва річки Дунай маркується ланцюжком морфологічних тегів noun:inanim:m:v_naz:prop:geo, ім’я Павло — noun:anim:m:v_naz:prop:fname, а по батькові Іванович — noun:anim:f:v_naz:nv:prop:lname, два останні теги в кожному випадку несуть також семантичне навантаження. Ще три теги, а саме number (число), date (дата) й time (час), не вміщено у ВЕСУМ-і, однак вони присвоюються словам динамічно під час тегування текстів. Отже, ці динамічно приписувані теги й згадані вище теги для власних назв й абревіатур фігурують у морфологічній анотації в корпусі ГРАК, а всі інші теги, розглянуті нижче, є частиною семантичної анотації.



Для семантичного анотування ГРАКу застосовано фасетних підхід, який дає змогу гнучно комбінувати теги. Наприклад, комбінацію org&&build використано в тегуванні лем лікарня, музей та міністерство, щоб показати випадок регулярної полісемії, коли слово може бути вжито на позначення або організації, або будівлі в кожному конкретному контексті. В цьому випадку використовується подвійний амперсанд. Семантичні теги, які в інших випадках є взаємовиключними, можуть, однак, інколи застосовуватися одночасно, і в цих випадках їх поєднано одним амперсандом &. Наприклад, одне значення слів  хвилина, година, день, тиждень, місяць, рік та століття протеговано abst:time:period&unit на позначення того, що ці абстрактні іменники одночасно позначають період часу й одиницю вимірювання часу.


Для пошуку з використанням семантичних тегів введіть вираз CQL із оператором semtag. Наприклад, такий запит мовою CQL шукатиме всі конкретні іменники, що мають семантичний тег loc (місце): [semtag=".*conc:loc.*"].


Семантичні теги розроблено окремо для шести великих розрядів слів: конкретні іменники, абстрактні іменники, власні назви, прикметники, прислівники й дієслова. В межах кожної групи семантичні теги присвоєно в такому порядку:

конкретні іменники (conc) — таксономія, мереологія, топологія, оцінка

абстрактні іменники (abst) — таксономія, мереологія, оцінка

власні назви (prop) — таксономія

прикметники – таксономія, оцінка

прислівники – таксономія, оцінка

дієслова – таксономія, каузативність.


Семантичний тегсет розробляється ітеративно, починаючи з найчастотнішої української лексики. На кожному етапі анотації й сам тегсет може бути змінено й вдосконалено. Початковий тегсет із прикладами було представлено на конференції CoLinS у 2020 році (публікація). Нижче наведено поточну версію, яку застосовано в Українському семантичному лексиконі (УСЛ в.1) і яка наразі охоплює дещо більше тисячі найчастотніших лем української мови плюс деякі додаткові слова. Теги перелічено в абетковому порядку в межах кожного розряду слів.


Хоча семантичні теги розроблено для кожного великого розряду слів окремо, подібний семантичний вміст позначено однорідними семантичними тегами в різних категоріях. Наприклад, фізичні властивості протеговано так само серед іменників, прикметників, прислівників та дієслів: sound, color, light тощо. Це дає змогу сформулювати пошуковий запит, який знайде всі слова, що стосуються певної фізичної властивості, незалежно від їхньої частиномовної належності. Віддієслівні абстрактні іменники та відповідні дієслова також мають низку спільних семантичних тегів (move, percept, put тощо), позаяк вони передають подібну семантичну інформацію.


СЕМАНТИЧНИЙ ТЕГСЕТ

 

КОНКРЕТНІ ІМЕННИКИ (CONC)

Таксономія

conc:animal тварини (кіт, акула, бактерія)

conc:build будинки й конструкції (палац)

conc:cloth одяг і взуття (штани)

conc:dish посуд і кухонне начиння (тарілка, каструля)

conc:doc документи (акція, квиток, диплом)

conc:food їжа та напої (компот, суші)

conc:food&fruit їстівний плід (вишня). Прим.: тут fruit ‘плід’ вжито в науковому значенні.

conc:form форма (лінія, гора)

conc:furnit меблі (стіл, люстра)

conc:hum люди (жінка, королева)

conc:hum:group групи людей, об’єднані на основі етнічності, місця народження чи проживання тощо (африканець, львів’янка, команда)

conc:hum:kin родичі (мама, брат)

conc:hum:prof професія (вчителька, журналіст)

conc:loc місця й простори (космос, ущелина)

conc:loc:room кімнати в будівлях (офіс, кухня)

conc:money гроші (долар, грн)

conc:mushr гриби (мухомор)

conc:org організації (компанія, комітет)

conc:org&&build організації й будівлі (школа, лікарня)

conc:plant рослини (кактус, жито)

conc:poss власність (майно)

conc:speech мовленнєві одиниці (слово, склад)

conc:stuff речовини й матеріали (полотно, кислота)

conc:supernat надприродні істоти (русалка, єдиноріг)

conc:text текстові об’єкти (лист, договір)

conc:thing окремі об’єкти взагалі (річоб’єкт, продукт)

conc:tool знаряддя взагалі (начиння, цвях)

conc:tool:device прилади (телефон, телевізор)

conc:tool:instr ручне знаряддя (пензлик, лопата)

conc:tool:music музичні інструменти (бандура, скрипка)

conc:tool:weapon зброя (пістолет, меч)

conc:vehicle транспортні засоби (віз, пором)

conc:work твори мистецтва (літопис, скульптура)

 

Мереологія

conc:body:animal:part частини тіла тварин (хвіст, кіготь)

conc:body:hum:part частини тіла людини (ніготь, мізинець)

conc:body:part частини тіла людини або тварини (нейрон, печінка)

conc:build:part частини будівель (коридор, купол)

conc:cloth:part частини одягу й взуття (штанина, шов)

conc:collect збірні назви (студентство, зерно)

conc:dish:part частини посуду (горлечко, денце)

conc:food:part частини їжі (скорина,  друге)

conc:furnit:part частини меблів (ніжка, стільниця)

conc:higherclass класи на вищому рівні людської категоризації (інструмент, людина, рослина, засіб)

conc:loc:part частини місць і просторів (дно, поверхня)

conc:loc:room:part частини кімнат (вікно, батарея)

conc:org:part частини організацій (відділ, кафедра, підрозділ)

conc:part частини загалом (початок, середина)

conc:plant:part частини рослин (листок, квітколоже)

conc:quantum частинки й порції речовин (крихта, уламок)                                                                   

conc:set набори (вінок, клас, законодавство)

conc:text:part частини текстів (зміст)

conc:tool:device:part частини приладів (кнопка, пружина)

conc:tool:instr:part частини ручних знарядь (вентиль, руків’я)

conc:tool:music:part частини музичних інструментів (струна, клавіша)

conc:tool:part частини знарядь взагалі (ланка)

conc:tool:weapon:part частини зброї (приціл)

conc:vehicle:part частини транспортних засобів (кермо, педаль)

 

Топологія

conc:container місткості (контейнер, коробка)

conc:surface поверхні (підлога, стадіон, майдан)

conc:ball сфери, кулі (м’яч, сонце)

conc:line лінії (кордон, стрічка)


Оцінка

conc:posit позитивна (господиня, молодець)

conc:negat негативна (маньяк, ворог)


АБСТРАКТНІ ІМЕННИКИ (ABST)

Таксономія

abst:abst абстрактна властивість (непередбачуваність, якість)

abst:abst:humqual абстрактна властивість людини (доброта, щедрість)

abst:appear початок існування (виникнення, створення, народження)

abst:behave людська поведінка (вдячність, сварка)

abst:chstate зміна стану чи властивості (розширення, сповільнення, спрощення)

abst:contact контакт й опора (фіксування, доторк)

abst:create створення фізичного об’єкта (налаштування, виробництво, складання, розроблення)

abst:destr знищення (розбір, руйнація)

abst:disappear кінець існування (знищення, викорінення, скасування)

abst:disease хвороба (пневмонія, інфекція)

abst:event подія (збори, фестиваль)

abst:exist існування (життя, наявність)

abst:game гра (вікторина, покер)

abst:impact фізичний вплив (розкопування, вишивання, удар)

abst:interact взаємодія (знайомство, відносини)

abst:interact:conflict конфлікт, конфронтація (дуель, війна, боротьба)

abst:light світло (сутінки, промінь)

abst:loc позиція, місце розташування (розташування)

abst:loc:body тілесна поза (обійми, поклон, сидіння)

abst:ment ментальний простір (образа, усвідомлення, думка)

abst:move рух (вихід, пірнання, переставляння)

abst:move:body зміна позиції чи рух частини тіла (помах, кліпання)

abst:param параметр (швидкість, глибина, ціна)

abst:percept сприйняття (відчуття, враження, погляд)

abst:physio фізіологія (здоров’я, дихання, втома)

abst:physqual фізична властивість (м’якість, слизькість)

abst:physqual:color колір (зеленина, відтінок)

abst:physqual:form форма (вигнутість, опуклість)

abst:physqual:hum риса людини (дужість, моторність)

abst:physqual:smell запах (чад, аромат)

abst:physqual:sound звук (луна, плюскіт)

abst:physqual:taste смак (терпкість, солодкавість)

abstphysqual:tempr температура (спека, мороз)

abst:physqual:vis вигляд (вигляд, зовнішність, тьмяність)

abst:physqual:weight вага (ноша, баласт)

abst:put розміщення фізичного об’єкта (встановлення, запис, завантаження)

abst:poss власність (продаж, обмін, втрата)

abst:psych психічний простір (настрій, нетерплячка, збудженість)

abst:psych:emot емоція (щастя, нудьга)

abst:psych:vol воля (охота, бажання)

abst:quantit кількість (тисяча, млн)

abst:quantit:max максимальна кількість (сила, море, гора)

abst:speech мовленнєвмий акт (питання, порада)

abst:sport спорт (теніс, альпінізм)

abst:state стан (безпека, цілісність)

abst:time час (пора, минуле)

abst:time:age вік (вік, повноліття, дитинство)

abst:time:moment момент (мить, секунда)

abst:time:month місяць (січень)

abst:time:period період (доба, зміна)

abst:time:week день тижня (понеділок)

abst:unit одиниця вимірювання (кілометр)

abst:vis абстрактне представленя (образ)

abst:weather погодне явище (буря, посуха)


Мереологія

abst:collect збірка різних об’єктів (інститут, механізм)

abst:part частина (вечір, кінець)

abst:quantum квант (випадок, раз, момент)

abst:set набір аналогічних об’єктів (союз, серія)

 

Оцінка

abst:posit позитивна (успіх, порядок)

abst:negat негативна (брехня, вульгарність)


ВЛАСНІ НАЗВИ (PROP)

Таксономія

prop власна назва (Різдво, ООН)

fname ім’я (Марія, Тарас)

pname по батькові (Андріївна, Григорович)

lname прізвище (Бойко, Ковальчук)

geo географічна назва (Львів, Дніпро)

supernat надприродна істота (Перун)

 

ПРИКМЕТНИКИ

Таксономія

abst абстрактна властивість (безпечний, невпинний, непередбачуваний)

abst:hum абстрактна риса людини (розумний, добрий, хитрий)

abst:ment абстрактна ментальна властивість (чіткий, незрозумілий)

abst:sim подібність (однаковий, інший, аналогічний)

abst:vis вигляд людини, предметів (згорблений, усміхнений, ажурний)

age вік (неповнолітній, дорослий)

age:absol абсолютний вік (двомісячний, п’ятнадцятирічний)

age:max максимальний вік (старезний, древній)

age:min мінімальний вік (малолітній, дитячий)

degree ступінь (помірний)

degree:max максимальний ступінь (видатний, всесильний)

degree:min мінімальний ступінь (мізерний)

dist відстань (крайній, сусідній)

dist:absol абсолютна відстань (двометровий, семисантиметровий)

dist:max максимальна відстань (далекий, віддалений)

dist:min мінімальна відстань (прилеглий, ближній)

dur тривалість (вічний, хвилинний)

dur:absol абсолютна тривалість (двогодинний, трихвилинний)

dur:max максимальна тривалість (багатолітній, довготривалий)

dur:min мінімальна тривалість (скорочений, недовготривалий)

hierar ієрархічна властивість (головний, найважливіший, рядовий, центральний)

ord порядковість (третій, наступний)

orient напрям, орієнтація (центральний, східний, зворотний)

physio фізіологічна властивість (хворий)

physqual фізична властивість (слизький, м’який)

physqual:color колір (бірюзовий, золотистий)

physqual:form форма (рівний, круглий)

physqual:hum фізична властивість людини (дужий, моторний)

physqual:smell запах (ароматний)

physqual:sound звук (лункий, щебетливий)

physqual:taste смак (пряний, смачний, терпкий)

physqual:tempr температура (прохолодний, гарячий)

physqual:vis світло (тьмяний, блискучий, іскристий)

physqual:weight вага (масивний, тяжкий)

poss власність, належність комусь у широкому сенсі (Андріїв, власний)

psych:emot емоція (злий, радісний)

quantit кількість (однократний, достатній)

quantit:absol абсолютна кількість (подвійний)

quantit:max максимальна кількість (значний, численний)

quantit:min мінімальна кількість (мізерний, недостатній)

size розмір (глибокий, високий)

size:absol абсолютний розмір (триметровий, двоповерховий)

size:max максимальний розмір (великий, масивний)

size:min мінімальний розмір (малий, дрібний)

speed швидкість (прискорений)

speed:max максимальна швидкість (стрімкий, пришвидшений)

speed:min мінімальна швидкість (млявий, неквапний)

time час (теперішній, нічний, новий)


Оцінка

posit позитивна (прекрасний, смачний, щасливий)

negat негативна (бездарний, цинічний)


 

ПРИСЛІВНИКИ

Taxonomy

abst абстрактна властивість (безпечно, невпинно, непередбачувано)

abst:hum абстрактна властивість людини (суворо, чесно, хитро)

abst:ment абстрактна властивість у ментальному просторі (уважно, чітко, зрозуміло)

cause причина (спересердя)

degree ступінь (досить)

degree:max максимальний ступінь (сильно, максимально, чимдуж)

degree:min мінімальний ступінь (нітрохи, ледве, трішки)

dist відстань (недалеко, неподалік)

dist:max максимальна відстань (якнайдалі)

dist:min мінімальна відстань (впритул)

dur тривалість загалом (недовго)

dur:max максимальна тривалість (вічно, повік)

dur:min мінімальна тривалість (коротко)

freq частота (часто, іноді)

goal мета, навмисність (ненароком, випадково)

manner спосіб (по-німецькому, по-доброму, навприсядки)

modal модальність (треба, потрібно, безумовно, звичайно, мабуть, справді)

ord порядковість (насамперед, по-друге)

orient напрям, орієнтація (наліво, додому)

physqual фізична властивість (чисто, м’яко, цілком)

physqual:color колір (зеленаво, квітчасто)

physqual:form форма (тупо, круто)

physqual:hum фізична властивість людини (моторно)

physqual:smell запах (затхло, духмяно)

physqual:sound звук (гучно, тихо)

physqual:taste смак (смачно, пікантно, гірко)

physqual:tempr температура (гаряче, холодно)

physqual:vis вигляд (світло, темно, видно)

physqual:weight вага (важко)

place місце (всюди, окремо)

quantit кількість (достатньо)

quantit:absol абсолютна кількість (двічі)

quantit:max максимальна кількість (надміру)

quantit:min мінімальна кількість (мізерно)

speed швидкість взагалі (поволі)

speed:max максимальна швидкість (моментально, негайно)

speed:min мінімальна швидкість (спроквола)

time час (зазвичай, рано, відтепер)

 

Оцінка

posit позитивна (щасливо, краще, весело)

negat негативна (нечесно, гірше, страшно)

 

ДІЄСЛОВА

Таксономія

able спроможність (могти, уміти)

act дія взагалі (діяти, виконувати) 

appear початок існування (народитися, скластися)

begin починати (щось робити) (започаткувати, відкрити)

behave поведінка (лінуватися, веселитися)

chstate зміна стану чи властивості (лікувати, зменшити, розігрівати, спростити)

contact контакт й опора (доторкатися, спиратися)

create створення фізичного чи нефізичного об’єкта (будувати, встановити)

destr знищення (стирати, спалювати)

disappear кінець існування (загубити, зникнути, скасувати)

effect нефізичний вплив (допомагати, сприяти, впливати)

effort старання (старатися, намагатися)

end кінець, припинення (залишити, зупинитися, закінчуватися)

exist існування (жити, творити)

func функціювання (функціювати, робити)

grasp схоплення (взяти, схопити)

impact фізичний вплив (ударяти, зішкрябувати, відкривати)

light світло (виблискувати, меркнути)

limit досягнення чи наближення до межі (наїстися s fill’, виспатися, замучитися)

loc позиція, місце (залишити (щось десь), перебувати)

loc:body особлива позиція тіла (стояти, лягти)

ment ментальний простір (вірити, мріяти)

modal модальність (мовляти у формі вставного слова мовляв)

move рух (текти, нести, іти, штовхати)

move:body зміна позиції чи рух частина тіла (лягати, нахилятися)

orient рух, зміна тощо в певному напрямку, орієнтація, фізична й нефізична (направляти, вести)

percept сприйняття (здаватися, слухати, дивитися)

phase фазове дієслово (починати, продовжувати, закінчувати)

physio фізіологія (плакати, втомлюватися)

physqual фізична властивість (тужавіти)

physqual:color колір (червоніти)

physqual:form форма (рівнішати, вигнутися)

physqual:hum фізична властивість людини (підрости)

physqual:smell запах (духмяніти)

physqual:sound звук (звучати, щебетати)

physqual:taste смак (смакувати, гірчити)

physqual:tempr температура (холоднішати)

physqual:vis вигляд (маяти, виникати)

put розміщення об’єкта (ставити, розсадити)

poss власність (зловити, передати)

prof професія (вчителювати, теслювати)

psych психічний простір (заспокоїтися, терпіти, турбуватися)

psych:emot емоція (ображатися, сумувати)

psych:want прагнення, дозвіл, бажання (хотіти, дозволяти)

smell запах (пахнути)

sound звук (свистіти, гавкати)

speech мовленнєвий акт (питати, молитися)

taste смак (солодити, гірчити)

use використання (використовувати, застосовувати)

weather погодне явище (мрячити, віяти)

 

Каузативність

caus каузативне дієслово (купувати, показати)

noncaus некаузативне дієслово (старатися, повертатися, спати)


V. Starko. Implementing Semantic Annotation in a Ukrainian Corpus. CEUR Workshop Proceedings. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021). Volume I: Main Conference. Kharkiv, Ukraine, April 22-23, 2021. P. 435-447

Vasyl Starko. Semantic Annotation for Ukrainian: Categorization Scheme, Principles, and Tools. Proceedings of the 4th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2020). Volume I: Main Conference. Lviv, Ukraine, April 23-24, 2020

How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.