Регіональна розмітка

Регіональна розмітка корпусу ґрунтується на сучасному адміністративному поділі України. Адміністративні регіони потім об'єднано в макрорегіони з умовними назвами Захід (W), Схід (E), Центр (C), Південь (S), Північ (N) і Київ (KYV). Макрорегіони сформовані з урахуванням меж українських діалектів. До Північного регіону входить більшість територій північних говорів, до Західного - південно-західних, до Південного, Східного і Центрального - відповідно степового, слобожанського та наддніпрянського говорів. 

Нижче наведено графіки, які показують розподіл текстів за макрорегіонами в корпусі (ГРАК-10).


Макрорегіон

Кількість токенів

Частка в корпусі, %

W

172303252

46

KYV

118565515

32

E

26624696

7

C

23900708

6

S

16903552

5

N

12944789

3



Рис. 1: Розподіл текстів за макрорегіонами, ГРАК-10


Рис. 1: Розподіл текстів за макрорегіонами по роках, ГРАК-10


Тексти ЗМІ (газети, новинні сайти в Інтернеті) позначені регіоном видання цього ЗМІ. Інші тексти анотуються за регіоном, де народився, навчався або жив понад десять років автор (або перекладач для перекладеного тексту). Таким чином, регіональна розмітка, як правило, пов'язана з автором українського тексту, якщо про нього є відповідна інформація. Один текст може мати декілька регіональних тегів, якщо в нього більше одного автора або якщо автор народився, навчався, тривалий час жив у різних регіонах.

Приблизно 85,5% корпусу ГРАК-10 анотовано за регіонами. Тексти, створені в Україні, які мають один макрорегіон, становлять 60% корпусу ГРАК-10.

Для регіональної розмітки тексту в ГРАКу передбачено атрибути DOC.COUNTRY, DOC.MACROREGION (Північ, Захід, Південь, Схід, Центр, Київ: рис. 3), DOC.REGION та DOC.LOCCODE, який для зручності містить набір усіх регіональних атрибутів (наприклад, DOC.COUNTRY = "UA", DOC.MACROREGION = "C", DOC.REGION = "CRK" та DOC.LOCCODE = "UA-C-CRK").

Рис. 3: Макрорегіони в ГРАКу


DOC.LOCCODE для України:

UA-C-CRK - Черкаська область

UA-C-KRV - Кіровоградська область

UA-C-KVS - Київська область

UA-C-PLT - Полтавська область

UA-E-HRK - Харківська область

UA-E-SUM - Сумська область

UA-KYV-KYV - Київ

UA-N-CRG - Чернігівська область

UA-N-RVN - Рівненська область

UA-N-VLN - Волинська область

UA-N-ZHT - Житомирська область

UA-S-DNC - Донецька область

UA-S-DNP - Дніпропетровська область

UA-S-HRS - Херсонська область

UA-S-KRM - Крим

UA-S-LGN - Луганська область

UA-S-MKL - Миколаївська область

UA-S-ODE - Одеська область

UA-S-ZPR - Запорізька область

UA-W-CRV - Чернівецька область

UA-W-HML - Хмельницька область

UA-W-IFR - Івано-Франківська область

UA-W-LVV - Львівська область

UA-W-TRN - Тернопільська область

UA-W-VNC - Вінницька область

UA-W-ZKR - Закарпатська область


В анотації є також теги, що позначають країни української діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). DOC.LOCCODE для української діаспори починається з літери D, далі йде код для країн пострадянського простору (DOC.MACROREGION = "V") та інших країн (DOC.MACROREGION = "Z"). Третій код позначає країну. Для сусідніх Росії, Польщі та Чехословаччини доступний четвертий код для уточнення регіону.


D-V-BY - Білорусь

D-V-GE - Грузія 

D-V-KZ - Казахстан

D-V-MLD - Молдова

D-V-RU - Росія

D-V-RU-KBN - Кубань

D-V-RU-SSL - Східна Слобожанщина

D-V-TKM - Туркменістан

D-Z-AR - Аргентина

D-Z-AT - Австрія

D-Z-AU - Австралія

D-Z-BE - Бельгія

D-Z-BR - Бразилія

D-Z-CA - Канада

D-Z-CH - Швейцарія

D-Z-CZE - Чеська Республіка

D-Z-CZE-SVK - Чехословаччина (до 1992 року)

D-Z-DE - Німеччина

D-Z-EET - Естонія

D-Z-ES - Іспанія

D-Z-FR - Франція

D-Z-GB - Велика Британія

D-Z-IL - Ізраїль

D-Z-IT - Італія

D-Z-LT - Литва

D-Z-LV - Латвія

D-Z-PL - Польща

D-Z-PL-HLM - Холмщина

D-Z-RO - Румунія

D-Z-SRB - Сербія

D-Z-SVK - Словаччина

D-Z-SWE - Швеція

D-Z-USA - Сполучені Штати Америки


M. Shvedova, R. von Waldenfels. Regional Annotation within GRAC, a Large Reference Corpus of Ukrainian: Issues and Challenges. CEUR Workshop Proceedings. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021). Volume I: Main Conference. Kharkiv, Ukraine, April 22-23, 2021. P. 32-45

How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.