Інші корпуси української мови та слов'янських мов

Корпуси української мови

Корпус

Обсяг Склад Доступ
Корпус текстів української мови

120 млн слововживань
Публіцистика, художня проза, наукові, законодавчі, поетичні, фольклорні тексти
Доступний для пошуку онлайн
Лабораторія Української
Веб-корпус із синтаксичною розміткою

3 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн
Український веб-корпус Лейпцизького університету
Корпус, скомпільований 2014 р.

1,5 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн, пошук за словоформою
Веб-корпус Araneum Ucrainicum

125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”) Тексти з Інтернет, завантажені в 2014, 2015, 2021 і 2022

Доступні для пошуку онлайн, потрібна реєстрація
ukTenTen: Ukrainian corpus from the Web

7,5 млрд токенів
Тексти з Інтернет
Доступний для пошуку онлайн
Польський автоматичний веб-корпус української мови (ПАВУК)

700+ млн токенів Тексти з Інтернет (новинні сайти, телеграм, твіттер, ютуб), завантажується щоденно з березня 2022 року Доступний для пошуку онлайн
Український парламентський корпус (ParlaMint) 41,1 млн токенів Стенограми засідань Верховної ради (2002-2023) Доступний для пошуку онлайн
Браунський український корпус

633 тисяч токенів (510 тис. слів)
Збалансований корпус зі знятою вручну омонімією Доступний для завантаження
Лабораторія Української
Корпус зі знятою омонімією (Treebank)

140 тис. токенів
Різностильові тексти
Доступний для пошуку онлайн і завантаження
Lang-uk. Корпуси українських текстів

600 млн слів
Новини, Вікіпедія, художні тексти, веб
Доступні для завантаження
Корпус української мови бібліотеки «Чтиво»

600 млн слів
Автоматично розпізнані книжки (без виправлення помилок, без корпусної розмітки): художні, наукові, публіцистичні тексти
Доступний для пошуку онлайн, пошук за словоформою
Лабораторія Української
Паралельні корпуси з англійською, польською, французькою, німецькою, іспанською, португальською

6 млн токенів
Художня проза
Доступні для пошуку онлайн
UA-GEC: корпус текстів з розміченими граматичними помилками
34000 речень Тексти з помилками Доступний для завантаження


Авторські конкорданси

Онлайн-конкорданс повної збірки творів Григорія Сковороди

247 176 словоформ
Перелік слов’янських, латинських, грецьких словоформ, що їх вжив Сковорода у своїх віршах, філософських трактатах і листуванні. Без лематизації.

Доступний для пошуку онлайн, є доступ до повних текстів
Онлайн-конкорданс роману Івана Франка "Перехресні стежки"


Повний список лем, вжитих у романі (у тому числі лематизовані польські, німецькі, чеські, французькі, латинські фрагменти тексту)
Доступний для пошуку онлайн

Корпуси східнослов'янських мов

ruTenTen: веб-корпус російської мови

>20 млрд слів Тексти з Інтернет, завантажені в 2011, 2017
Доступний для пошуку онлайн
 Araneum Russicum Russicum: веб-корпус російської мови (в Росії)

125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”)
Тексти з російських сайтів, завантажені в 2015
Доступний для пошуку онлайн, потрібна реєстрація
Araneum Russicum Externum: веб-корпус російської мови (за межами Росії)
125 млн токенів (“Minus”) і 1,25 млрд токенів (“Maius”)
Тексти з неросійських сайтів, завантажені в 2015
Доступний для пошуку онлайн, потрібна реєстрація


Білоруський N-корпус [Беларускі N-корпус]

1 млрд слів Художні, публіцистичні, наукові, релігійні, офіційно-ділові тексти
Доступний для пошуку онлайн
Білоруський веб-корпус Araneum Albaruthenicum Novum MMXXI

155 млн токенів Тексти з Інтернет
Доступний для пошуку онлайн
Корпус білоруських текстів наукового стилю Corpus Albaruthenicum

350 тис. слів Тексти наукового стилю Доступний для пошуку онлайн
Експериментальний корпус білоруської мови [Эксперыментальны корпус беларускай мовы]

7,5 млн токенів
Газетні і художні тексти
Доступний для завантаження
Паралельний Білоруський біблійний корпус [Біблійны корпуc]


16 білоруських перекладів Біблії і 6 перекладів іншими мовами, зокрема український переклад Івана Огієнка

Доступний для пошуку онлайн
Усний русинський корпус [Corpus of Spoken Rusyn]

125 тис. слів Транскипції усного мовлення з аудіозаписами. Записано на території Польщі, Словаччини, України та Угорщини в 2015 р.

Доступний для пошуку онлайн (треба натиснути log in внизу сторінки), пошук за словоформою


Корпуси західнослов'янських мов

Національний корпус польської мови [Narodowy Korpus Języka Polskiego]

1,8 млрд токенів
Художня проза, газети, наукові тексти, записи усного мовлення, тексти з Інтернет

Доступний для пошуку онлайн
Корпус польської мови видавництва PWN [Korpus Języka Polskiego Wydawnictwa Naukowego PWN]
100 млн слів Художня проза, публіцистика, інші друковані тексти (реклама, інструкції з експлуатації, правила, виборчі листівки тощо), тексти веб-сайтів, розмовні тексти

Доступний для пошуку онлайн
Корпусна пошукова система Monco [Wyszukiwarka korpusowa Monco]

>7 млрд слів
Тексти з Інтернет
Доступно для пошуку онлайн
Spokes. Усний польський корпус

2,3 млн слів Транскипції усного мовлення з аудіозаписами

Доступний для пошуку онлайн
Корпус мовлення мешканців Спіша в Польщі [Korpus języka mówionego mieszkańców Spisza]


Транскипції усного мовлення з аудіозаписами
Доступний для пошуку онлайн

Електронний корпус польських текстів 17-18 століть (до 1772 р.) [Elektroniczny korpus tekstów polskich z XVII i XVIII w. (do 1772 r.)]

13,5 млн токенів
Доступний для пошуку онлайн
Паралельний польсько-німецький / німецько-польський корпус 1 млн слів Художні тексти, публіцистика, юридичні, нехудожні тексти

Доступний для пошуку онлайн
Чеський національний корпус [Český národní korpus]

>4 млрд токенів

Сучасні письмові тексти (понад 4 млрд токенів), усні тексти (понад 7 млн токенів), історичний корпус, паралельний корпус InterCorp, який містить переклади з або на 30+ мов.

Доступний для пошуку онлайн
Старочеський текстовий банк [Staročeská textová banka]



Доступний для пошуку онлайн

База даних пізньосередньовічних біблійних текстів  [Český biblický překlad v diachronním pohledu: Databáze pozdně středověkých biblických textů]





Доступна для пошуку онлайн
Словацький національний корпус [Slovenský národný korpus]

1,5 млрд токенів Тексти різних стилів, жанрів, регіонів, з 1955 р.
Доступний для пошуку онлайн
Нижньолужицький корпус [Dolnoserbski tekstowy korpus]
15 млн токенів
Доступний для пошуку онлайн


Корпуси південнослов'янських мов

Хорватський національний корпус [Hrvatski nacionalni korpus]

217 млн токенів
Доступний для пошуку онлайн
Корпус хорватської мови Riznica [Hrvatski jezični korpus]


Класична художня література (романи, новели, драма, поезія); нехудожні тексти; наукові публікації, підручники для університетів і шкіл; переклади видатних перекладачів; інтернет-журнали та газети; книги періоду стандартизації хорватської мови, адаптовані до сучасної норми
Доступний для пошуку онлайн
Cловенський корпус Nova beseda
318 млн слів Публіцистичні тексти, стенограми засідань Державних зборів, художні, наукові, законодавчі тексти

Доступний для пошуку онлайн
Усний словенський корпус GOS [GOS — GOvorjene Slovenščine]

>1 млн слів Радіо- і телевізійні передачі, шкільні уроки, лекції, приватні розмови, консультації тощо

Доступний для пошуку онлайн
Болгарський національний корпус [Български национален корпус]



Доступний для пошуку онлайн




ParaSol: A Parallel Corpus of Slavic and other languages



How to use this theme

Every part of this theme can be translated to another language. Even this content you are reading now!

The drop-down in the main menu is called a Locale Picker. It lets you quickly switch between any of the available languages when browsing this website.

For help on setting up more languages, close this popup and click the Languages menu item.