AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je lemmatizovaný a morfologicky tagovaný a vůči kategorizaci textů je reprezentativní.

Název NKJP_1M
Pozice Počet pozic (tokenů) 1 215 513
Počet pozic bez interpunkce 992 014
Počet slovních tvarů (wordů) 143 477
Počet lemmat 54 174
Struktury Počet dokumentů <doc> 3 889
Počet odstavců <p> 18 484
Počet vět <s> 85 663
Další informace Referenční ANO
Reprezentativní ANO
Rok zveřejnění 2018

Klasifikace textů

Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše komunikační kanál), avšak tyto dva typy členění zůstávají samostatné.

Komunikační rovina doc.genre Kategorie Podíl
psaná Deník 25,5 %
Ostatní periodiky 23,5 %
#typ_publ Publicistická kniha 1,0 %
#typ_lit_poezja #typ_lit Beletrie 16,0 %
#typ_fakt Literatura faktu 5,5 %
#typ_inf-por Typ informační 5,5 %
#typ_nd Typ vědecko-didaktický 16,0 %
Jiné psané texty 3,0 %
#typ_nklas Kniha non-fiction nezařazená 1,0 %
mluvená #typ_qmow Kvazi-mluvené 2,5 %
#typ_media Mluvené mediální 2,5 %
#typ_konwers Mluvené konverzační 5,0 %
webová #typ_net_interakt Internetové interakční 3,5 %
#typ_net_nieinterakt Internetové neinterakční 3,5 %

Poziční anotace a značkování

Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu:

  • flexeme– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným.

Struktura korpusu a strukturní značky

Jak citovat NKJP 1M

Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.