Toto je starší verze dokumentu!
Korpus NKJP_1M
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je lemmatizovaný a morfologicky tagovaný a vůči kategorizaci textů je reprezentativní.
Název | NKJP_1M | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 215 513 |
Počet pozic bez interpunkce | 992 014 | |
Počet slovních tvarů (wordů) | 143 477 | |
Počet lemmat | 54 174 | |
Struktury | Počet dokumentů <doc> | 3 889 |
Počet odstavců <p> | 18 484 | |
Počet vět <s> | 85 663 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO | |
Rok zveřejnění | 2018 |
Klasifikace textů
Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše komunikační kanál), avšak tyto dva typy členění zůstávají samostatné.
Komunikační rovina | doc.genre | Kategorie | Podíl |
---|---|---|---|
psaná | Deník | 25,5 % | |
Ostatní periodiky | 23,5 % | ||
#typ_publ | Publicistická kniha | 1,0 % | |
#typ_lit_poezja #typ_lit | Beletrie | 16,0 % | |
#typ_fakt | Literatura faktu | 5,5 % | |
#typ_inf-por | Typ informační | 5,5 % | |
#typ_nd | Typ vědecko-didaktický | 16,0 % | |
Jiné psané texty | 3,0 % | ||
#typ_nklas | Kniha non-fiction nezařazená | 1,0 % | |
mluvená | #typ_qmow | Kvazi-mluvené | 2,5 % |
#typ_media | Mluvené mediální | 2,5 % | |
#typ_konwers | Mluvené konverzační | 5,0 % | |
webová | #typ_net_interakt | Internetové interakční | 3,5 % |
#typ_net_nieinterakt | Internetové neinterakční | 3,5 % |
Poziční anotace a značkování
Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu:
flexeme
– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným.
Struktura korpusu a strukturní značky
Jak citovat NKJP 1M
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.