Toto je starší verze dokumentu!
Korpus NKJP_1M
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je lemmatizovaný a morfologicky tagovaný a vůči kategorizaci textů je reprezentativní.
Název | NKJP_1M | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 215 513 |
Počet pozic bez interpunkce | 992 014 | |
Počet slovních tvarů (wordů) | 143 477 | |
Počet lemmat | 54 174 | |
Struktury | Počet dokumentů <doc> | 3 889 |
Počet odstavců <p> | 18 484 | |
Počet vět <s> | 85 663 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO | |
Rok zveřejnění | 2018 |
Klasifikace textů
Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše komunikační kanál), avšak tyto dva typy členění zůstávají samostatné.
Komunikační rovina | doc.genre | Kategorie | Podíl |
---|---|---|---|
psaná | #typ_publ | Publicistická | 48,85 % |
#typ_lit | Beletrie | 17,04 % | |
#typ_fakt | Literatura faktu | 5,34 % | |
#typ_inf-por | Typ informační | 5,62 % | |
#typ_urzed | Právní | 2,97 % | |
#typ_nd | Typ vědecko-didaktický | 1,91 % | |
#typ_nklas | Kniha non-fiction nezařazená | 1,00 % | |
#typ_listy | Korespondence | 0,04 % | |
#typ_lit_poezja | Poezie | 0,01 % | |
mluvená | #typ_qmow | Kvazi-mluvené | 2,50 % |
#typ_media | Mluvené mediální | 2,07 % | |
#typ_konwers | Mluvené konverzační | 5,57 % | |
webová | #typ_net_interakt | Internetové interakční | 5,18 % |
#typ_net_nieinterakt | Internetové neinterakční | 1,91 % |
Poziční anotace a značkování
Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu:
flexeme
– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným.
Struktura korpusu a strukturní značky
Jak citovat NKJP 1M
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.