Toto je starší verze dokumentu!
Korpus NKJP_1M
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je lemmatizovaný a morfologicky tagovaný a vůči kategorizaci textů je reprezentativní.
| Název | NKJP_1M | |
|---|---|---|
| Pozice | Počet pozic (tokenů) | 1 215 513 |
| Počet pozic bez interpunkce | 992 014 | |
| Počet slovních tvarů (wordů) | 143 477 | |
| Počet lemmat | 54 174 | |
| Struktury | Počet dokumentů <doc> | 3 889 |
| Počet odstavců <p> | 18 484 | |
| Počet vět <s> | 85 663 | |
| Další informace | Referenční | ANO |
| Reprezentativní | ANO | |
| Rok zveřejnění | 2018 | |
Klasifikace textů
Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše komunikační kanál), avšak tyto dva typy členění zůstávají samostatné.
| Komunikační rovina | doc.genre | Kategorie | Podíl |
|---|---|---|---|
| psaná | #typ_publ | Publicistická | 48,85 % |
| #typ_lit | Beletrie | 17,04 % | |
| #typ_fakt | Literatura faktu | 5,34 % | |
| #typ_inf-por | Typ informační | 5,62 % | |
| #typ_urzed | Právní | 2,97 % | |
| #typ_nd | Typ vědecko-didaktický | 1,91 % | |
| #typ_nklas | Kniha non-fiction nezařazená | 1,00 % | |
| #typ_listy | Korespondence | 0,04 % | |
| #typ_lit_poezja | Poezie | 0,01 % | |
| mluvená | #typ_qmow | Kvazi-mluvené | 2,50 % |
| #typ_media | Mluvené mediální | 2,07 % | |
| #typ_konwers | Mluvené konverzační | 5,57 % | |
| webová | #typ_net_interakt | Internetové interakční | 5,18 % |
| #typ_net_nieinterakt | Internetové neinterakční | 1,91 % |
Poziční anotace a značkování
Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu:
flexeme– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným.
Struktura korpusu a strukturní značky
Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
<doc> | Poznámka | <p> | Poznámka | <s> | Poznámka |
|---|---|---|---|---|---|
| title | název dokumentu | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
| author | autor dokumentu | ||||
| date | datum vydání | ||||
| publisher | vydavatel | ||||
| pubplace | místo vydání | ||||
| idno | jednoznačný identifikátor s informací o zdrojovém korpusu | ||||
| note | informace o zdrojovém korpusu | ||||
| genre | žánr (textový typ) | ||||
| medium | médium (komunikační kanál) | ||||
| id | jednoznačný identifikátor |
Jak citovat NKJP 1M
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.