Toto je starší verze dokumentu!
Korpus NKJP_1M
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.
Název | NKJP_1M | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 215 513 |
Počet pozic bez interpunkce | 992 014 | |
Počet slovních tvarů (wordů) | 143 477 | |
Počet lemmat | 54 174 | |
Struktury | Počet dokumentů <doc> | 3 889 |
Počet odstavců <p> | 18 484 | |
Počet vět <s> | 85 663 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO | |
Rok zveřejnění | 2018 |
Klasifikace textů
Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše typy) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.
Komunikační rovina | doc.genre | Kategorie | Podíl |
---|---|---|---|
psaná | #typ_publ | publicistika | 48,85 % |
#typ_lit | beletrie | 17,04 % | |
#typ_fakt | literatura faktu | 5,34 % | |
#typ_inf-por | informativní texty | 5,62 % | |
#typ_urzed | právní texty | 2,97 % | |
#typ_nd | vědecko-naučné texty | 1,91 % | |
#typ_nklas | non-fiction | 1,00 % | |
#typ_listy | korespondence | 0,04 % | |
#typ_lit_poezja | poezie | 0,01 % | |
mluvená | #typ_qmow | kvazimluvené texty | 2,50 % |
#typ_media | mluvené mediální texty | 2,07 % | |
#typ_konwers | mluvené konverzační texty | 5,57 % | |
webová | #typ_net_interakt | internetové interakční texty | 5,18 % |
#typ_net_nieinterakt | internetové neinterakční texty | 1,91 % |
Poziční anotace a značkování
Oproti českým korpusům NJKP obsahuje navíc poziční atribut specifický pro polštinu:
flexeme
– množina forem jednotně anebo téměř jednotně diferencovaných vzhledem ke gramatickým kategoriím jim určeným.
Mimoto se liší polský tagset od českého, jeho podrobný popis najdete zde.
Struktura korpusu a strukturní značky
Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>
, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p>
a vět <s>
. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
<doc> | Poznámka | <p> | Poznámka | <s> | Poznámka |
---|---|---|---|---|---|
title | název dokumentu | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
author | autor dokumentu | ||||
date | datum vydání | ||||
publisher | vydavatel | ||||
pubplace | místo vydání | ||||
idno | jednoznačný identifikátor s informací o zdrojovém korpusu | ||||
note | informace o zdrojovém korpusu | ||||
genre | žánr (textový typ) | ||||
medium | médium (komunikační kanál) | ||||
id | jednoznačný identifikátor |
Jak citovat NKJP_1M
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.
– Adrian Zasina, Michal Škrabal