Toto je starší verze dokumentu!
Korpus NKJP_1M
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.
Název | NKJP_1M | |
---|---|---|
Pozice | Počet pozic (tokenů) | 1 215 513 |
Počet pozic bez interpunkce | 992 014 | |
Počet slovních tvarů (wordů) | 143 477 | |
Počet lemmat | 54 174 | |
Struktury | Počet dokumentů <doc> | 3 889 |
Počet odstavců <p> | 18 484 | |
Počet vět <s> | 85 663 | |
Další informace | Referenční | ANO |
Reprezentativní | ANO | |
Rok zveřejnění | 2018 |
Klasifikace textů
Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše typy) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.
Komunikační rovina | doc.genre | Kategorie | Podíl |
---|---|---|---|
psaná | #typ_publ | publicistika | 48,85 % |
#typ_lit | beletrie | 17,04 % | |
#typ_fakt | literatura faktu | 5,34 % | |
#typ_inf-por | informativní texty | 5,62 % | |
#typ_urzed | právní texty | 2,97 % | |
#typ_nd | vědecko-naučné texty | 1,91 % | |
#typ_nklas | non-fiction | 1,00 % | |
#typ_listy | korespondence | 0,04 % | |
#typ_lit_poezja | poezie | 0,01 % | |
mluvená | #typ_qmow | kvazimluvené texty | 2,50 % |
#typ_media | mluvené mediální texty | 2,07 % | |
#typ_konwers | mluvené konverzační texty | 5,57 % | |
webová | #typ_net_interakt | internetové interakční texty | 5,18 % |
#typ_net_nieinterakt | internetové neinterakční texty | 1,91 % |
Poziční anotace a značkování
Oproti českým korpusům NKJP obsahuje navíc poziční atribut specifický pro polštinu:
flexeme
– množina forem jednotně anebo téměř jednotně diferencovaných vzhledem ke gramatickým kategoriím jim určeným.
Oproti českým korpusům NKJP obsahuje navíc poziční atribut specifický pro polštinu, tzv. flexém. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (subst) vydělována depreciativa (depr), kromě běžných adjektiv (adj) jsou rozlišovány jmenné tvary adjektiva a) jsoucí částí složeniny (adja, typ biało-czerwony, sportowo-rekreacyjny), b) jsoucí součástí předložkových skupin (adjp, typ po polsku, od dawna), c) v roli přísudku (adjc, typ jestem pewien, był wesół i zdrów), obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů).
Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete zde.
Struktura korpusu a strukturní značky
Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>
, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p>
a vět <s>
. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.
<doc> | Poznámka | <p> | Poznámka | <s> | Poznámka |
---|---|---|---|---|---|
title | název dokumentu | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
author | autor dokumentu | ||||
date | datum vydání | ||||
publisher | vydavatel | ||||
pubplace | místo vydání | ||||
idno | jednoznačný identifikátor s informací o zdrojovém korpusu | ||||
note | informace o zdrojovém korpusu | ||||
genre | žánr (textový typ) | ||||
medium | médium (komunikační kanál) | ||||
id | jednoznačný identifikátor |
Jak citovat NKJP_1M
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.
– Adrian Zasina, Michal Škrabal