Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.

Název		NKJP_1M
Pozice	Počet pozic (tokenů)	1 215 513
	Počet pozic bez interpunkce	992 014
	Počet slovních tvarů (wordů)	143 477
	Počet lemmat	54 174
Struktury	Počet dokumentů <doc>	3 889
	Počet odstavců <p>	18 484
	Počet vět <s>	85 663
Další informace	Referenční	ANO
	Reprezentativní	ANO
	Rok zveřejnění	2018

Klasifikace textů

Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše typy) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.

Komunikační rovina	doc.genre	Kategorie	Podíl
psaná	#typ_publ	publicistika	48,85 %
	#typ_lit	beletrie	17,04 %
	#typ_fakt	literatura faktu	5,34 %
	#typ_inf-por	informativní texty	5,62 %
	#typ_urzed	právní texty	2,97 %
	#typ_nd	vědecko-naučné texty	1,91 %
	#typ_nklas	nezařazená nebeletristická kniha	1,00 %
	#typ_listy	korespondence	0,04 %
	#typ_lit_poezja	poezie	0,01 %
mluvená	#typ_qmow	kvazimluvené texty	2,50 %
	#typ_media	mluvené mediální texty	2,07 %
	#typ_konwers	mluvené konverzační texty	5,57 %
webová	#typ_net_interakt	internetové interakční texty	5,18 %
webová	#typ_net_nieinterakt	internetové neinterakční texty	1,91 %

Poziční anotace a značkování

Oproti českým korpusům NKJP_1M obsahuje navíc poziční atribut specifický pro polštinu, tzv. flexém. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (subst) vydělována depreciativa (depr), kromě běžných adjektiv (adj) jsou rozlišovány jmenné tvary adjektiva: a) jsoucí částí složeniny (adja, typ biało-czerwony, sportowo-rekreacyjny), b) jsoucí součástí předložkových skupin (adjp, typ po polsku, od dawna), c) v roli přísudku (adjc, typ jestem pewien, był wesół i zdrów); obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů).

Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete zde.

K originálnímu korpusu byla navíc přidána dvojice pozičních atributů: lc a lemma_lc, díky nimž lze v korpusu vyhledávat bez ohledu na velikost písmen.

Struktura korpusu a strukturní značky

Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

`<doc>`	Poznámka	`<p>`	Poznámka	`<s>`	Poznámka
title	název dokumentu	id	jednoznačný identifikátor	id	jednoznačný identifikátor
author	autor dokumentu
date	datum vydání
publisher	vydavatel
pubplace	místo vydání
idno	jednoznačný identifikátor s informací o zdrojovém korpusu
note	informace o zdrojovém korpusu
genre	žánr (textový typ)
medium	médium (komunikační kanál)
id	jednoznačný identifikátor

Jak citovat NKJP_1M

Przepiórkowski,. A. – Degórski, Ł. – Murzynowski, G. – Szałkiewicz, Ł. – Czelakowska, A.– Savary, A. – Głowińska, K.: NKJP_1M: ręcznie znakowany milionowy podkorpus NKJP. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz

Degórski, Ł. – Przepiórkowski, A. (2012): Ręcznie znakowany milionowy podkorpus NKJP. In: A. Przepiórkowski – M. Bańko – R. L. Górski – B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego, pp. 51–58. Warszawa: Wydawnictwo Naukowe PWN. ISBN 978-83-01-16700-4.

– Adrian Zasina, Michal Škrabal

Historie: • nkjp