Toto je starší verze dokumentu!

Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.

Název		NKJP_1M
Pozice	Počet pozic (tokenů)	1 215 513
	Počet pozic bez interpunkce	992 014
	Počet slovních tvarů (wordů)	143 477
	Počet lemmat	54 174
Struktury	Počet dokumentů <doc>	3 889
	Počet odstavců <p>	18 484
	Počet vět <s>	85 663
Další informace	Referenční	ANO
	Reprezentativní	ANO
	Rok zveřejnění	2018

Klasifikace textů

Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše typy) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.

Komunikační rovina	doc.genre	Kategorie	Podíl
psaná	#typ_publ	publicistika	48,85 %
	#typ_lit	beletrie	17,04 %
	#typ_fakt	literatura faktu	5,34 %
	#typ_inf-por	informativní texty	5,62 %
	#typ_urzed	právní texty	2,97 %
	#typ_nd	vědecko-naučné texty	1,91 %
	#typ_nklas	non-fiction	1,00 %
	#typ_listy	korespondence	0,04 %
	#typ_lit_poezja	poezie	0,01 %
mluvená	#typ_qmow	kvazimluvené texty	2,50 %
	#typ_media	mluvené mediální texty	2,07 %
	#typ_konwers	mluvené konverzační texty	5,57 %
webová	#typ_net_interakt	internetové interakční texty	5,18 %
webová	#typ_net_nieinterakt	internetové neinterakční texty	1,91 %

Poziční anotace a značkování

Oproti českým korpusům NJKP obsahuje navíc poziční atribut specifický pro polštinu:

flexeme – množina forem jednotně anebo téměř jednotně diferencovaných vzhledem ke gramatickým kategoriím jim určeným.

Mimoto se liší polský tagset od českého, jeho podrobný popis najdete zde.

Struktura korpusu a strukturní značky

Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

`<doc>`	Poznámka	`<p>`	Poznámka	`<s>`	Poznámka
title	název dokumentu	id	jednoznačný identifikátor	id	jednoznačný identifikátor
author	autor dokumentu
date	datum vydání
publisher	vydavatel
pubplace	místo vydání
idno	jednoznačný identifikátor s informací o zdrojovém korpusu
note	informace o zdrojovém korpusu
genre	žánr (textový typ)
medium	médium (komunikační kanál)
id	jednoznačný identifikátor

Jak citovat NKJP_1M

Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.

– Adrian Zasina, Michal Škrabal

Historie: • nkjp