Skrýt
Nastavení

Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.

Název NKJP_1M
Pozice Počet pozic (tokenů) 1 215 513
Počet pozic bez interpunkce 992 014
Počet slovních tvarů (wordů) 143 477
Počet lemmat 54 174
Struktury Počet dokumentů <doc> 3 889
Počet odstavců <p> 18 484
Počet vět <s> 85 663
Další informace Referenční ANO
Reprezentativní ANO
Rok zveřejnění 2018

Klasifikace textů

Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše typy) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.

Komunikační rovina doc.genre Kategorie Podíl
psaná #typ_publ publicistika 48,85 %
#typ_lit beletrie 17,04 %
#typ_fakt literatura faktu 5,34 %
#typ_inf-por informativní texty 5,62 %
#typ_urzed právní texty 2,97 %
#typ_nd vědecko-naučné texty 1,91 %
#typ_nklas nezařazená nebeletristická kniha 1,00 %
#typ_listy korespondence 0,04 %
#typ_lit_poezja poezie 0,01 %
mluvená #typ_qmow kvazimluvené texty 2,50 %
#typ_media mluvené mediální texty 2,07 %
#typ_konwers mluvené konverzační texty 5,57 %
webová #typ_net_interakt internetové interakční texty 5,18 %
#typ_net_nieinterakt internetové neinterakční texty 1,91 %

Poziční anotace a značkování

Oproti českým korpusům NKJP_1M obsahuje navíc poziční atribut specifický pro polštinu, tzv. flexém. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (subst) vydělována depreciativa (depr), kromě běžných adjektiv (adj) jsou rozlišovány jmenné tvary adjektiva: a) jsoucí částí složeniny (adja, typ biało-czerwony, sportowo-rekreacyjny), b) jsoucí součástí předložkových skupin (adjp, typ po polsku, od dawna), c) v roli přísudku (adjc, typ jestem pewien, był wesół i zdrów); obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů).

Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete zde.

K originálnímu korpusu byla navíc přidána dvojice pozičních atributů: lc a lemma_lc, díky nimž lze v korpusu vyhledávat bez ohledu na velikost písmen.

Struktura korpusu a strukturní značky

Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

<doc> Poznámka <p> Poznámka <s> Poznámka
title název dokumentu id jednoznačný identifikátor id jednoznačný identifikátor
author autor dokumentu
date datum vydání
publisher vydavatel
pubplace místo vydání
idno jednoznačný identifikátor s informací o zdrojovém korpusu
note informace o zdrojovém korpusu
genre žánr (textový typ)
medium médium (komunikační kanál)
id jednoznačný identifikátor

Jak citovat NKJP_1M

Przepiórkowski,. A. – Degórski, Ł. – Murzynowski, G. – Szałkiewicz, Ł. – Czelakowska, A.– Savary, A. – Głowińska, K.: NKJP_1M: ręcznie znakowany milionowy podkorpus NKJP. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz

Degórski, Ł. – Przepiórkowski, A. (2012): Ręcznie znakowany milionowy podkorpus NKJP. In: A. Przepiórkowski – M. Bańko – R. L. Górski – B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego, pp. 51–58. Warszawa: Wydawnictwo Naukowe PWN. ISBN 978-83-01-16700-4.

– Adrian Zasina, Michal Škrabal