AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je lemmatizovaný a morfologicky tagovaný a vůči kategorizaci textů je reprezentativní.

Název NKJP_1M
Pozice Počet pozic (tokenů) 1 215 513
Počet pozic bez interpunkce 992 014
Počet slovních tvarů (wordů) 143 477
Počet lemmat 54 174
Struktury Počet dokumentů <doc> 3 889
Počet odstavců <p> 18 484
Počet vět <s> 85 663
Další informace Referenční ANO
Reprezentativní ANO
Rok zveřejnění 2018

Klasifikace textů

Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše komunikační kanál), avšak tyto dva typy členění zůstávají samostatné.

Komunikační rovina doc.genre Kategorie Podíl
psaná #typ_publ Publicistická 48,85 %
#typ_lit Beletrie 17,04 %
#typ_fakt Literatura faktu 5,34 %
#typ_inf-por Typ informační 5,62 %
#typ_urzed Právní 2,97 %
#typ_nd Typ vědecko-didaktický 1,91 %
#typ_nklas Kniha non-fiction nezařazená 1,00 %
#typ_listy Korespondence 0,04 %
#typ_lit_poezja Poezie 0,01 %
mluvená #typ_qmow Kvazi-mluvené 2,50 %
#typ_media Mluvené mediální 2,07 %
#typ_konwers Mluvené konverzační 5,57 %
webová #typ_net_interakt Internetové interakční 5,18 %
#typ_net_nieinterakt Internetové neinterakční 1,91 %

Poziční anotace a značkování

Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu:

  • flexeme– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným.

Struktura korpusu a strukturní značky

Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

<doc> Poznámka <p> Poznámka <s> Poznámka
title název dokumentu id jednoznačný identifikátor id jednoznačný identifikátor
author autor dokumentu
date datum vydání
publisher vydavatel
pubplace místo vydání
idno jednoznačný identifikátor s informací o zdrojovém korpusu
note informace o zdrojovém korpusu
genre žánr (textový typ)
medium médium (komunikační kanál)
id jednoznačný identifikátor

Jak citovat NKJP 1M

Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.