AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus NKJP_1M

Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – Narodowy Korpus Języka Polskiego) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je lemmatizovaný a morfologicky tagovaný a co do kategorizace textů reprezentativní.

Název NKJP_1M
Pozice Počet pozic (tokenů) 1 215 513
Počet pozic bez interpunkce 992 014
Počet slovních tvarů (wordů) 143 477
Počet lemmat 54 174
Struktury Počet dokumentů <doc> 3 889
Počet odstavců <p> 18 484
Počet vět <s> 85 663
Další informace Referenční ANO
Reprezentativní ANO
Rok zveřejnění 2018

Klasifikace textů

Klasifikace textů v NKJP_1M kombinuje tradiční stylistické a žánrové členění textů. Vyplývá z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše typy) je často integrováno s členěním zohledňujícím médium (v polské korpusové terminologii spíše komunikační kanál), přičemž tyto dva typy členění zůstávají samostatné.

Komunikační rovina doc.genre Kategorie Podíl
psaná #typ_publ publicistika 48,85 %
#typ_lit beletrie 17,04 %
#typ_fakt literatura faktu 5,34 %
#typ_inf-por informativní texty 5,62 %
#typ_urzed právní texty 2,97 %
#typ_nd vědecko-naučné texty 1,91 %
#typ_nklas non-fiction 1,00 %
#typ_listy korespondence 0,04 %
#typ_lit_poezja poezie 0,01 %
mluvená #typ_qmow kvazimluvené texty 2,50 %
#typ_media mluvené mediální texty 2,07 %
#typ_konwers mluvené konverzační texty 5,57 %
webová #typ_net_interakt internetové interakční texty 5,18 %
#typ_net_nieinterakt internetové neinterakční texty 1,91 %

Poziční anotace a značkování

Oproti českým korpusům NJKP obsahuje navíc poziční atribut specifický pro polštinu:

  • flexeme – množina forem jednotně anebo téměř jednotně diferencovaných vzhledem ke gramatickým kategoriím jim určeným. FIXME

Mimoto se liší polský tagset od českého, jeho podrobný popis najdete zde.

Struktura korpusu a strukturní značky

Struktura korpusu NKJP_1M má nejvyšší strukturní jednotku <doc>, která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců <p> a vět <s>. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce.

<doc> Poznámka <p> Poznámka <s> Poznámka
title název dokumentu id jednoznačný identifikátor id jednoznačný identifikátor
author autor dokumentu
date datum vydání
publisher vydavatel
pubplace místo vydání
idno jednoznačný identifikátor s informací o zdrojovém korpusu
note informace o zdrojovém korpusu
genre žánr (textový typ)
medium médium (komunikační kanál)
id jednoznačný identifikátor

Jak citovat NKJP_1M

Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.

– Adrian Zasina, Michal Škrabal