Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzePoslední revizeObě strany příští revize |
cnk:nkjp [2018/03/24 14:31] – nový článek adrianzasina | cnk:nkjp [2018/11/05 12:29] – [Klasifikace textů] adrianzasina |
---|
====== Korpus NKJP_1M ====== | ====== Korpus NKJP_1M ====== |
| |
Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – //Narodowy Korpus Języka Polskiego//) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]] a vůči kategorizaci textů je reprezentativní. | Korpus NKJP_1M je ručně označkovaný milionový subkorpus [[http://nkjp.pl|Národního korpusu polského jazyka]] (NKJP – //Narodowy Korpus Języka Polskiego//) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]] a co do kategorizace textů [[pojmy:reprezentativnost|reprezentativní]]. |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ ::: ^ Rok zveřejnění | 2018 | | ^ ::: ^ Rok zveřejnění | 2018 | |
</WRAP> | </WRAP> |
| |
===== Klasifikace textů ===== | ===== Klasifikace textů ===== |
Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše //typy//) je často integrován s členěním zohledujícím medium (v polské korpusové terminologii spíše //komunikační kanál//), avšak tyto dva typy členění zůstávají samostatné. | Klasifikace textů v NKJP_1M kombinuje tradiční stylové a tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše //typy//) je často integrováno s dělením zohledňujícím médium (v polské korpusové terminologii spíše //komunikační kanál//), přičemž tyto dva typy členění zůstávají samostatné. |
| |
^Komunikační rovina^ doc.genre ^ Kategorie ^ Podíl ^ | ^Komunikační rovina^ doc.genre ^ Kategorie ^ Podíl ^ |
|psaná| | Deník | 25,5 % | | | psaná | #typ_publ | publicistika | 48,85 % | |
| ::: | | Ostatní periodiky | 23,5 % | | | ::: | #typ_lit | beletrie | 17,04 % | |
| ::: | #typ_publ | Publicistická kniha| 1,0 % | | | ::: | #typ_fakt | literatura faktu | 5,34 % | |
| ::: | #typ_lit_poezja #typ_lit | Beletrie| 16,0 % | | | ::: | #typ_inf-por | informativní texty | 5,62 % | |
| ::: | #typ_fakt | Literatura faktu| 5,5 % | | | ::: | #typ_urzed | právní texty | 2,97 % | |
| ::: | #typ_inf-por | Typ informační| 5,5 % | | | ::: | #typ_nd | vědecko-naučné texty | 1,91 % | |
| ::: | #typ_nd| Typ vědecko-didaktický| 16,0 % | | | ::: | #typ_nklas | nezařazená nebeletristická kniha | 1,00 % | |
| ::: | | Jiné psané texty| 3,0 % | | | ::: | #typ_listy | korespondence | 0,04 % | |
| ::: | #typ_nklas| Kniha non-fiction nezařazená| 1,0 % | | | ::: | #typ_lit_poezja | poezie | 0,01 % | |
|mluvená | #typ_qmow| Kvazi-mluvené| 2,5 % | | | mluvená | #typ_qmow | kvazimluvené texty | 2,50 % | |
| ::: | #typ_media| Mluvené mediální | 2,5 % | | | ::: | #typ_media | mluvené mediální texty | 2,07 % | |
| ::: | #typ_konwers | Mluvené konverzační| 5,0 % | | | ::: | #typ_konwers | mluvené konverzační texty | 5,57 % | |
|webová |#typ_net_interakt | Internetové interakční| 3,5 % | | | webová | #typ_net_interakt | internetové interakční texty | 5,18 % | |
| ::: | #typ_net_nieinterakt| Internetové neinterakční| 3,5 % | | | ::: | #typ_net_nieinterakt | internetové neinterakční texty | 1,91 % | |
| |
===== Poziční anotace a značkování ===== | ===== Poziční anotace a značkování ===== |
| |
Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu: | Oproti českým korpusům NKJP obsahuje navíc poziční atribut specifický pro polštinu, tzv. **flexém**. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (//subst//) vydělována depreciativa (//depr//), kromě běžných adjektiv (//adj//) jsou rozlišovány jmenné tvary adjektiva a) jsoucí částí složeniny (//adja//, typ //__biało__-czerwony//, //__sportowo__-rekreacyjny//), b) jsoucí součástí předložkových skupin (//adjp//, typ //po __polsku__//, //od __dawna__//), c) v roli přísudku (//adjc//, typ //jestem __pewien__//, //był __wesół__ i __zdrów__//), obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů). |
* ''[[pojmy:flexém| flexeme]]''– je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k gramatickým kategoriím jim určeným. | |
| Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete [[http://nkjp.pl/poliqarp/help/ense2.html|zde]]. |
| |
| K originálnímu korpusu byla navíc přidána dvojice pozičních atributů: ''lc'' a ''lemma_lc'', díky nimž lze v korpusu vyhledávat [[pojmy:case-sensitive|bez ohledu na velikost písmen]]. |
| |
===== Struktura korpusu a strukturní značky ===== | ===== Struktura korpusu a strukturní značky ===== |
| |
| Struktura korpusu NKJP_1M má nejvyšší [[pojmy:atributy_strukturni|strukturní jednotku]] ''<doc>'', která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. |
| ^ ''<doc>'' ^ Poznámka ^ ''<p>'' ^ Poznámka ^'' <s>'' ^ Poznámka ^ |
| | title | název dokumentu | id | jednoznačný identifikátor | id | jednoznačný identifikátor | |
| | author | autor dokumentu | | | | |
| | date | datum vydání | | | | |
| | publisher | vydavatel | | | | |
| | pubplace | místo vydání | | | | |
| | idno | jednoznačný identifikátor s informací o zdrojovém korpusu | | | | |
| | note | informace o zdrojovém korpusu | | | | |
| | genre | žánr (textový typ) | | | | | |
| | medium | médium (komunikační kanál) | | | | |
| | id | jednoznačný identifikátor | | | | |
| |
====== Jak citovat NKJP 1M ====== | ====== Jak citovat NKJP_1M ====== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Degórski, Ł. & Przepiórkowski, A. (2012). Ręcznie znakowany milionowy podkorpus NKJP. In A. Przepiórkowski, M. Bańko, R. L. Górski & B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58. | Przepiórkowski,. A. – Degórski, Ł. – Murzynowski, G. – Szałkiewicz, Ł. – Czelakowska, A.– Savary, A. – Głowińska, K.: //NKJP_1M: ręcznie znakowany milionowy podkorpus NKJP//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz |
| |
| Degórski, Ł. – Przepiórkowski, A. (2012): Ręcznie znakowany milionowy podkorpus NKJP. In: A. Przepiórkowski – M. Bańko – R. L. Górski – B. Lewandowska-Tomaszczyk (eds), //[[http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf|Narodowy Korpus Języka Polskiego]]//, pp. 51–58. Warszawa: Wydawnictwo Naukowe PWN. ISBN 978-83-01-16700-4. |
</WRAP> | </WRAP> |
| |
| //-- Adrian Zasina, Michal Škrabal// |
| |