AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:nkjp [2018/03/24 15:53] – [Klasifikace textů] tabulka Adrian Zasinacnk:nkjp [2018/11/06 10:25] (aktuální) – [Poziční anotace a značkování] Adrian Zasina
Řádek 2: Řádek 2:
 ====== Korpus NKJP_1M ====== ====== Korpus NKJP_1M ======
  
-Korpus NKJP_1M je ručně označkovaný milionový subkorpus Národního korpusu polského jazyka (NKJP – //Narodowy Korpus Języka Polskiego//) složený ze vzorků různorodých textů obsahující 1 milion textových slov. Je korpusem současné polštiny s texty vydanými pro roce 1945, zahrnuje psanou, mluvenou a webovou komunikaci. Korpus NKJP_1M je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]] a vůči kategorizaci textů je reprezentativní. +Korpus NKJP_1M je ručně označkovaný milionový subkorpus [[http://nkjp.pl|Národního korpusu polského jazyka]] (NKJP – //Narodowy Korpus Języka Polskiego//) složený ze vzorků různorodých textů (viz níže) a obsahující 1 milion textových slov. Jde o korpus současné polštiny s texty vydanými po roce 1945, zahrnující komunikaci psanou, mluvenou a webovou. Korpus je [[pojmy:lemma|lemmatizovaný]] a morfologicky [[pojmy:tag|tagovaný]] a co do kategorizace textů [[pojmy:reprezentativnost|reprezentativní]]
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 17: Řádek 17:
 ^ ::: ^ Rok zveřejnění |  2018 | ^ ::: ^ Rok zveřejnění |  2018 |
 </WRAP> </WRAP>
 +
 ===== Klasifikace textů ===== ===== Klasifikace textů =====
-Klasifikace textů v NKJP_1M prolíná tradiční stylistické a žánrové členění textů. Vplývá ono z inherentních vlastností struktury textu – stylistických nebo žánrových, občas – i když výjimečně – implikovaných tematikou textu, ačkoli v podstatě nezávislých na tematickém členění. Členění na žánry (v polské korpusové terminologii spíše //typy//) je často integrován členěním zohledujícím medium (v polské korpusové terminologii spíše //komunikační kanál//), avšak tyto dva typy členění zůstávají samostatné.+Klasifikace textů v NKJP_1M kombinuje tradiční stylové tematicko-žánrové členění textů. Dělení na žánry (v polské korpusové terminologii spíše //typy//) je často integrováno dělením zohledňujícím médium (v polské korpusové terminologii spíše //komunikační kanál//), přičemž tyto dva typy členění zůstávají samostatné.
    
 ^Komunikační rovina^ doc.genre ^ Kategorie ^ Podíl ^ ^Komunikační rovina^ doc.genre ^ Kategorie ^ Podíl ^
-| psaná | #typ_publ | Publicistická  48,85 % | +| psaná | #typ_publ | publicistika | 48,85 % | 
-| ::: | #typ_lit | Beletrie 17,04 % | +| ::: | #typ_lit | beletrie | 17,04 % | 
-| ::: | #typ_fakt | Literatura faktu|  5,34 % | +| ::: | #typ_fakt | literatura faktu |  5,34 % | 
-| ::: | #typ_inf-por | Typ informační|  5,62 % | +| ::: | #typ_inf-por | informativní texty |  5,62 % | 
-| ::: | #typ_urzed| Právní |  2,97 % | +| ::: | #typ_urzed | právní texty |  2,97 % | 
-| ::: | #typ_nd| Typ vědecko-didaktický|  1,91 % | +| ::: | #typ_nd | vědecko-naučné texty |  1,91 % | 
-| ::: | #typ_nklas| Kniha non-fiction nezařazená|  1,00 % | +| ::: | #typ_nklas | nezařazená nebeletristická kniha |  1,00 % | 
-| ::: | #typ_listy | Korespondence |  0,04 % | +| ::: | #typ_listy | korespondence |  0,04 % | 
-| ::: | #typ_lit_poezja | Poezie|  0,01 % | +| ::: | #typ_lit_poezja | poezie |  0,01 % | 
-|mluvená | #typ_qmow| Kvazi-mluvené|  2,50 % | +| mluvená | #typ_qmow | kvazimluvené texty |  2,50 % | 
-| ::: | #typ_media| Mluvené mediální |  2,07 % | +| ::: | #typ_media | mluvené mediální texty |  2,07 % | 
-| ::: | #typ_konwers | Mluvené konverzační|  5,57 % | +| ::: | #typ_konwers | mluvené konverzační texty |  5,57 % | 
-|webová |#typ_net_interakt | Internetové interakční|  5,18 % | +| webová | #typ_net_interakt | internetové interakční texty |  5,18 % | 
-| ::: | #typ_net_nieinterakt| Internetové neinterakční|  1,91 % |+| ::: | #typ_net_nieinterakt | internetové neinterakční texty |  1,91 % |
  
 ===== Poziční anotace a značkování ===== ===== Poziční anotace a značkování =====
  
-Oproti českým korpusům NJKP obsahuje poziční značku specifickou pro polštinu: +Oproti českým korpusům NKJP_1M obsahuje navíc poziční atribut specifický pro polštinu, tzv. **flexém**. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (//subst//) vydělována depreciativa (//depr//), kromě běžných adjektiv (//adj//) jsou rozlišovány jmenné tvary adjektivaa) jsoucí částí složeniny (//adja//, typ //__biało__-czerwony//, //__sportowo__-rekreacyjny//), b) jsoucí součástí předložkových skupin (//adjp//, typ //po __polsku__//, //od __dawna__//), c) v roli přísudku (//adjc//, typ //jestem __pewien__//, //był __wesół__ i __zdrów__//); obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů). 
-  * ''[[pojmy:flexémflexeme]]''–  je to množina forem jednotně anebo téměř jednotně diferencovaných vzhledem k  gramatickým kategoriím jim určeným.+ 
 +Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete [[http://nkjp.pl/poliqarp/help/ense2.html|zde]]
 + 
 +K originálnímu korpusu byla navíc přidána dvojice pozičních atributů: ''lc'' a ''lemma_lc'', díky nimž lze v korpusu vyhledávat [[pojmy:case-sensitive|bez ohledu na velikost písmen]]
  
 ===== Struktura korpusu a strukturní značky ===== ===== Struktura korpusu a strukturní značky =====
  
 +Struktura korpusu NKJP_1M má nejvyšší [[pojmy:atributy_strukturni|strukturní jednotku]] ''<doc>'', která je ve shodě s mezinárodní konvencí. Texty se dále člení do odstavců ''<p>'' a vět ''<s>''. Každá z těchto struktur je charakterizována konkrétními atributy, jejichž přehled uvádíme v následující tabulce. 
 +^ ''<doc>'' ^ Poznámka ^ ''<p>''  ^ Poznámka ^'' <s>''  ^ Poznámka ^
 +| title | název dokumentu | id | jednoznačný identifikátor | id | jednoznačný identifikátor |
 +| author | autor dokumentu |  |  |  |
 +| date | datum vydání |  |  |  | 
 +| publisher | vydavatel |  |  |  |   
 +| pubplace | místo vydání |  |  |  | 
 +| idno | jednoznačný identifikátor s informací o zdrojovém korpusu |  |  |  | 
 +| note | informace o zdrojovém korpusu |  |  |  |  
 +| genre | žánr (textový typ) |  |  |  |  | 
 +| medium | médium (komunikační kanál) |  |  |  | 
 +| id | jednoznačný identifikátor |  |  |  |
  
-====== Jak citovat NKJP 1M ======+====== Jak citovat NKJP_1M ======
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Degórski, Ł. Przepiórkowski, A. (2012)Ręcznie znakowany milionowy podkorpus NKJP. In A. PrzepiórkowskiM. BańkoR. L. Górski B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.+Przepiórkowski,. A. – Degórski, Ł. – Murzynowski, G. – Szałkiewicz, Ł. – Czelakowska, A.– Savary, A. – Głowińska, K.: //NKJP_1M: ręcznie znakowany milionowy podkorpus NKJP//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz 
 + 
 +Degórski, Ł. – Przepiórkowski, A. (2012)Ręcznie znakowany milionowy podkorpus NKJP. InA. Przepiórkowski – M. Bańko – R. L. Górski – B. Lewandowska-Tomaszczyk (eds), //[[http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf|Narodowy Korpus Języka Polskiego]]//, pp. 51–58. Warszawa: Wydawnictwo Naukowe PWN. ISBN 978-83-01-16700-4.
 </WRAP> </WRAP>
 +
 +//-- Adrian Zasina, Michal Škrabal//