AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:nkjp [2018/03/27 13:16] – [Klasifikace textů] michalskrabalcnk:nkjp [2018/11/06 10:25] (aktuální) – [Poziční anotace a značkování] adrianzasina
Řádek 28: Řádek 28:
 | ::: | #typ_urzed | právní texty |  2,97 % | | ::: | #typ_urzed | právní texty |  2,97 % |
 | ::: | #typ_nd | vědecko-naučné texty |  1,91 % | | ::: | #typ_nd | vědecko-naučné texty |  1,91 % |
-| ::: | #typ_nklas | non-fiction |  1,00 % |+| ::: | #typ_nklas | nezařazená nebeletristická kniha |  1,00 % |
 | ::: | #typ_listy | korespondence |  0,04 % | | ::: | #typ_listy | korespondence |  0,04 % |
 | ::: | #typ_lit_poezja | poezie |  0,01 % | | ::: | #typ_lit_poezja | poezie |  0,01 % |
Řádek 39: Řádek 39:
 ===== Poziční anotace a značkování ===== ===== Poziční anotace a značkování =====
  
-Oproti českým korpusům NJKP obsahuje navíc poziční atribut specifický pro polštinu+Oproti českým korpusům NKJP_1M obsahuje navíc poziční atribut specifický pro polštinu, tzv. **flexém**. Jde o kategorii vycházející ze slovních druhů, jež jsou jejím prostřednictvím dále členěny do specifičtějších tříd lexémů. Tak jsou např. ze skupiny substantiv (//subst//) vydělována depreciativa (//depr//), kromě běžných adjektiv (//adj//) jsou rozlišovány jmenné tvary adjektiva: a) jsoucí částí složeniny (//adja//, typ //__biało__-czerwony//, //__sportowo__-rekreacyjny//), b) jsoucí součástí předložkových skupin (//adjp//, typ //po __polsku__//, //od __dawna__//), c) v roli přísudku (//adjc//, typ //jestem __pewien__//, //był __wesół__ i __zdrów__//); obzvláště jemná je distinkce slovesných kategorií (více než 10 různých flexémů).
-  ''[[pojmy:flexém| flexeme]]'' -- množina forem jednotně anebo téměř jednotně diferencovaných vzhledem ke gramatickým kategoriím jim určenýmFIXME+
  
-Mimoto se liší polský tagset od českého, jeho podrobný popis najdete [[http://nkjp.pl/poliqarp/help/ense2.html|zde]].+Mimoto se liší polský tagset od českého, jeho podrobný popis (včetně výčtu všech flexémů) najdete [[http://nkjp.pl/poliqarp/help/ense2.html|zde]]. 
 + 
 +K originálnímu korpusu byla navíc přidána dvojice pozičních atributů: ''lc'' a ''lemma_lc'', díky nimž lze v korpusu vyhledávat [[pojmy:case-sensitive|bez ohledu na velikost písmen]]. 
  
 ===== Struktura korpusu a strukturní značky ===== ===== Struktura korpusu a strukturní značky =====
Řádek 62: Řádek 63:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Degórski, Ł. Przepiórkowski, A. (2012)Ręcznie znakowany milionowy podkorpus NKJP. In A. PrzepiórkowskiM. BańkoR. L. Górski B. Lewandowska-Tomaszczyk (eds), Narodowy Korpus Języka Polskiego. Warszawa: Wydawnictwo Naukowe PWN, 51–58.+Przepiórkowski,. A. – Degórski, Ł. – Murzynowski, G. – Szałkiewicz, Ł. – Czelakowska, A.– Savary, A. – Głowińska, K.: //NKJP_1M: ręcznie znakowany milionowy podkorpus NKJP//. Ústav Českého národního korpusu FF UK, Praha 2018. Dostupný z WWW: http://www.korpus.cz 
 + 
 +Degórski, Ł. – Przepiórkowski, A. (2012)Ręcznie znakowany milionowy podkorpus NKJP. InA. Przepiórkowski – M. Bańko – R. L. Górski – B. Lewandowska-Tomaszczyk (eds), //[[http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf|Narodowy Korpus Języka Polskiego]]//, pp. 51–58. Warszawa: Wydawnictwo Naukowe PWN. ISBN 978-83-01-16700-4.
 </WRAP> </WRAP>
  
 //-- Adrian Zasina, Michal Škrabal// //-- Adrian Zasina, Michal Škrabal//