AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:koditex [2018/06/05 10:10] – [Zdroje dat] petrapoukarovacnk:koditex [2021/11/18 12:53] (aktuální) lukes
Řádek 131: Řádek 131:
   * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836   * Straka, Milan & Jana Straková. 2016. Czech Models (MorfFlex CZ 161115 + PDT 3.0) for MorphoDiTa 161115. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11234/1-1836
   * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8   * Straka, Milan & Jana Straková. 2014. Czech Models (CNEC) for NameTag. LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. http://hdl.handle.net/11858/00-097C-0000-0023-7D42-8
 +
 +Ve verzi 2 byla pak v roce 2019 doplněna ve strukturním atributu ''chunk.register'' [[cnk:registrova_klasifikace|registrová klasifikace]] jednotlivých chunků.
  
 ===== Zdroje dat ===== ===== Zdroje dat =====
  
-Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//.+Valná většina dat obsažených v korpusu Koditex pochází ze zdrojů Českého národního korpusu (ČNK); jazyková data, která ČNK obvykle neshromažďuje, byla získána z jiných vědecko-výzkumných pracovišť. Chtěli bychom tímto také poděkovat Martinu Proškovi a Petru Kaderkovi z [[http://ujc.cas.cz|Ústavu pro jazyk český AV ČR]] za poskytnutí dat z korpusu [[http://ujc.dialogy.cz|DIALOG]], Karlu Palovi a Vítu Baisovi z [[https://nlp.fi.muni.cz|Centra zpracování přirozeného jazyka (CZPJ) na Masarykově univerzitě]] a dále Josefu Šlerkovi a jeho týmu ze Socialinsider za poskytnutí dat pro třídu //wik// a divizi //mul//.
  
 Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet: Korpus Koditex byl vytvořen vzorkováním různých zdrojů a s využitím různých nástrojů, zde je uveden jejich výčet:
Řádek 153: Řádek 155:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
-Zasina, Adrian J., David Lukeš, Zuzana Komrsková, Petra Poukarová  & Anna Řehořková. 2018. Koditex (A corpus of diversified texts)Faculty of ArtsInstitute of the Czech National Corpus, Charles University in Prague.+Zasina, A. J. – Lukeš, D. – Komrsková, Z. – Poukarová, P. – Řehořková, A.: //Koditex: korpus diverzifikovaných textů//Ústav Českého národního korpusu FF UKPraha 2018. Dostupný z WWW: http://www.korpus.cz
 </WRAP> </WRAP>