Both sides previous revisionPrevious revisionNext revision | Previous revision |
en:cnk:citace [2016/11/14 17:32] – veronikapojarova | en:cnk:citace [2023/10/13 17:15] (current) – [Lemmatization and tagging] jankrivan |
---|
==== Citing non-reference corpora ==== | ==== Citing non-reference corpora ==== |
| |
When citing [[en:pojmy:referencni|non-reference corpora]] which are not an unchangeable reference source, it is necessary to also include the version number and the time of access, similarly as it is done when citing web pages. For every non-reference corpus, information about the current version is available in the Kontext interface as part of the citation information. | When citing [[en:pojmy:referencni|versioned corpora]], it is necessary to also include the version number. The version number is available in the KonText interface as part of the citation information. |
| |
<WRAP round tip 40%> | When citing a **specific text** it is also possible to cite the [[en:seznamy:index|list of sources]] [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2000|SYN2000]], [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2005|SYN2005]] or [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2010|SYN2010]]. |
| |
Při citaci **konkrétního díla** lze použít také [[seznamy:index|seznam zdrojů]] korpusu [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2000|SYN2000]], [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2005|SYN2005]] nebo [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2010|SYN2010]]. | ==== Lemmatization and tagging ==== |
</WRAP> | |
| |
==== Lemmatizace a tagování ==== | * If you use [[en:pojmy:lemma|lemmatization]], [[en:pojmy:tag|morphological]] or [[en:cnk:syn2020#verb_tagging_verbtag|verb]] tags (attributes //lemma//, //tag// or //verbtag// in the SYN series corpora), please also cite one of the following publications: |
| |
Používáte-li [[pojmy:lemma|lemmatizaci]] nebo [[pojmy:tag|morfologické značky]] (atributy //lemma// nebo //tag// v korpusech řady SYN), citujte také následující publikace: | Tomáš Jelínek, Jan Křivan, Vladimír Petkevič, Hana Skoumalová, Jana Šindlerová (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, pp. 48–59. |
| |
| Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, pp. 122–145. |
| |
| * You can also cite any of the following articles that relate to the annotation used: |
| |
Jan Hajič: //Disambiguation of Rich Inflection (Computational Morphology of Czech)//. Vol. 1. Karolinum Charles University Press, Praha 2004. | Jan Hajič: //Disambiguation of Rich Inflection (Computational Morphology of Czech)//. Vol. 1. Karolinum Charles University Press, Praha 2004. |
| |
Tomáš Jelínek (2008): Nové značkování v Českém národním korpusu. In: //Naše řeč//, 91, 1, pp. 13–20. | Milena Hnátková, Michal Křen, Pavel Procházka, Hana Skoumalová (2014): The SYN-series corpora of written Czech. In: //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//, pp. 160–164. Reykjavík: ELRA. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf |
| |
| Vladimír Petkevič (2014): Problémy automatické morfologické disambiguace češtiny. In: //Naše řeč//, 97, 4, pp. 194–207. |
| |
| Milan Straka, Jana Straková, Jan Hajič (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: Proceedings of the 22nd International Conference on Text, Speech and Dialogue - TSD 2019, Lecture Notes in Computer Science, ISSN 0302-9743, 11697, pp. 137-150. |
| |
| * For the lemmatization and tagging of the spoken ORAL corpus, you can also cite: |
| |
| Marie Kopřivová, Zuzana Komrsková, David Lukeš, Petra Poukarová (2017): Korpus ORAL: sestavení, lemmatizace a morfologické značkování. In: //Korpus -- gramatika -- axiologie//, 15, pp. 47–67. |
| |
| ==== Citing specialized applications ==== |
| |
| **Word at a Glance (WaG)** |
| |
| Tomáš Machálek (2019): Word at a Glance -- application for word profile aggregation. FF UK, Praha. Available from <http://korpus.cz/slovo-v-kostce/>. |
| |
| Tomáš Machálek (2019): Word at a Glance – a Customizable Word Profile Aggregator. In: //[[https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf |
| |Proceedings of the CLARIN Annual Conference 2019]]//, s. 85–88. |
| |
| **[[en:manualy:kontext:index|KonText]]** |
| |
| Tomáš Machálek (2014): KonText -- application for working with language corpora. FF UK, Praha. Available from <http://kontext.korpus.cz>. |
| |
| **[[en:manualy:syd|SyD]]** |
| |
| Václav Cvrček – Pavel Vondřička (2011): SyD -- corpus study of variants. FF UK, Praha. Available from <http://syd.korpus.cz>. |
| |
Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Krbec, Pavel Květoň: The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: //Proceedings of the Workshop on Balto-Slavonic Natural Language Processing//. ACL 2007, Praha. pp. 67–74. | Václav Cvrček – Pavel Vondřička (2011): Výzkum variability v korpusech češtiny. In: František Čermák (ed.): //Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů.// NLN, Praha, s. 184–195. |
| |
Vladimír Petkevič (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: //Insight into the Slovak and Czech Corpus Linguistics (Šimková M. ed.)//. Veda, Bratislava, pp. 26–44. | **[[en:manualy:morfio|Morfio]]** |
| |
==== Citování speciálních aplikací ==== | Václav Cvrček – Pavel Vondřička (2013): Morfio -- application for analyzing morphological relations. FF UK, Praha. Available from <http://morfio.korpus.cz>. |
| |
**Program [[manualy:syd|SyD]]** | Václav Cvrček – Pavel Vondřička (2013): Nástroj pro slovotvornou analýzu jazykového korpusu. //Gramatika a korpus 2012//. Gaudeamus, Hradec Králové. |
| |
Cvrček, V. – Vondřička, P.: SyD - Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: <http://syd.korpus.cz>. | **[[en:manualy:kwords|KWords]]** |
| |
Cvrček, V. – Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).: Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, s. 184–195. | Václav Cvrček – Pavel Vondřička (2013): KWords -- application for the extraction of keywords. FF UK, Praha. Available from <http://kwords.korpus.cz>. |
| |
**Program [[manualy:morfio|Morfio]]** | **[[en:manualy:treq|Treq]]** |
| |
Cvrček, V. – Vondřička, P.: Morfio. FF UK. Praha 2013. Dostupný z WWW: <http://morfio.korpus.cz>. | Martin Vavřín – Alexandr Rosen (2015): Treq -- database of translation equivalents. FF UK, Praha. Available from <http://treq.korpus.cz>. |
| |
Cvrček, V. – Vondřička. P. (2013): Nástroj pro slovotvornou analýzu jazykového korpusu. In: //Gramatika a korpus 2012//. Gaudeamus. Hradec Králové. | Michal Škrabal – Martin Vavřín (2017): Databáze překladových ekvivalentů Treq. //Časopis pro moderní filologii// 99 (2), s. 245–260. |
| |
**Program [[manualy:kwords|KWords]]** | Michal Škrabal – Martin Vavřín (2017): The Translation Equivalents Database (Treq) as a Lexicographer’s Aid. In: I. Kosem et al. (eds): //Electronic lexicography in the 21st century. Proceedings of eLex 2017 conference//. Lexical Computing CZ, s. r. o., Leiden, s. 124–137. |
| |
Cvrček, V. – Vondřička, P.: KWords. FF UK. Praha 2013. Dostupný z WWW: <http://kwords.korpus.cz>. | |