Toto je starší verze dokumentu!

Jak citovat korpusy zpřístupňované ČNK

Zobrazení informace o korpusu včetně citačních údajů v rozhraní KonText

Způsoby citování korpusů

Existují v zásadě dva způsoby, jakým korpusy při vědecké práci citovat:

uvedení korpusu jako pramene či zdroje dat;
uvedení odkazu na konkrétní článek, který popisuje vznik korpusu a jeho složení.

Volba mezi těmito dvěma možnostmi je na zvážení uživatele a záleží také na konkrétním účelu citace; samozřejmě je možné oba způsoby kombinovat. Konkrétní podobu citace najdete jednak v této wiki na stránce věnované konkrétnímu korpusu a jednak v rozhraní KonText po kliknutí na odkaz s názvem korpusu.

Citace ad 1) je uvedena vždy, citace ad 2) pouze v KonTextu a jen pro většinu korpusů; chybí tedy v případě, kdy se žádný článek s popisem korpusu nepodařilo dohledat. Kromě konkrétního bibliografického údaje však můžete u některých korpusů v KonTextu najít přímo webový odkaz na adresu, z níž je možné článek stáhnout.

Citování nereferenčních korpusů

Při citování verzovaných korpusů je potřeba uvádět také číslo verze, které je v rozhraní KonText u každého verzovaného korpusu vždy k dispozici jako součást citační informace.

Při citaci konkrétního díla lze použít také seznam zdrojů korpusu SYN2000, SYN2005 nebo SYN2010.

Lemmatizace a tagování

Používáte-li lemmatizaci nebo morfologické značky (atributy lemma nebo tag v korpusech řady SYN), citujte také některou z následujících publikací:

Jan Hajič (2004): Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Karolinum Charles University Press, Praha.

Milena Hnátková, Michal Křen, Pavel Procházka, Hana Skoumalová (2014): The SYN-series corpora of written Czech. In: Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14). ELRA, Reykjavík, s. 160–164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf

Tomáš Jelínek (2008): Nové značkování v Českém národním korpusu. Naše řeč 91 (1), s. 13–20.

Vladimír Petkevič (2014): Problémy automatické morfologické disambiguace češtiny. Naše řeč 97 (4), s. 194–207.

Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Krbec, Pavel Květoň (2007): The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL, Praha, s. 67–74.

Citování speciálních aplikací

Program SyD

Václav Cvrček – Pavel Vondřička (2011): SyD – Korpusový průzkum variant. FF UK, Praha. Dostupný z WWW: <http://syd.korpus.cz>.

Václav Cvrček – Pavel Vondřička (2011): Výzkum variability v korpusech češtiny. In: František Čermák (ed.): Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN, Praha, s. 184–195.

Program Morfio

Václav Cvrček – Pavel Vondřička (2013): Morfio. FF UK, Praha. Dostupný z WWW: <http://morfio.korpus.cz>.

Václav Cvrček – Pavel Vondřička (2013): Nástroj pro slovotvornou analýzu jazykového korpusu. Gramatika a korpus 2012. Gaudeamus, Hradec Králové.

Program KWords

Václav Cvrček – Pavel Vondřička (2013): KWords. FF UK, Praha. Dostupný z WWW: <http://kwords.korpus.cz>.

Program Treq

Martin Vavřín – Alexandr Rosen (2015): Treq. FF UK, Praha. Dostupný z WWW: <http://treq.korpus.cz>.

Michal Škrabal – Martin Vavřín (2017): Databáze překladových ekvivalentů Treq. Časopis pro moderní filologii 99 (2), s. 245–260.

Škrabal, M. – Vavřín, M. (2017): The Translation Equivalents Database (Treq) as a Lexicographer’s Aid. In: I. Kosem et al. (eds): Electronic lexicography in the 21st century. Proceedings of eLex 2017 conference. Lexical Computing CZ s. r. o. Leiden, pp. 124–137.

Historie: • citace