AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Jak citovat korpusy zpřístupňované ČNK

Způsoby citování korpusů

Existují v zásadě dva způsoby, jakým korpusy při vědecké práci citovat:

  1. uvedení korpusu jako pramene či zdroje dat;
  2. uvedení odkazu na konkrétní článek, který popisuje vznik korpusu a jeho složení.

Volba mezi těmito dvěma možnostmi je na zvážení uživatele a záleží také na konkrétním účelu citace; samozřejmě je možné použít oba způsoby. Konkrétní podobu citace najdete jednak v této wiki na stránce věnované konkrétnímu korpusu a jednak v rozhraní KonText po kliknutí na odkaz „Jak citovat korpus“: Citace ad 1) je uvedena vždy, citace ad 2) pouze v KonTextu a pro každý korpus uvedena být nemusí; je tomu tak v případě, kdy žádný článek s popisem korpusu neexistuje. Někdy však kromě konkrétního bibliografického údaje najdete v KonTextu přímo webový odkaz na adresu, z níž je možné článek stáhnout.

Citování nereferenčních korpusů

Analogicky odkazujte i na další korpusy s výjimkou korpusů InterCorp, SYN, DIAKORP a dalších nereferenčních korpusů, které na rozdíl ode všech výše uvedených nejsou neměnným referenčním zdrojem, a proto je potřeba udávat také čas přístupu podobně jako je tomu v případě citování webových stránek:

SYN: Český národní korpus - SYN. Ústav Českého národního korpusu FF UK, Praha. Cit.24.09.2013 , dostupný z WWW: <http://www.korpus.cz>.

InterCorp: Český národní korpus - InterCorp. Ústav Českého národního korpusu FF UK, Praha. Cit.24.09.2013 , dostupný z WWW: <http://www.korpus.cz>.

Při citaci konkrétního díla použijte seznam zdrojů korpusu SYN2000, SYN2005 nebo SYN2010.

Citování lemmatizace a tagování

Používáte-li lemmatizaci nebo morfologické značky (atributy lemma nebo tag v korpusech řady SYN), citujte také následující publikace:

Jan Hajič: Disambiguation of Rich Inflection (Computational Morphology of Czech). Vol. 1. Karolinum Charles University Press, Praha 2004.

Tomáš Jelínek (2008): Nové značkování v Českém národním korpusu. In: Naše řeč, 91, 1, pp. 13-20.

Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Krbec, Pavel Květoň: The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In: Proceedings of the Workshop on Balto-Slavonic Natural Language Processing. ACL 2007, Praha. pp. 67-74.

Vladimír Petkevič (2006): Reliable Morphological Disambiguation of Czech: Rule-Based Approach is Necessary. In: Insight into the Slovak and Czech Corpus Linguistics (Šimková M. ed.). Veda, Bratislava, pp. 26-44.

Citování speciálních aplikací a korpusů

Program SyD

Cvrček, V. - Vodnřička, P.: SyD - Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: <http://syd.korpus.cz>.

Cvrček, V. - Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).: Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, (s. 184.195).

Korpus frWac

A. Ferraresi, S. Bernardini, G. Picci and M. Baroni (2010) “Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation”. In Xiao, R. (ed.) Using Corpora in Contrastive and Translation Studies. Newcastle: Cambridge Scholars Publishing. (PDF ke stažení)

Korpusy deWac, itWac, ukWac

M. Baroni, S. Bernardini, A. Ferraresi and E. Zanchetta. 2009. The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. Language Resources and Evaluation 43(3): 209-226. (PDF ke stažení)

Výběr z literatury

SYN: Křen, M. (2009): The SYN Concept: Towards One-Billion Corpus of Czech. In Mahlberg, M. – González-Díaz, V. – Smith, C. (eds), *Proceedings of the Corpus Linguistics Conference*. Liverpool. http://ucrel.lancs.ac.uk/publications/cl2009/269_FullPaper.doc

CZeSL-plain: Šebesta, K. – Škodová, S. et al. (2012): *Čeština – cílový jazyk a korpusy*. Liberec: Technická univerzita v Liberci. ISBN 978-80-7372-848-9. http://korpus.cz/doc/citace/CCJK.pdf

KSK-dopisy: Hladká, Z. (2013): Korpusové zpracování soukromé korespondence v ÚČJ FF MU v Brně. In Hladká, Z. et al., *Soukromá korespondence jako lingvistický pramen*, 7-17. Brno: Masarykova univerzita. ISBN 978-80-210-6140-8. http://korpus.cz/doc/citace/Korespondence_Hladka.pdf

KSK-dopisy: Hladká, Z. (2006): Der zeitgenössische tschechische private Briefverkehr in einem elektronischen Korpus. In *Zeitschrift für Slawistik*, 51(3), 333–337. Berlin. ISSN 0044-3506

SKRIPT2012: Šebesta, K. (2010): Korpusy češtiny a osvojování jazyka. In *Studie z aplikované lingvistiky*, 2, 11–33. Praha: Filozofická fakulta UK. ISSN 1804-3240. http://korpus.cz/doc/citace/SALi_2010_02_studie_Sebesta.pdf

FSC2000: Čermák, F. – Křen, M. (eds) (2004): *Frekvenční slovník češtiny*. Praha: NLN. ISBN 80-7106-676-1.

TOTALITA: Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): *Slovník komunistické totality*. Praha: NLN. ISBN 978-80-7422-060-9.

ORAL2013: Válková, L. – Waclawičová, M. – Křen, M. (2012): Balanced data repository of spontaneous spoken Czech. In *Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)*, 3345–3349. Istanbul:ELRA. ISBN 978-2-9517408-7-7. http://www.lrec-conf.org/proceedings/lrec2012/pdf/179_Paper.pdf

ORAL2008: Waclawičová, M. – Křen, M. – Válková, L. (2009): Balanced Corpus of Informal Spoken Czech: Compilation, Design and Findings. In *Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009*, 1819–1822, Brighton.

ORAL2006: Kopřivová, M. – Waclawičová, M. (2006): Representativeness of Spoken Corpora on the Example of the New Spoken Corpora of the Czech Language. In *Труды международной конференции „Корпусная лингвистика – 2006“*, 174–181. Санкт-Петербург: Издательство СПбГУ. ISBN 5-288-04181-4.

BMK: Hladká, Z. (2005): Zkušenosti s tvorbou korpusů češtiny v ÚČJ FF MU v Brně. In *SPFFBU* A 53, 115–124. Brno: Masarykova univerzita. ISBN 80-210-3705-9, ISSN 0231-7567. http://hdl.handle.net/11222.digilib/101736

SCHOLA2010: Šebesta, K. (2010): Korpusy češtiny a osvojování jazyka. In *Studie z aplikované lingvistiky*, 2, 11–33. Praha: Filozofická fakulta UK. ISSN 1804-3240. http://korpus.cz/doc/citace/SALi_2010_02_studie_Sebesta.pdf

HOTKO: Wölkowa, S. (2013): Hornjoserbski tekstowy korpus w nowej formje. In: *Serbska šula*, 66(2), 44–47. http://korpus.cz/doc/citace/Woelkowa_Sesu_2_2013.pdf

deWaC, itWaC, ukWaC: Baroni, M. – Bernardini, S. – Ferraresi, A. – Zanchetta, E. (2009): The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled Corpora. In *Language Resources and Evaluation*, 43(3), 209–226. http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf

frWaC: Ferraresi, A. – Bernardini, S. – Picci, G. – Baroni, M. (2010): Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation. In Xiao, R. (ed.), *Using Corpora in Contrastive and Translation Studies*. Newcastle: Cambridge Scholars Publishing. http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=ferraresi_et_al_2010.pdf