AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:citace [2014/03/11 18:24] – [Způsoby citování korpusů] Michal Křencnk:citace [2023/10/13 17:12] (aktuální) – [Lemmatizace a tagování] Jan Křivan
Řádek 1: Řádek 1:
 +~~NOTOC~~
 +
 ====== Jak citovat korpusy zpřístupňované ČNK ====== ====== Jak citovat korpusy zpřístupňované ČNK ======
  
 +[{{ :cnk:jak_citovat_korpus.png?nolink&500|Zobrazení informace o korpusu včetně citačních údajů v rozhraní KonText}}]
  
 ==== Způsoby citování korpusů ==== ==== Způsoby citování korpusů ====
 +
 +
  
 Existují v zásadě dva způsoby, jakým korpusy při vědecké práci citovat: Existují v zásadě dva způsoby, jakým korpusy při vědecké práci citovat:
Řádek 9: Řádek 14:
   - uvedení odkazu na konkrétní článek, který popisuje vznik korpusu a jeho složení.   - uvedení odkazu na konkrétní článek, který popisuje vznik korpusu a jeho složení.
  
-Volba mezi těmito dvěma možnostmi je na zvážení uživatele a záleží také na konkrétním účelu citace; samozřejmě je možné oba způsoby kombinovat. Konkrétní podobu citace najdete jednak v této wiki na stránce věnované konkrétnímu korpusu a jednak v rozhraní KonText po kliknutí na odkaz "Jak citovat korpus": {{ :cnk:jak_citovat_korpus.png |}} Citace ad 1) je uvedena vždy, citace ad 2) pouze v KonTextu a jen pro většinu korpusů; chybí tedy v případě, kdy se žádný článek s popisem korpusu nepodařilo dohledat. Kromě konkrétního bibliografického údaje však v KonTextu můžete najít přímo webový odkaz na adresu, z níž je možné článek stáhnout.+Volba mezi těmito dvěma možnostmi je na zvážení uživatele a záleží také na konkrétním účelu citace; samozřejmě je možné oba způsoby kombinovat. Konkrétní podobu citace najdete jednak v této wiki na stránce věnované konkrétnímu korpusu a jednak v rozhraní [[manualy:kontext:index|KonText]] po kliknutí na odkaz s názvem korpusu. 
 + 
 +Citace ad 1) je uvedena vždy, citace ad 2) pouze v KonTextu a jen pro většinu korpusů; chybí tedy v případě, kdy se žádný článek s popisem korpusu nepodařilo dohledat. Kromě konkrétního bibliografického údaje však můžete u některých korpusů v KonTextu najít přímo webový odkaz na adresu, z níž je možné článek stáhnout.
  
  
 ==== Citování nereferenčních korpusů ==== ==== Citování nereferenčních korpusů ====
  
-Při citování [[pojmy:referencni|nereferenčních korpusů]], které nejsou neměnným referenčním zdrojem, je potřeba uvádět také číslo verze a čas přístupu podobně jako případě citování webových stránek. Aktuální verze je u každého nereferenčního korpusu vždy k dispozici v rozhraní KonText jako součást citační informace.+Při citování [[pojmy:referencni|verzovaných korpusů]] je potřeba uvádět také číslo verze, které je rozhraní KonText u každého verzovaného korpusu vždy k dispozici jako součást citační informace.
  
-<WRAP round tip 40%> +Při citaci **konkrétního díla** lze použít také [[seznamy:index|seznam zdrojů]] korpusu [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2000|SYN2000]], [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2005|SYN2005]] nebo [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2010|SYN2010]].
- +
-Při citaci **konkrétního díla** použijte [[seznamy:index|seznam zdrojů]] korpusu [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2000|SYN2000]], [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2005|SYN2005]] nebo [[https://trnka.ff.cuni.cz/dokuwiki/doku.php/cnk:syn2010|SYN2010]]. +
-</WRAP>+
  
 ==== Lemmatizace a tagování ==== ==== Lemmatizace a tagování ====
  
-Používáte-li [[pojmy:lemma|lemmatizaci]] nebo [[pojmy:tag|morfologické značky]] (atributy //lemma// nebo //tag// v korpusech řady SYN), citujte také následující publikace:+  * Používáte-li [[pojmy:lemma|lemmatizaci]][[pojmy:tag|morfologické]] nebo [[pojmy:verbtag|slovesné]] značky (atributy //lemma////tag// nebo //verbtag// v korpusech řady SYN), citujte jednu z následujících publikací:  
 + 
 +Tomáš Jelínek, Jan Křivan, Vladimír Petkevič, Hana Skoumalová, Jana Šindlerová (2021): [[https://doi.org/10.1007/978-3-030-83527-9_4|SYN2020: A new corpus of Czech with an innovated annotation]]. In: K. Ekštein – F. Pártl – M. Konopík (eds.), //Text, Speech, and Dialogue.// TSD 2021. Lecture Notes in Computer Science, vol. 12848. Cham: Springer, pp. 48–59. 
 + 
 +Křivan, J. – Šindlerová, J. (2022): [[https://asjournals.lib.cas.cz/slovoaslovesnost/article/uuid:286197ce-8b36-43ac-9563-eba2abf8ca0e|Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu]]. //Slovo a slovesnost//, 83, 2/2022, s. 122–145. 
 + 
 +  * Můžete také uvést některý z následujících článků, které se použité anotace týkají: 
 + 
 +Jan Hajič (2004): //Disambiguation of Rich Inflection (Computational Morphology of Czech)//. Vol. 1. Karolinum Charles University Press, Praha.
  
 +Milena Hnátková, Michal Křen, Pavel Procházka, Hana Skoumalová (2014): The SYN-series corpora of written Czech. In: //Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)//. ELRA, Reykjavík, s. 160–164. http://www.lrec-conf.org/proceedings/lrec2014/pdf/294_Paper.pdf
  
-Jan Hajič: //Disambiguation of Rich Inflection (Computational Morphology of Czech)//. Vol. 1. Karolinum Charles University PressPraha 2004.+Vladimír Petkevič (2014)Problémy automatické morfologické disambiguace češtiny. //Naše řeč// 97 (4)s. 194–207.
  
-Tomáš Jelínek (2008): Nové značkování v Českém národním korpusu. In: //Naše řeč//911, pp. 13-20.+Milan Straka, Jana Straková, Jan Hajič (2019): Czech Text Processing with Contextual Embeddings: POS Tagging, Lemmatization, Parsing and NER. In: Proceedings of the 22nd International Conference on TextSpeech and Dialogue - TSD 2019, Lecture Notes in Computer Science, ISSN 0302-974311697, pp. 137-150.
  
-Drahomíra Spoustová, Jan Hajič, Jan Votrubec, Pavel Krbec, Pavel Květoň: The Best of Two Worlds: Cooperation of Statistical and Rule-Based Taggers for Czech. In//Proceedings of the Workshop on Balto-Slavonic Natural Language Processing//. ACL 2007, Praha. pp. 67-74.+  * V případě lemmatizace a značkování mluveného korpusu ORAL můžete citovat také následující publikaci:
  
-Vladimír Petkevič (2006): Reliable Morphological Disambiguation of CzechRule-Based Approach is NecessaryIn: //Insight into the Slovak and Czech Corpus Linguistics (Šimková M. ed.)//. VedaBratislava, pp26-44+Marie Kopřivová, Zuzana Komrsková, David Lukeš, Petra Poukarová (2017): Korpus ORALsestavení, lemmatizace a morfologické značkování. //Korpus -- gramatika -- axiologie// 15s47–67.
  
-==== Citování speciálních aplikací ====+==== Citování aplikací ====
  
-== Program SyD == +**[[manualy:wag|Slovo v kostce (WaG)]]**
-Cvrček, V. - Vodnřička, P.SyD - Korpusový průzkum variant. FF UK. Praha 2011. Dostupný z WWW: <http://syd.korpus.cz>.+
  
-Cvrček, V. - Vondřička, P.: Výzkum variability v korpusech češtiny. In: F. Čermák (ed).Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů. NLN. Praha, (s184.195).+Tomáš Machálek (2019): Slovo v kostce -- agregátor slovních profilů. FF UK, Praha. Dostupný z WWW: <http://korpus.cz/slovo-v-kostce/>.
  
-===== Výběr z literatury =====+Tomáš Machálek (2019): Word at a Glance – a Customizable Word Profile Aggregator. In: //[[https://office.clarin.eu/v/CE-2019-1512_CLARIN2019_ConferenceProceedings.pdf 
 +|Proceedings of the CLARIN Annual Conference 2019]]//, s. 85–88.
  
-**SYN:** +**[[manualy:kontext:index|KonText]]**
-Křen, M. (2009)The SYN Concept: Towards One-Billion Corpus of Czech. In Mahlberg, M. – González-Díaz, V. – Smith, C. (eds), *Proceedings of the Corpus Linguistics Conference*. Liverpool. http://ucrel.lancs.ac.uk/publications/cl2009/269_FullPaper.doc+
  
-**CZeSL-plain:** +Tomáš Machálek (2014): KonText -- aplikace pro práci s jazykovými korpusy. FF UK, Praha. Dostupný z WWW<http://kontext.korpus.cz>.
-Šebesta, K. – Škodová, S. et al. (2012): *Čeština – cílový jazyk a korpusy*LiberecTechnická univerzita v Liberci. ISBN 978-80-7372-848-9. http://korpus.cz/doc/citace/CCJK.pdf+
  
-**KSK-dopisy:** +Tomáš Machálek (2020): KonText: Advanced and Flexible Corpus Query Interface. In: //[[http://www.lrec-conf.org/proceedings/lrec2020/pdf/2020.lrec-1.865.pdf|Proceedings of LREC 2020]]//, s. 7005–7010.
-Hladká, Z. (2013): Korpusové zpracování soukromé korespondence v ÚČJ FF MU v Brně. In Hladká, Z. et al., *Soukromá korespondence jako lingvistický pramen*, 7-17. BrnoMasarykova univerzita. ISBN 978-80-210-6140-8. http://korpus.cz/doc/citace/Korespondence_Hladka.pdf+
  
-**KSK-dopisy:** +**[[manualy:syd|SyD]]**
-Hladká, Z. (2006): Der zeitgenössische tschechische private Briefverkehr in einem elektronischen Korpus. In *Zeitschrift für Slawistik*, 51(3), 333–337. Berlin. ISSN 0044-3506+
  
-**SKRIPT2012:** +Václav Cvrček – Pavel Vondřička (2011): SyD -- korpusový průzkum variantFF UKPrahaDostupný z WWW<http://syd.korpus.cz>.
-Šebesta, K. (2010): Korpusy češtiny a osvojování jazykaIn *Studie z aplikované lingvistiky*2, 11–33PrahaFilozofická fakulta UK. ISSN 1804-3240. http://korpus.cz/doc/citace/SALi_2010_02_studie_Sebesta.pdf+
  
-**FSC2000:** +Václav Cvrček – Pavel Vondřička (2011): Výzkum variability v korpusech češtiny. InFrantišek Čermák (ed.): //Korpusová lingvistika Praha 2011. 2. Výzkum a výstavba korpusů.// NLN, Praha, s184–195.
-Čermák, F. – Křen, M. (eds) (2004): *Frekvenční slovník češtiny*Praha: NLN. ISBN 80-7106-676-1.+
  
-**TOTALITA:** +**[[manualy:morfio|Morfio]]**
-Čermák, F. – Cvrček, V. – Schmiedtová, V. (eds) (2010): *Slovník komunistické totality*. Praha: NLN. ISBN 978-80-7422-060-9.+
  
-**ORAL2013:** +Václav Cvrček – Pavel Vondřička (2013): Morfio -- aplikace pro analýzu slovotvorných vztahůFF UKPrahaDostupný z WWW<http://morfio.korpus.cz>.
-Válková, L. – Waclawičová, M. – Křen, M. (2012): Balanced data repository of spontaneous spoken CzechIn *Proceedings of the Eight International Conference on Language Resources and Evaluation (LREC'12)*3345–3349Istanbul:ELRA. ISBN 978-2-9517408-7-7. http://www.lrec-conf.org/proceedings/lrec2012/pdf/179_Paper.pdf+
  
-**ORAL2008:** +Václav Cvrček – Pavel Vondřička (2013): Nástroj pro slovotvornou analýzu jazykového korpusu//Gramatika a korpus 2012//. GaudeamusHradec Králové.
-Waclawičová, M. – Křen, M. – Válková, L. (2009): Balanced Corpus of Informal Spoken Czech: Compilation, Design and FindingsIn *Proceedings of the 10th Annual Conference of the International Speech Communication Association INTERSPEECH 2009*, 1819–1822Brighton.+
  
-**ORAL2006:** +**[[manualy:kwords|KWords]]**
-Kopřivová, M. – Waclawičová, M. (2006): Representativeness of Spoken Corpora on the Example of the New Spoken Corpora of the Czech Language. In *Труды международной конференции "Корпусная лингвистика – 2006"*, 174–181. Санкт-Петербург: Издательство СПбГУ. ISBN 5-288-04181-4.+
  
-**BMK:** +Václav Cvrček – Pavel Vondřička (2013): KWords -- aplikace pro extrakci klíčových slov. FF UKPrahaDostupný z WWW<http://kwords.korpus.cz>.
-Hladká, Z. (2005): Zkušenosti s tvorbou korpusů češtiny v ÚČJ FF MU v Brně. In *SPFFBU* A 53115–124BrnoMasarykova univerzita. ISBN 80-210-3705-9, ISSN 0231-7567. http://hdl.handle.net/11222.digilib/101736+
  
-**SCHOLA2010:** +**[[manualy:treq|Treq]]**
-Šebesta, K. (2010): Korpusy češtiny a osvojování jazyka. In *Studie z aplikované lingvistiky*, 2, 11–33. Praha: Filozofická fakulta UK. ISSN 1804-3240. http://korpus.cz/doc/citace/SALi_2010_02_studie_Sebesta.pdf+
  
-**HOTKO:** +Martin Vavřín – Alexandr Rosen (2015): Treq -- databáze překladových ekvivalentůFF UKPrahaDostupný z WWW: <http://treq.korpus.cz>.
-Wölkowa, S. (2013): Hornjoserbski tekstowy korpus w nowej formjeIn: *Serbska šula*66(2), 44–47. http://korpus.cz/doc/citace/Woelkowa_Sesu_2_2013.pdf+
  
-**deWaC, itWaC, ukWaC:** +Michal Škrabal – Martin Vavřín (2017): Databáze překladových ekvivalentů Treq. //Časopis pro moderní filologii// 99 (2), s245–260.
-Baroni, M. – Bernardini, S. – Ferraresi, A. – Zanchetta, E. (2009): The WaCky Wide Web: A Collection of Very Large Linguistically Processed Web-Crawled CorporaIn *Language Resources and Evaluation*, 43(3), 209–226. http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=papers:wacky_2008.pdf+
  
-**frWaC:** +Michal Škrabal – Martin Vavřín (2017): The Translation Equivalents Database (Treq) as a Lexicographer’s Aid. In: I. Kosem et al. (eds): //Electronic lexicography in the 21st centuryProceedings of eLex 2017 conference//. Lexical Computing CZ, sro., Leiden, s. 124–137.
-Ferraresi, A. – Bernardini, S. – Picci, G. – Baroni, M. (2010): Web Corpora for Bilingual Lexicography: A Pilot Study of English/French Collocation Extraction and Translation. In Xiao, R. (ed.), *Using Corpora in Contrastive and Translation Studies*Newcastle: Cambridge Scholars Publishing. http://wacky.sslmit.unibo.it/lib/exe/fetch.php?media=ferraresi_et_al_2010.pdf+