AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:ksp [2022/08/14 09:09] – [Korpus současné poezie] michalskrabalcnk:ksp [2023/01/04 14:01] (aktuální) – [Jak citovat KSP] michalskrabal
Řádek 1: Řádek 1:
 ====== Korpus současné poezie ======  ====== Korpus současné poezie ====== 
-FIXME 
  
-Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience vymezené lety 1990 a 2020, tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou,  koncentrovanou především na tzv. literární servery.  Toto metodologické rozhodnutí není dáno snahou o jakousi demokratizaci poezie; věříme, že bez webových textů by obraz současné české poezie nebyl úplný, postihoval by pouze jeden její – co do proporce dosti malý (viz níže tabulka 2) – segment . To by neodpovídalo realitě (tudíž by šlo i o vědeckou nepoctivost), kdy literární servery sehrály v českém literárním kontextu významnou roli (Piorecký 2016), mj. jako platforma pro publikační začátky některých dnes již etablovaných básníků. Tato základní dichotomie nám mimochodem otevírá možnost oba módy, v KSP rozlišované pomocí atributu doc.medium (print vs. web), vzájemně konfrontovat a srovnávat.+KSP vzniká od roku 2015 ve spolupráci [[https://ucl.cas.cz/|Ústavu pro českou literaturu AV ČR, v. v. i.]] a ÚČNK. Jedná se, jak už název napovídá, o korpus současných básnických textů české provenience (vymezené lety 1990 a 2020), tj. reprezentativní vzorek tuzemského básnictví za poslední tři dekády. Co je podstatné, tento vzorek zahrnuje nejen texty oficiálně knižně vydané, a tedy i prošlé klasickým edičním procesem, ale i tvorbu amatérskou, koncentrovanou především na tzv. literární servery. Toto metodologické rozhodnutí není dáno snahou o jakousi demokratizaci poezie; věříme, že bez webových textů by obraz současné české poezie nebyl úplný, postihoval by pouze jeden její -- co do proporce dosti malý -- segment. To by neodpovídalo realitě, kdy literární servery sehrály v českém literárním kontextu významnou roli((PIORECKÝ, Karel. Česká literatura a nová média. Praha: Academia, 2016.)), mj. jako platforma pro publikační začátky některých dnes již etablovaných básníků. Tato základní dichotomie nám mimochodem otevírá možnost oba módy, v KSP rozlišované pomocí atributu ''doc.medium'' (print vs. web), vzájemně konfrontovat a srovnávat.
  
 <WRAP right 35%> <WRAP right 35%>
Řádek 13: Řádek 12:
 </WRAP> </WRAP>
  
-===== Složení korpusu FicTree =====+===== Složení korpusu =====
  
-Korpus FicTree se skládá z osmi prozaických děl z žánru beletrie vydaných České republice mezi lety 1991 a 2007. +KSP obsahuje tuto chvíli přibližně 35,5 milionů slovSubkorpus tišné poezie (printse na tomto počtu podílí zhruba 1,7 miliony slov pocházejících z 21 478 básní otištěných ve 496 básnických sbírkách od 209 autorů. Webová složka korpusu (web) obsahuje více než 442 tisíc básní ze šestice literárních serverů (liter.cz, pismak.cz, totem.cz, libres.cz, psanci.cz, xxvi.cz), čítajících přes 34 milionů slov. Do subkorpusu print byly texty vybírány s ohledem na generační vrstevnatost současné básnické scény; aktuálně jsou tu reprezentativně zastoupeni autoři generací X a Y (tj. narození po roce 1965); v rozšiřování korpusu pokračujeme směrem ke starším generačním vrstvám
-Šest z chto literárních děl se (dle [[seznamy:genre|klasifikace textů podle žánrů]] používané v ČNK do r. 2015považuje za "čistou" beletriijedno dílo se řadí k memoárům, jedno dílo spadá do žánru "literatura pro děti a mládež". +
-Pět textů (80% tokenůjsou vodní české texty, dva texty jsou překlady z němčiny, jeden je překlad ze slovenštiny.+
  
-===== Syntaktická anotace korpusu =====+Detaily týkající se budování KSP najdete v níže uvedených studiích.
  
-Korpus FicTree byl označkován podle analytické roviny Pražského závislostního korpusu - PDT ([[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT 2.0]] s revizemi [[http://ufal.mff.cuni.cz/pdt2.5/cs/documentation.html|2.5]] a [[http://ufal.mff.cuni.cz/pdt3.0|3.0]]). Korpus byl automaticky syntakticky označkován pomocí dvou různých parserů ([[https://sourceforge.net/projects/mstparser/|MST Parser]] a [[http://www.maltparser.org/|MaltParser]]), výsledky syntaktické anotace byly "manuálně" opraveny anotátory, rozdíly mezi dvěma verzemi opravené anotace pak posuzoval další anotátor. Podobně se postupovalo u anotace morfologické a u lemmatizace.+===== Anotace korpusu =====
  
-===== Zpřístupnění korpusu =====+[[http://versologie.cz/v2/web_content/tagset.php?lang=cz|Tagset]] jsme s minimálními úpravami přejali ze staršího projektu [[https://versologie.cz/v2/web_content/corpus.php|Korpus českého verše]]; mimoto byl KSP otagován [[cnk:syn2020:automaticka_anotace|standardními anotačními nástroji]] ČNK.
  
-Korpus FicTree je zpřístupněn několika způsoby: +===== Využití korpusu =====
-  - [[cnk:fictree#korpus_cnk_v_rozhrani_kontext|Korpus ČNK v rozhraní KonText]]: FicTree je zpřístupněn jako samostatný [[cnk:uvod|korpus ČNK]] v rozhraní [[manualy:kontext:index|KonText]]. +
-  - [[cnk:fictree#data_anotovana_podle_pdt|Data anotovaná podle PDT]]: data korpusu FicTree anotovaná podle [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]] je možné stáhnout také z úložiště [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] (pro nekomerční účely). +
-  - [[cnk:fictree#data_anotovana_ve_standardu_universal_dependencies|Data anotovaná ve standardu Universal Dependencies]]: data korpusu FicTree anotovaná ve standardu [[http://universaldependencies.org/|Universal Dependencies]], kam byla automaticky konvertována a přes webové stránky projektu také [[http://universaldependencies.org/treebanks/cs_fictree/index.html|zpřístupněna]] (pro nekomerční účely).+
  
-===== 1Korpus ČNK v rozhraní KonText =====+Data z KSP lze využívat rozličným způsobemKromě standardní práce s konkordancemi v rozhraní [[https://www.korpus.cz/kontext/query?corpname=KSP|KonText]] je možno těžit z dalších nástrojů:
  
-Korpus FicTree je dostupný stejně jako jiné korpusy ČNK es vyhledávací rozhraní [[manualy:kontext:index|KonText]].+  * [[https://trost.korpus.cz/slovo-v-poezii/|Slovo v poezii]]: nástroj vhodný pro první seznámení s korpusem, po zadání hledaného slova nabízí náhledy do dalších aplikací a řadu statistických údajů 
 +  * [[https://versologie.cz/ksp/tool_hex/index.php?lang=cz|Hex]]: aplikace umožňující vyhledávat klíčová slova, tj. taková, jejichž frekvence je v dané básni výrazně vyšší než v celém korpusu (uplatní se tedy edevším při tematologických analýzách) 
 +  * [[https://versologie.cz/ksp/tool_gunstick/index.php?lang=cz|Gunstick]]: nástroj sloužící k vyhledávání rýmových párů a poskytující statistiky o jejich frekvenci
  
-Morfologická anotace a lemmatizace korpusu je určitým kompromisem mezi anotací používanou v [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|Pražském závislostním korpusu]] a anotací v synchronních korpusech ČNK: v morfologických značkách nejsou proměnnéale morfologické značky nemají určen slovesný vid (tagy mají jen patnáct pozic). Kromě atributů [[seznamy:tagy|tag]] a [[pojmy:lemma]] zpřístupňuje korpus FicTree samostatně informaci o slovním druhu slova a jeho pádu (u jmen) díky [[pojmy:atributy_pozicni|pozičním atributům]] ''pos'' a ''case''+Všechny uvedené nástroje umožňují práci s celým korpusem, či separátně jeho částmi (web – poezie z internetových literárních fór; print – poezie publikovaná knižně). Postupně budou ibývat další nástroje pro práci s KSP
- +
-[[pojmy:syntakticka_analyza|Syntaktická anotace]] korpusu FicTree je zpřístupněna prostřednictvím stejných pozičních atributů jako v korpusu SYN2015 (viz [[seznamy:syntakticke_znacky|shrnutí]]): +
-  * [[seznamy:afun|afun]] – syntaktická funkce podle analytické roviny PDT +
-  * [[seznamy:parent|parent]] – relativní pozice tokenu, na němž je daný token (přímo) závislý +
-  * [[seznamy:eparent|eparent]] – relativní pozice nejbližšího plnovýznamového tokenu, na mž je daný token (přímo či nepřímozávislý +
-  * [[seznamy:prep|prep]] – u jmen řízených předložkou uvádí lemma předložky +
-  * [[seznamy:p_tag|p_lemma, p_tag, ep_lemma, ep_tag]] – tag a lemma řídícího tokenu +
-  * [[seznamy:p_tag|p_pos, p_case, ep_pos, ep_case]] – slovní druh a pád řídícího tokenu +
-  * [[seznamy:afun|p_afun, ep_afun]] – syntaktická funkce řídícího tokenu +
- +
-===== 2Data anotovaná podle PDT ===== +
- +
-Data korpusu FicTree, manuálně anotovaná ve formalismu Pražského závislostního korpusu, jsou dostupná v repozitáři [[https://lindat.mff.cuni.cz/repository/xmlui/handle/11234/1-2517|LINDAT/CLARIN]] v tzv. vertikálním formátu (tabulátorem oddělené hodnoty; tsv), ičemž hranice vět jsou označeny prázdným řádkem. Každé slovo je uvedeno na samostatném řádku, následuje pět atributů oddělených tabulátory: ''lemma'', ''tag'', ID (číselný index pořadí slova ve větě), index řídícího slova a syntaktická funkce ([[seznamy:afun|afun]] podle formalismu [[http://ufal.mff.cuni.cz/pdt2.0/doc/manuals/cz/a-layer/html/index.html|PDT]]). Texty jsou rozděleny na segmenty o maximálně sto tokenech (přičemž jsou respektovány hranice věty). Každý takový segment tvoří samostatný soubor, název souboru odkazuje na konkrétní text, navrhované rozdělení na trénovací, validační (development) a testovací data (80% - 10% - 10%) tvoří první část názvu souboru. +
- +
-===== 3. Data anotovaná ve standardu Universal Dependencies ===== +
- +
-Morfologická a syntaktická anotace korpusu FicTree byla provedena automatickou konverzí z původní anotace podle analytické roviny PDT. Automatickou konverzi implementoval Dan Zeman v nástroji pro práci se syntakticky anotovanými daty [[https://github.com/ufal/treex|Treex]]. Data jsou zveřejněna přes webové rozhraní [[http://universaldependencies.org/treebanks/cs_fictree/index.html|Universal Dependencies]]. Data jsou ve formátu [[http://universaldependencies.org/format.html|CONLL-U]], původní texty jsou zamíchané po segmentech o nejvýše 100 tokenech a rozdělené do tří souborů, jež zahrnují data trénovací, validační a testovací (stejně rozdělené jako data FicTree ve formátu analytické roviny PDT). Korpus FicTree ve formátu UD lze také prohlížet přes webové rozhraní [[https://lindat.mff.cuni.cz/services/pmltq/|PML-TQ]].+
  
 ===== Poděkování ===== ===== Poděkování =====
Řádek 59: Řádek 38:
 KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme!  KSP vzniká s podporou z Akademické prémie udělené Akademií věd ČR prof. Pavlu Janouškovi. Děkujeme! 
  
-===== Jak citovat korpus KSP =====+===== Jak citovat KSP =====
 <WRAP round tip 70%> <WRAP round tip 70%>
 Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz Škrabal, M. – Piorecký, K. – Procházka, P. – Jeziorský, T.: Korpus současné poezie, verze 1.0 z 29. 6. 2022. Ústav Českého národního korpusu FF UK – Ústav pro českou literaturu AV ČR, v. v. i., Praha 2022. Dostupný z WWW http://www.korpus.cz
Řádek 65: Řádek 44:
 Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583. Piorecký, K. – Škrabal, M.: Vícejazyčnost v současné české poezii. Několik úvodních postřehů z korpusové perspektivy. Slovenská literatura 6/2020, s. 568–583.
  
-Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities XX/2022, FIXME s. 1–14. https://doi.org/10.1093/llc/fqac013 +Škrabal, M. – Piorecký, K.: The Corpus of Contemporary Czech Poetry: A database for research on contemporary poetic language across media. Digital Scholarship in the Humanities 4/2022, s. 1240--1253. https://doi.org/10.1093/llc/fqac013 
 </WRAP> </WRAP>