AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
kurz:reseni_ukolu [2021/04/13 09:03] – [Lekce 6] Michal Škrabalkurz:reseni_ukolu [2021/04/26 14:49] (aktuální) – [Lekce 7] Michal Škrabal
Řádek 90: Řádek 90:
 **1.** Začněme pohledem do aktuálního synchronního korpusu psané češtiny SYN2020. Hledáme v něm lemma //tratoliště//, které se tu vyskytuje 57krát, odfiltrujeme však všechna užití //tratoliště krve//. V menu zvolíme [[manualy:kontext:filtr|Filtr → Negativní]], rozsah hledání upravíme na **od 1 do 1** (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme **Lemma** a do řádku vepíšeme dotaz //krev//. Zredukovaná konkordance odhalí ještě jeden případ (na posledním řádku), kdy je substantivum //krev// rozvito adjektivem //teplé//, bude tedy lepší rozšířit rozsah hledání na **od 1 do 2**. **1.** Začněme pohledem do aktuálního synchronního korpusu psané češtiny SYN2020. Hledáme v něm lemma //tratoliště//, které se tu vyskytuje 57krát, odfiltrujeme však všechna užití //tratoliště krve//. V menu zvolíme [[manualy:kontext:filtr|Filtr → Negativní]], rozsah hledání upravíme na **od 1 do 1** (jde nám o bezprostřední pravostranný kolokát), jako typ dotazu zvolíme **Lemma** a do řádku vepíšeme dotaz //krev//. Zredukovaná konkordance odhalí ještě jeden případ (na posledním řádku), kdy je substantivum //krev// rozvito adjektivem //teplé//, bude tedy lepší rozšířit rozsah hledání na **od 1 do 2**.
  
-Po odfiltrování by nám mělo zbýt [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~OsYEGSCYSEes|těchto 20 výskytů]]. Patrně nás nepřekvapí, že až na pár výjimek pocházejí všechny z beletrie: vedle konkrét //tratoliště peří, sazí, tělíček, zrcadel, písku// a expresivnějšího //tratoliště krvavých zvratků// jsou zastoupena i abstrakta //tratoliště minut, noci, agresivních slov a vět//; poměrně často stojí výraz samostatně, případně je rozvit zleva adjektivem: //rudé, krvavé, divukrásné//+Po odfiltrování by nám mělo zbýt [[https://www.korpus.cz/kontext/view?maincorp=syn2020&viewmode=kwic&pagesize=100&attrs=word%2Clemma%2Ctag&attr_vmode=mouseover&base_viewattr=word&refs=%3Ddoc.title&q=~OsYEGSCYSEes|těchto 20 výskytů]]. Patrně nás nepřekvapí, že až na pár výjimek pocházejí všechny z beletrie: vedle konkrét //tratoliště peří, sazí, tělíček, zrcadel, písku// a expresivnějšího //tratoliště krvavých zvratků// jsou zastoupena i abstrakta//tratoliště minut, noci, agresivních slov a vět//; poměrně často stojí výraz samostatně, případně je rozvit zleva adjektivem: //rudé, krvavé, divukrásné//.
  
-V SYN2015 by nám po odfiltrování mělo zbýt [[https://kontext.korpus.cz/view?q=~CwuAPcNv&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 19 výskytů]]; s výjimkou jediného případu pocházejí všechny rovněž z beletrie. Vedle metafor krotčejších (//tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla...//) najdeme sem tam nějakou peprnější, např. Hrabalovo //tratoliště básnických chcanek//.+V SYN2015 by nám po odfiltrování mělo zbýt [[https://kontext.korpus.cz/view?q=~CwuAPcNv&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 19 výskytů]]; s výjimkou jediného případu jsou všechny rovněž z beletrie. Vedle metafor krotčejších (//tratoliště voleje, rozbředlého sněhu, moče, vzpomínek, minut, vlastního světla...//) najdeme sem tam nějakou peprnější, např. Hrabalovo //tratoliště básnických chcanek//.
  
-Konečně v SYN2010 je situace obdobná: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě (hledáme jako frázi) celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]].+Maličko jiná je situace v SYN2010: lemma //tratoliště// se tu objevuje 53krát, nejtypičtější je pro beletrii (32krát), hojně je využívá ale i publicistika (17krát). Ve valné většině případů se objevuje ve spojení //v tratolišti krve// -- v této podobě celkem 35krát. Po aplikaci stejného negativního filtru nám z původních 53 výskytů zbude [[https://kontext.korpus.cz/view?q=~Kyq0AA2S&attr_allpos=kw&attrs=word&corpname=syn2010&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&structs=s&viewmode=kwic&|těchto 8 případů]].
  
-V korpusu [[cnk:oral|ORAL v1]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje. Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami?+V korpusu [[cnk:oral|ORAL v1]] se toto slovo -- s jedinou, o to však půvabnější výjimkou, za niž by se nemusel stydět ani Hrabal (// ...eště si ho vodšoupne jako dál a žere a tam prostě pod nim **tratoliště drobků**, a já na něj koukám a řikám Láďo proč si myslíš že sem ti tam dala ten talíř?//) -- nevyskytuje (v korpusu Ortofon pak nenajdeme žádný výskyt). Ovšem ruku na srdce, kdy naposledy jste o //tratolišti// hovořili vy sami?
  
 **2.** Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]]. **2.** Porovnáváme kolokační profily adverbií //teď// a //nyní// a zamyšlíme se nad mírou jejich synonymnosti. Prvním rozdílem je jejich odlišná frekvence v korpusu SYN2015: 85 940 výskytů //teď// oproti 34 570 výskytům //nyní// -- první slovo je tedy téměř dvaapůlkrát častější než druhé. Ještě výmluvněji by tento rozdíl byl znát na mluvených korpusech, např. v ORAL2013 je to 8066 případů proti 4 (sic! a to jsme nezapočetli všechny možné varianty typu //teďkon%%(c)%%//, //teďka// apod., které si lze dohledat [[hledani_v_mluvenych_korpusech#jak_spravne_zadat_hledane_„slovo|zde]]). Mimochodem, obdobné výsledky získáte i pomocí [[http://syd.korpus.cz/x0iwEkwx.syn|nástroje SyD]].
Řádek 124: Řádek 124:
 Publicistiku z roku 2011 najdeme v korpusu [[cnk:syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //dvojče//, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <doc txtype_group=%%"NMG.*" & pubyear="2011"%% />''. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 5 nerelevantních případů, zůstane tak pouze [[https://kontext.korpus.cz/view?q=~xsN03OB8&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů. Publicistiku z roku 2011 najdeme v korpusu [[cnk:syn2015|SYN2015]]. První část dotazu zůstane stejná (tzn. hledáme lemma //dvojče//, které se v textu vyskytuje s velkým písmenem), oproti starším korpusům se však změnilo označení metainformací, je tedy zapotřebí zapsat dotaz ''[lemma=%%"(?i)dvojče" & word="D.*"%%] within <doc txtype_group=%%"NMG.*" & pubyear="2011"%% />''. Výsledků je na první pohled výrazně méně, celkem 14, z nichž je navíc zapotřebí odstranit 5 nerelevantních případů, zůstane tak pouze [[https://kontext.korpus.cz/view?q=~xsN03OB8&attr_allpos=kw&attrs=word&corpname=syn2015&ctxattrs=word&pagesize=40&refs=%3Ddoc.title&structs=s&viewmode=kwic&|těchto 9 výskytů]]. Trvalý subkorpus publicistických textů z r. 2011 by měl obsahovat přes 8 milionů wordů.
  
-Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu jednoduchým dotazem (s aktivovanými regulárními výrazy a výchozím atributem **lemma**) ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://kontext.korpus.cz/freqs?q=~GDULH4Ir&attr_allpos=kw&attrs=word&corpname=syn2005&ctxattrs=word&pagesize=40&refs=%3Dopus.nazev&usesubcorp=pok01&viewmode=kwic&&fcrit=lemma/e+0~0%3E0&ml=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). +Aktualizace lexému //tunel// hledáme pomocí dotazu ''[lemma=%%".*tunel.*"%%] within <opus txtype=%%"PUB" & rokvyd="2001"%% />'', případně v již vytvořeném subkorpusu jednoduchým dotazem (s aktivovanými regulárními výrazy a výchozím atributem **lemma**) ''.*tunel.*''. V obou případech dostaneme 339 výskytů. Zatímco samotné základové slovo //tunel// si ve většině případů ponechává svůj původní význam, [[https://www.korpus.cz/kontext/freqs?maincorp=syn2005&viewmode=kwic&pagesize=100&attrs=word&attr_vmode=visible-kwic&base_viewattr=word&refs=%3Dopus.nazev&q=~xKgi4qKikoqI&fcrit=lemma%2Fe%200~0%3E0&flimit=1&fpage=1&ftt_include_empty=0|jeho odvozeniny]] už mají většinou význam přenesený (až na výjimky typu //podtunelování// -- odborný termín, //Eurotunel// -- jméno firmy apod.). 
  
 V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají): V subkorpusu publicistiky z r. 2011 najdeme 292 výskytů, frekvenční distribuci lemmat můžeme vzájemně porovnat a shrnout např. do následující tabulky (červeně zvýrazněny jsou případy, jež nás zajímají):