AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
Následující verzeObě strany příští revize
seznamy:tagy [2022/01/03 16:53] jankrivanseznamy:tagy [2022/01/05 17:50] – [Nástroj pro sestavení morfologické značky] vaclavcvrcek
Řádek 1: Řádek 1:
 ====== Morfologické značky (tagy) a jejich hodnoty ====== ====== Morfologické značky (tagy) a jejich hodnoty ======
  
-Morfologické [[pojmy:tag|značky (tagy)]] jsou součástí výsledku (výstupem) [[pojmy:morfologicka_analyza|morfologické analýzy]], která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Druhou částí výsledku je tzv. [[pojmy:lemma|lemma]], které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Počínaje korpusem [[cnk:syn2020|SYN2020]] se anotuje i zvláštní značka gramatických kategorií slovesa [[pojmy:verbtag|verbtag]] a pro varianty slov je zavedeno tzv. [[pojmy:lemma#sublemma|sublemma]].+Morfologické [[pojmy:tag|značky (tagy)]] jsou součástí výsledku (výstupem) [[pojmy:morfologicka_analyza|morfologické analýzy]], která pracuje s izolovanými slovními tvary, tedy bez ohledu na jejich kontext. Dalším výstupem analýzy je tzv. [[pojmy:lemma|lemma]], které identifikuje příslušnou lexikální jednotku ve smyslu slovníkového hesla. Počínaje korpusem [[cnk:syn2020|SYN2020]] se anotuje i zvláštní značka gramatických kategorií slovesa [[pojmy:verbtag|verbtag]] a pro varianty slov je zavedeno tzv. [[pojmy:lemma#sublemma|sublemma]].
  
-Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi dochází k [[pojmy:desambiguace|desambiguaci]] (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.+Morfologická analýza je obecně nejednoznačná; slovní tvary, brány izolovaně a bez ohledu na kontext, pochopitelně nemohou být v mnoha případech jednoznačně určeny, a to jak z hlediska lemmatu, tak z hlediska morfologické značky. V druhé fázi proto dochází k [[pojmy:desambiguace|desambiguaci]] (zjednoznačnění), která z plejády možných interpretací vybírá v ideálním případě tu nejvhodnější.
  
 Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk:syn|psané češtiny]]), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie). Morfologické značky slouží k snadnějšímu hledání v korpusech (povětšinou pouze [[cnk:syn|psané češtiny]]), jejich účelem tedy není být základem pro analýzu konkrétních výskytů. Automatická analýza není přirozeně bezchybná, podíl špatně určených značek se odhaduje na 4 % (úroveň kolísá v závislosti na typu morfologické kategorie).
 +
 +Morfologická analýza je předmětem neustálého vyvoje a zlepšování. V různých korpusech proto můžete narazit na různé verze analýzy, což se může projevit v odlišnostech jak u anotačního schématu, tak u samotných výsledků a jejich chybovosti.
 ===== Struktura značky ===== ===== Struktura značky =====
  
Řádek 13: Řádek 15:
 Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka). Značka je konstruována tak, aby každá pozice odpovídala jedné morfologické kategorii podle víceméně tradičního lingvistického pojetí. Každé hodnotě v dané kategorii odpovídá jeden znak, převážně písmeno velké abecedy (např. 'P' pro plurál, neboli množné číslo), výjimečně i jiný znak (např. 'f' pro infinitiv, nebo ',' pro podřadicí spojky). Hodnota, která nedává smysl (např. pád u sloves), je reprezentována znakem '-' (pomlčka).
  
-V případě, že značka je tvořena symbolem, který v rámci regulárních výrazů má speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]'' (viz [[pojmy:regularni_vyrazy|regulární výrazy]]).+V případě, že značka je tvořena symbolem, který má v rámci [[pojmy:regularni_vyrazy|regulárních výrazů]] speciální význam, je třeba naznačit zpětným lomítkem, že máme na mysli doslovný význam znaku. Např. pomocí znaku hvězdičky (*) jsou na druhé pozici tagovány výrazy jako plus, krát apod. ve funkci spojek (J). Chceme-li vyhledat slova s tímto tagem, musíme před hvězdičku přidat zpětné lomítko, abychom vyznačili, že nejde o její speciální význam: ''[tag=%%"J\*.*"%%]''.
  
 ===== Změny v morfologickém značkování psaných korpusů ===== ===== Změny v morfologickém značkování psaných korpusů =====
  
-Se zveřejněním korpusu [[cnk:syn2020|SYN2020]] se morfologická značka částečně změnila(Aktuální značku již má také nová verze korpusu [[cnk:syn:verze9|SYN (verze 9)]].V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. +Se zveřejněním korpusu [[cnk:syn2020|SYN2020]], resp. [[cnk:syn:verze9|SYN (verze 9)]], se morfologická značka částečně změnila. V tomto oddíle podáváme přehled všech změn, k nimž dosud ve značkování došlo. 
  
 === Původní morfologická značka (vývoj značení) === === Původní morfologická značka (vývoj značení) ===
Řádek 23: Řádek 25:
 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici. 1. V prvních zveřejněných korpusech [[cnk:syn2000|SYN2000]] a [[cnk:orwell|ORWELL]] měla značka 15 pozic; chybělo v ní značení vidu na 16. pozici.
  
-2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. (I všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.)+2. S uveřejněním korpusu [[cnk:syn2005|SYN2005]] byla přidána 16. pozice, vyjadřující slovesný vid. Všechny následující značkované korpusy uveřejňované v letech 2005--2020 používaly morfologickou značku, kterou tvoří 16 pozic.
  
 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum). 3. S publikací korpusu [[cnk:syn2006pub|SYN2009PUB]] bylo dále provedeno zjednodušení systému značek. Změny se týkaly pozic č. 3--9, na kterých byla vypuštěna písmena, která souhrnně označovala více hodnot (např. "Y" pro maskulinum animatum i inanimatum).
Řádek 39: Řádek 41:
 ===== Nástroj pro sestavení morfologické značky ===== ===== Nástroj pro sestavení morfologické značky =====
  
-Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:index|KonText]].+Pro sestavení morfologické značky můžete kromě následujícího seznamu použít i jednoduchý program pro vytváření tagů, který je integrován do rozhraní [[manualy:kontext:novy_dotaz|KonText]].
  
 ===== Popis jednotlivých pozic aktuální morfologické značky ===== ===== Popis jednotlivých pozic aktuální morfologické značky =====