Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
hickok:problemy_tokenizace [2024/10/31 13:53] – [Příklonka -ť] martinstluka | hickok:problemy_tokenizace [2025/03/03 09:29] (aktuální) – [Příklonka -ž] jiripergler |
---|
| | 61 | PART | | | | | 61 | PART | | |
| //byť// | 120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). | | | //byť// | 120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). | |
| | //nebť// | | CCONJ | | |
| //neboť// | 411 | CCONJ | | | | //neboť// | 411 | CCONJ | | |
| //nechť// | 38 | PART | | | | //nechť// | 38 | PART | | |
==== Příklonka -ž ==== | ==== Příklonka -ž ==== |
| |
* Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc> | * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc> <fc #008000>**MS:** Taky souhlasím.</fc> |
| |
**DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést. | **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést. |
^ ^ výskyty ^ UPOS ^ ^ | ^ ^ výskyty ^ UPOS ^ ^ |
| //aniž// | 120 | SCONJ | | | | //aniž// | 120 | SCONJ | | |
| | //avšakž// | | CCONJ | | |
| //až// | 1384 | PART | | | | //až// | 1384 | PART | | |
| | 639 | CCONJ | | | | | 639 | CCONJ | | |
| | 3 | INTJ | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | | | | 3 | INTJ | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | |
| | 1 | PART | //Což se XXX neděje?// | | | | 1 | PART | //Což se XXX neděje?// | |
| | //dokudž// | | ADV/SCONJ | (PronType=Rel) | |
| //jakovýž// | 0 | DET | PronType=Rel | | | //jakovýž// | 0 | DET | PronType=Rel | |
| //jakož// | 23 | SCONJ | | | | //jakož// | 23 | SCONJ | | |
| //jehož// | 658 | DET | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | | | //jehož// | 658 | DET | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | |
| //jenž// | 2201 | PRON | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | | | //jenž// | 2201 | PRON | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | |
| | //kakž/kakož// | | ADV | PronType=Rel/Int | |
| //kdež// | 0 | ADV | PronType=Rel | | | //kdež// | 0 | ADV | PronType=Rel | |
| //kdož// | 3 | PRON | PronType=Rel. Ve staré češtině také //ktož, kdožež//. | | | //kdož// | 3 | PRON | PronType=Rel. Ve staré češtině také //ktož, kdožež//. | |
| //když// | 2100 | SCONJ | | | | //když// | 2100 | SCONJ | | |
| | //kterakž// | | ADV | PronType=Rel/Int | |
| //kterýž// | 0 | DET | PronType=Rel | | | //kterýž// | 0 | DET | PronType=Rel | |
| //ledaktož// | 0 | PRON | PronType=Ind | | | //ledaktož// | 0 | PRON | PronType=Ind | |
| //než// | 2143 | SCONJ | | | | //než// | 2143 | SCONJ | | |
| | 5 | PART | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. | | | | 5 | PART | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. | |
| | //nikakž/nikakéž// | | ADV | PronType=Neg | |
| //nikdež// | 0 | ADV | PronType=Neg | | | //nikdež// | 0 | ADV | PronType=Neg | |
| //nikdož// | 0 | PRON | PronType=Neg. Ve staré češtině také //niktož//. | | | //nikdož// | 0 | PRON | PronType=Neg. Ve staré češtině také //niktož//. | |
| | //pročež// | | ADV/SCONJ (?) | PronType=Int/Rel| |
| //protož// | | CCONJ/ADV| | | | //protož// | | CCONJ/ADV| | |
| //rovněž// | 457 | ADV | | | | //rovněž// | 457 | ADV | | |
| | //takéž// | | ADV | | |
| //takovýtéž// | 0 | DET | PronType=Dem | | | //takovýtéž// | 0 | DET | PronType=Dem | |
| //takž// | 1 | ADV | | | | //takž// | 1 | ADV | | |
| | //takož// | | ADV | | |
| | //takýž// | | DET | PronType=Dem | |
| //tentýž// | 92 | DET | PronType=Dem | | | //tentýž// | 92 | DET | PronType=Dem | |
| | //tenž// | | DET | PronType=Dem | |
| | //tož// | | ADV | PronType=Dem | |
| //týž// | 141 | DET | PronType=Dem | | | //týž// | 141 | DET | PronType=Dem | |
| //všelicož// | 0 | PRON | | | | //všelicož// | 0 | PRON | | |
| //zaňž// | za | za | Prep | nějž | jenž | Rel | Acc | Pre | | Sing | Masc,Neut | | | //zaňž// | za | za | Prep | nějž | jenž | Rel | Acc | Pre | | Sing | Masc,Neut | |
| |
| ==== Spojka i ==== |
| |
| Jednou se vyskytlo //myslilaj déle// ve významu //myslila i déle//. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ. |