AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:problemy_tokenizace [2024/10/31 13:53] – [Příklonka -ť] martinstlukahickok:problemy_tokenizace [2025/03/03 09:29] (aktuální) – [Příklonka -ž] jiripergler
Řádek 25: Řádek 25:
 |                61 | PART  |          | |                61 | PART  |          |
 | //byť//       120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). | | //byť//       120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). |
 +| //nebť// |      | CCONJ |          |
 | //neboť// |     411 | CCONJ |          | | //neboť// |     411 | CCONJ |          |
 | //nechť// |      38 | PART  |          | | //nechť// |      38 | PART  |          |
Řádek 33: Řádek 34:
 ==== Příklonka -ž ==== ==== Příklonka -ž ====
  
-  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc>+  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc> <fc #008000>**MS:** Taky souhlasím.</fc>
  
 **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést. **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést.
Řádek 45: Řádek 46:
 ^              ^ výskyty ^ UPOS  ^          ^ ^              ^ výskyty ^ UPOS  ^          ^
 | //aniž//         120 | SCONJ |          | | //aniž//         120 | SCONJ |          |
 +| //avšakž//         | CCONJ |          |
 | //až//          1384 | PART  |          | | //až//          1384 | PART  |          |
 |              |     639 | CCONJ |          | |              |     639 | CCONJ |          |
Řádek 52: Řádek 54:
 |              |       3 | INTJ  | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | |              |       3 | INTJ  | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. |
 |              |       1 | PART  | //Což se XXX neděje?// | |              |       1 | PART  | //Což se XXX neděje?// |
 +| //dokudž//  |       | ADV/SCONJ | (PronType=Rel) |
 | //jakovýž//  |       0 | DET   | PronType=Rel | | //jakovýž//  |       0 | DET   | PronType=Rel |
 | //jakož//    |      23 | SCONJ |          | | //jakož//    |      23 | SCONJ |          |
Řádek 58: Řádek 61:
 | //jehož//    |     658 | DET   | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | | //jehož//    |     658 | DET   | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// |
 | //jenž//        2201 | PRON  | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | | //jenž//        2201 | PRON  | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// |
 +| //kakž/kakož//            | ADV   | PronType=Rel/Int |
 | //kdež//           0 | ADV   | PronType=Rel | | //kdež//           0 | ADV   | PronType=Rel |
 | //kdož//           3 | PRON  | PronType=Rel. Ve staré češtině také //ktož, kdožež//. | | //kdož//           3 | PRON  | PronType=Rel. Ve staré češtině také //ktož, kdožež//. |
 | //když//        2100 | SCONJ |          | | //když//        2100 | SCONJ |          |
 +| //kterakž//  |        | ADV   | PronType=Rel/Int |
 | //kterýž//         0 | DET   | PronType=Rel | | //kterýž//         0 | DET   | PronType=Rel |
 | //ledaktož// |       0 | PRON  | PronType=Ind | | //ledaktož// |       0 | PRON  | PronType=Ind |
Řádek 68: Řádek 73:
 | //než//      |    2143 | SCONJ |          | | //než//      |    2143 | SCONJ |          |
 |              |       5 | PART  | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. | |              |       5 | PART  | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. |
 +| //nikakž/nikakéž//         | ADV   | PronType=Neg |
 | //nikdež//         0 | ADV   | PronType=Neg | | //nikdež//         0 | ADV   | PronType=Neg |
 | //nikdož//         0 | PRON  | PronType=Neg. Ve staré češtině také //niktož//. | | //nikdož//         0 | PRON  | PronType=Neg. Ve staré češtině také //niktož//. |
 +| //pročež//        | ADV/SCONJ (?) | PronType=Int/Rel|
 | //protož//        | CCONJ/ADV| | | //protož//        | CCONJ/ADV| |
 | //rovněž//       457 | ADV            | | //rovněž//       457 | ADV            |
 +| //takéž//            | ADV            |
 | //takovýtéž// |      0 | DET   | PronType=Dem | | //takovýtéž// |      0 | DET   | PronType=Dem |
 | //takž//           1 | ADV            | | //takž//           1 | ADV            |
 +| //takož//            | ADV            |
 +| //takýž//            | DET   | PronType=Dem    |
 | //tentýž//        92 | DET   | PronType=Dem | | //tentýž//        92 | DET   | PronType=Dem |
 +| //tenž//        | DET   | PronType=Dem |
 +| //tož//        | ADV   | PronType=Dem |
 | //týž//      |     141 | DET   | PronType=Dem | | //týž//      |     141 | DET   | PronType=Dem |
 | //všelicož// |       0 | PRON  |          | | //všelicož// |       0 | PRON  |          |
Řádek 106: Řádek 118:
 | //zaňž//     | za     | za    | Prep    | nějž | jenž  | Rel      | Acc  | Pre      |        | Sing   | Masc,Neut | | //zaňž//     | za     | za    | Prep    | nějž | jenž  | Rel      | Acc  | Pre      |        | Sing   | Masc,Neut |
  
 +==== Spojka i ====
 +
 +Jednou se vyskytlo //myslilaj déle// ve významu //myslila i déle//. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.