Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- hickok:problemy_tokenizace [2024/10/31 13:53] – [Příklonka -ť] martinstluka
+++ hickok:problemy_tokenizace [2025/03/03 09:29] (aktuální) – [Příklonka -ž] jiripergler
@@ Řádek 25: / Řádek 25: @@
 |           |      61 | PART  |          |
 | //byť//   |     120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). |
+| //nebť// |      | CCONJ |          |
 | //neboť// |     411 | CCONJ |          |
 | //nechť// |      38 | PART  |          |
@@ Řádek 33: / Řádek 34: @@
 ==== Příklonka -ž ====
-  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc>
+  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc> <fc #008000>**MS:** Taky souhlasím.</fc>
 **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést.
@@ Řádek 45: / Řádek 46: @@
 ^              ^ výskyty ^ UPOS  ^          ^
 | //aniž//     |     120 | SCONJ |          |
+| //avšakž//     |     | CCONJ |          |
 | //až//       |    1384 | PART  |          |
 |              |     639 | CCONJ |          |
@@ Řádek 52: / Řádek 54: @@
 |              |       3 | INTJ  | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. |
 |              |       1 | PART  | //Což se XXX neděje?// |
+| //dokudž//  |       | ADV/SCONJ | (PronType=Rel) |
 | //jakovýž//  |       0 | DET   | PronType=Rel |
 | //jakož//    |      23 | SCONJ |          |
@@ Řádek 58: / Řádek 61: @@
 | //jehož//    |     658 | DET   | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// |
 | //jenž//     |    2201 | PRON  | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// |
+| //kakž/kakož//     |        | ADV   | PronType=Rel/Int |
 | //kdež//     |       0 | ADV   | PronType=Rel |
 | //kdož//     |       3 | PRON  | PronType=Rel. Ve staré češtině také //ktož, kdožež//. |
 | //když//     |    2100 | SCONJ |          |
+| //kterakž//  |        | ADV   | PronType=Rel/Int |
 | //kterýž//   |       0 | DET   | PronType=Rel |
 | //ledaktož// |       0 | PRON  | PronType=Ind |
@@ Řádek 68: / Řádek 73: @@
 | //než//      |    2143 | SCONJ |          |
 |              |       5 | PART  | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. |
+| //nikakž/nikakéž//   |       | ADV   | PronType=Neg |
 | //nikdež//   |       0 | ADV   | PronType=Neg |
 | //nikdož//   |       0 | PRON  | PronType=Neg. Ve staré češtině také //niktož//. |
+| //pročež//   |      | ADV/SCONJ (?) | PronType=Int/Rel|
 | //protož//   |      | CCONJ/ADV| |
 | //rovněž//   |     457 | ADV   |          |
+| //takéž//     |        | ADV   |          |
 | //takovýtéž// |      0 | DET   | PronType=Dem |
 | //takž//     |       1 | ADV   |          |
+| //takož//     |        | ADV   |          |
+| //takýž//     |        | DET   | PronType=Dem    |
 | //tentýž//   |      92 | DET   | PronType=Dem |
+| //tenž//   |      | DET   | PronType=Dem |
+| //tož//   |      | ADV   | PronType=Dem |
 | //týž//      |     141 | DET   | PronType=Dem |
 | //všelicož// |       0 | PRON  |          |
@@ Řádek 106: / Řádek 118: @@
 | //zaňž//     | za     | za    | Prep    | nějž | jenž  | Rel      | Acc  | Pre      |        | Sing   | Masc,Neut |
+==== Spojka i ====
+Jednou se vyskytlo //myslilaj déle// ve významu //myslila i déle//. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence