AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
hickok:problemy_tokenizace [2024/10/31 13:37] – [Příklonka -ž] martinstlukahickok:problemy_tokenizace [2025/03/03 09:29] (aktuální) – [Příklonka -ž] jiripergler
Řádek 14: Řádek 14:
  
   * Dokumentace UD momentálně tvrdí, že příklonka //-ť// je stažený tvar spojky //neboť//, což je zřejmě problematické. V celých novočeských datech je jen jeden výskyt v PDT //(neníť)//, ten se dá případně opravit. Zdá se, že tady neexistuje žádný dobře zdůvodněný hypotetický tvar, jak by se to řeklo, kdyby to nebylo přilepené jako příklonka, protože se to asi v jiné podobě nevyskytuje (a samotné //neboť// možná vzniklo přilepením //-ť// k //nebo//). Takže jako tvar bude asi lepší nechat //ť//. Pak je také sporné, zda tomu dávat slovní druh ''CCONJ'' a závislost ''cc''. Alternativou by u slovního druhu bylo asi ''PART'', u závislosti snad ''discourse''.   * Dokumentace UD momentálně tvrdí, že příklonka //-ť// je stažený tvar spojky //neboť//, což je zřejmě problematické. V celých novočeských datech je jen jeden výskyt v PDT //(neníť)//, ten se dá případně opravit. Zdá se, že tady neexistuje žádný dobře zdůvodněný hypotetický tvar, jak by se to řeklo, kdyby to nebylo přilepené jako příklonka, protože se to asi v jiné podobě nevyskytuje (a samotné //neboť// možná vzniklo přilepením //-ť// k //nebo//). Takže jako tvar bude asi lepší nechat //ť//. Pak je také sporné, zda tomu dávat slovní druh ''CCONJ'' a závislost ''cc''. Alternativou by u slovního druhu bylo asi ''PART'', u závislosti snad ''discourse''.
-    * Ve staročeských datech se //-ť// vyskytuje o dost častěji a je potřeba si ujasnit, kde všude ho odtrhávat a kde nechat případně token vcelku. Otázka je zejména u slov, která mohla tímto způsobem vzniknout a zachovala se do současnosti, akorát dnes jsou chápána jako nedělitelná //(neboť, byť, vždyť, ať, nechť, toť,// jednou se v PDT objevilo i //arciť)// <fc #008000>**MS:** Chápu, Dane, s čím se potýkáš, řešili jsme to asi komplet všechno při přípravě tagsetu pro 19. stol. Jestli je to naše řešení vždycky vhodné, nedokážu posoudit, ale stručně ho napíšu. Ještě nejdřív oběcně k částici //-ť//. Mnohem hojněji než dnes se používala i v 19. stol. (podobně jako //-ž//, ale //-ť// byla během své existence znatelně víc řekněme multifunkční). Ty její funkce jsou zároveň dost těžko přesně specifikovatelné: částice //-ť// byla patrně formou spojovacího výrazu pro různé větné vztahy, měla taky jen zesilovací fci pro lexém, ke kterému se připojovala, a s velkou pravděpodobností hraničící s jistotou měla fci příklonného os. zájm. //ti//, které se v českých textech do 18. stol. prakticky nevyskytuje (na fci zájm. //ti// ukazují i porovnání některých míst v staročeských redakcích bible a Kralické bibli a Vulgatě, kde je v takových případech tvar //tibi//). Tahle multifunkčnost ale do 19. stol. mizí a v tomhle století má //-ť// už jen zesilovací fci. Ohledně formy se tahle částice může od stč. období po 19. stol. objevovat ve formě //-ť -tě (ťe// - platí jen pro stč. období, ale jde v podstatě o ten samý jev jako u //ňej vs. něj// - viz níže). Naše řešení v tagsetu pro 19. stol.: a) částice je neoddělitelná, dané tokeny jsou lexikalizované: //neboť > lemma neboť//; b) částice je oddělitelná: //vidělť > lemma vidět// > na 15. pozici v tagu značeno písmenem //T//, které signalizuje, že daný token obsahuje příklonnnou částici (stejně postupujeme i s částicí -ž). Nebylo a asi není stále bez problémů někdy rozhodnout, zda jde už o lexikalizaci, nebo volně připojenou částici - hranice je jinde, než v dnešní češtině, a v té staré je to ještě složitejší. Ale nějaký konsenzus proběhl. Kdybyste chtěli, můžu vytahat z našeho Morf. slovníku pro 19. stol. všechny připady lexikalizovaných tokenů s původní částicí //-ť a -ž// a poslat Vám je. Jako diachronní lingvista bych si taky vždycky přál, aby šlo u korpusového zpracování zachytit všechno. Ale už vím, že to nejde, i když mě to mrzí. Takže ohledně částice //-ť// (a i //-ž//) navrhuju, aby byly vždycky součástí lexému, ke kterému se připojují, a byly s ním jeden token: a) typ //neboť > lemma neboť//, nic se nesignalizuje v tagu; b) typ //vidělť > lemma vidět//, signaliace existence částice v rámci jednoho tokenu v tagu, pokud je to v UD možné a lehko udělatelné, nebo nesignalizovat nic.</fc> <fc #6495ed>**JP:** Nevím, jestli dobře rozumím tomu řešení, které píše Martin, ale souhlasím s oběma v tom, že by bylo vhodné pracovat se dvěma typy případů, mezi nimiž ale bohužel bude problematické stanovit jasnou hranici. Ve většině případů bych //ť// chápal jako samostatné syntaktické slovo, tj. celek obsahující //ť// by byl chápán jako multiword token. U toho //ť// bych asi dával jako slovní druh PART, tak je to i v dosavadním návodu na wiki. Dávat to jako CCONJ je myslím problemtické v tom, že ty funkce mohou být různé, může to jen zesilovat nebo to může být ten dativ osobního zájmena (tj. pak to spojka není), přičemž rozlišovat to je myslím neproveditelné, protože posouzení, jestli to v daném kontextu např. vyjadřuje nějaký mezivětný vztah, je asi typicky docela na vodě. Druhým typem případů jsou pak ty lexikalizované případy, kdy se //ť// bere jako součást lexému. V principu by tím kritériem podle mě mělo být, jestli dané slovo má s tím //ť// jiný význam než bez //ť// (např. novočeské //a//–//ať//), ale ne vždy to asi jde snadno posoudit. Je otázka, jestli to řešit nějakým seznamem, třeba se inspirovat tím 19. stoletím, podle mě si jde částečně pomoct i současnou češtinou. Taky by v tomhle možná šlo se trochu opřít o staročeské slovníky. Jinak ten postup, co jsem tu popsal, jsem se snažil dodržovat během svých anotací, nevím ale, jak přesně postupovali ostatní. </fc> <fc #008000>**MS:** Myslím, že jsem v zásadě ve shodě. Odlišnost je asi víceméně zdánlivá a je daná jen teď dvojím způsobem anotace (UD a naší pro 19. stol.). Celek obsahující //ť// mi dává smysl a vidím to vlastně jako analogii k tomu řešení, které máme zatím v našem tagsetu - převoditelné to bude bez problémů. Ohledně neřešení fcí ať už částice, nebo samostatného syntaktického slova //ť// souhlas, to není nikdy možné udělat - ve všech těchto případech mi přijde slovní druh PART jako adekvátní. A ta druhá skupina lexikalizovaných případů: jestli myslíte, že by vám seznam lexikalizovaných jednotek, které s //ť// používáme pro 19. stol., pomohl, vyextrahuju ho z našeho Morf. slovníku a pošlu. Jestli dáte přednost raděj analogii s novou češtinou, tak je to podle mě taky dobré řešení vzhledem k novočeské lemmatizaci etc. Jen dejte vědet, prosím.</fc> **DZ:** V každém případě tedy potřebujeme rozlišit dva případy, lexikalizovaný vs. nelexikalizovaný, a pak půjde jen o to, jak ten nelexikalizovaný zachytit v anotaci. Buď to bude řešeno jako multiword token a v UD rozděleno na dvě slova, nebo nic dělit nebudeme, ale promítneme to do morfologické anotace: lemma bude bez -ť a do sloupce FEATS se přidá nějaký rys, který na výskyt morfému -ť upozorní. Pokud jde o rozpoznání lexikalizovaných případů, kvůli konzistenci anotací bychom měli vytvořit seznam lexikalizovaných případů a měli bychom také zdokumentovat zásady, podle kterých se na seznam přidává. Pokud je to možné, tak bych rád, aby přítomnost slova na seznamu nezávisela (příliš) na století, ve kterém bylo to slovo vyřčeno; ale pokud je současný význam slova s -ť od odpovídajícího slova bez -ť odlišný a pokud je zřejmé, že slovo s -ť bylo ve starém textu použito spíše ve významu odpovídajícím dnešnímu slovu bez -ť, tak bych to asi zohlednil (Jirka měl takový příklad pro kdy-ž, ale nevím, zda se může stát něco podobného i s -ť.) Martine, na seznam slov, která považujete za lexikalizovaná v 19. století, se rád podívám v každém případě, ať už ho použijeme nebo ne. Kvůli konzistenci s novočeskými daty bych na tom seznamu rád viděl slova, která se v novočeských datech vyskytují, těch ale nebude mnoho (nahoře jsem jich vyjmenoval 6 resp. 7, o moc víc jich asi nenajdu). Pokud jde o způsob, jak anotovat ty nelexikalizované případy, už jsme začali s jejich dělením na dvě slova, asi bych to teď tedy tak nechal; pokud bychom to v budoucnosti chtěli revidovat, bude možné napsat skript, který to zařídí (tj. opět přilepí -ť k mateřskému slovu a místo toho vygeneruje nějaký morfologický rys, na kterém se dohodneme). <fc #6495ed>JP: Souhlasím.</fc>+    * Ve staročeských datech se //-ť// vyskytuje o dost častěji a je potřeba si ujasnit, kde všude ho odtrhávat a kde nechat případně token vcelku. Otázka je zejména u slov, která mohla tímto způsobem vzniknout a zachovala se do současnosti, akorát dnes jsou chápána jako nedělitelná //(neboť, byť, vždyť, ať, nechť, toť,// jednou se v PDT objevilo i //arciť)// <fc #008000>**MS:** Chápu, Dane, s čím se potýkáš, řešili jsme to asi komplet všechno při přípravě tagsetu pro 19. stol. Jestli je to naše řešení vždycky vhodné, nedokážu posoudit, ale stručně ho napíšu. Ještě nejdřív oběcně k částici //-ť//. Mnohem hojněji než dnes se používala i v 19. stol. (podobně jako //-ž//, ale //-ť// byla během své existence znatelně víc řekněme multifunkční). Ty její funkce jsou zároveň dost těžko přesně specifikovatelné: částice //-ť// byla patrně formou spojovacího výrazu pro různé větné vztahy, měla taky jen zesilovací fci pro lexém, ke kterému se připojovala, a s velkou pravděpodobností hraničící s jistotou měla fci příklonného os. zájm. //ti//, které se v českých textech do 18. stol. prakticky nevyskytuje (na fci zájm. //ti// ukazují i porovnání některých míst v staročeských redakcích bible a Kralické bibli a Vulgatě, kde je v takových případech tvar //tibi//). Tahle multifunkčnost ale do 19. stol. mizí a v tomhle století má //-ť// už jen zesilovací fci. Ohledně formy se tahle částice může od stč. období po 19. stol. objevovat ve formě //-ť -tě (ťe// - platí jen pro stč. období, ale jde v podstatě o ten samý jev jako u //ňej vs. něj// - viz níže). Naše řešení v tagsetu pro 19. stol.: a) částice je neoddělitelná, dané tokeny jsou lexikalizované: //neboť > lemma neboť//; b) částice je oddělitelná: //vidělť > lemma vidět// > na 15. pozici v tagu značeno písmenem //T//, které signalizuje, že daný token obsahuje příklonnnou částici (stejně postupujeme i s částicí -ž). Nebylo a asi není stále bez problémů někdy rozhodnout, zda jde už o lexikalizaci, nebo volně připojenou částici - hranice je jinde, než v dnešní češtině, a v té staré je to ještě složitejší. Ale nějaký konsenzus proběhl. Kdybyste chtěli, můžu vytahat z našeho Morf. slovníku pro 19. stol. všechny připady lexikalizovaných tokenů s původní částicí //-ť a -ž// a poslat Vám je. Jako diachronní lingvista bych si taky vždycky přál, aby šlo u korpusového zpracování zachytit všechno. Ale už vím, že to nejde, i když mě to mrzí. Takže ohledně částice //-ť// (a i //-ž//) navrhuju, aby byly vždycky součástí lexému, ke kterému se připojují, a byly s ním jeden token: a) typ //neboť > lemma neboť//, nic se nesignalizuje v tagu; b) typ //vidělť > lemma vidět//, signaliace existence částice v rámci jednoho tokenu v tagu, pokud je to v UD možné a lehko udělatelné, nebo nesignalizovat nic.</fc> <fc #6495ed>**JP:** Nevím, jestli dobře rozumím tomu řešení, které píše Martin, ale souhlasím s oběma v tom, že by bylo vhodné pracovat se dvěma typy případů, mezi nimiž ale bohužel bude problematické stanovit jasnou hranici. Ve většině případů bych //ť// chápal jako samostatné syntaktické slovo, tj. celek obsahující //ť// by byl chápán jako multiword token. U toho //ť// bych asi dával jako slovní druh PART, tak je to i v dosavadním návodu na wiki. Dávat to jako CCONJ je myslím problemtické v tom, že ty funkce mohou být různé, může to jen zesilovat nebo to může být ten dativ osobního zájmena (tj. pak to spojka není), přičemž rozlišovat to je myslím neproveditelné, protože posouzení, jestli to v daném kontextu např. vyjadřuje nějaký mezivětný vztah, je asi typicky docela na vodě. Druhým typem případů jsou pak ty lexikalizované případy, kdy se //ť// bere jako součást lexému. V principu by tím kritériem podle mě mělo být, jestli dané slovo má s tím //ť// jiný význam než bez //ť// (např. novočeské //a//–//ať//), ale ne vždy to asi jde snadno posoudit. Je otázka, jestli to řešit nějakým seznamem, třeba se inspirovat tím 19. stoletím, podle mě si jde částečně pomoct i současnou češtinou. Taky by v tomhle možná šlo se trochu opřít o staročeské slovníky. Jinak ten postup, co jsem tu popsal, jsem se snažil dodržovat během svých anotací, nevím ale, jak přesně postupovali ostatní. </fc> <fc #008000>**MS:** Myslím, že jsem v zásadě ve shodě. Odlišnost je asi víceméně zdánlivá a je daná jen teď dvojím způsobem anotace (UD a naší pro 19. stol.). Celek obsahující //ť// mi dává smysl a vidím to vlastně jako analogii k tomu řešení, které máme zatím v našem tagsetu - převoditelné to bude bez problémů. Ohledně neřešení fcí ať už částice, nebo samostatného syntaktického slova //ť// souhlas, to není nikdy možné udělat - ve všech těchto případech mi přijde slovní druh PART jako adekvátní. A ta druhá skupina lexikalizovaných případů: jestli myslíte, že by vám seznam lexikalizovaných jednotek, které s //ť// používáme pro 19. stol., pomohl, vyextrahuju ho z našeho Morf. slovníku a pošlu. Jestli dáte přednost raděj analogii s novou češtinou, tak je to podle mě taky dobré řešení vzhledem k novočeské lemmatizaci etc. Jen dejte vědet, prosím.</fc> **DZ:** V každém případě tedy potřebujeme rozlišit dva případy, lexikalizovaný vs. nelexikalizovaný, a pak půjde jen o to, jak ten nelexikalizovaný zachytit v anotaci. Buď to bude řešeno jako multiword token a v UD rozděleno na dvě slova, nebo nic dělit nebudeme, ale promítneme to do morfologické anotace: lemma bude bez -ť a do sloupce FEATS se přidá nějaký rys, který na výskyt morfému -ť upozorní. Pokud jde o rozpoznání lexikalizovaných případů, kvůli konzistenci anotací bychom měli vytvořit seznam lexikalizovaných případů a měli bychom také zdokumentovat zásady, podle kterých se na seznam přidává. Pokud je to možné, tak bych rád, aby přítomnost slova na seznamu nezávisela (příliš) na století, ve kterém bylo to slovo vyřčeno; ale pokud je současný význam slova s -ť od odpovídajícího slova bez -ť odlišný a pokud je zřejmé, že slovo s -ť bylo ve starém textu použito spíše ve významu odpovídajícím dnešnímu slovu bez -ť, tak bych to asi zohlednil (Jirka měl takový příklad pro kdy-ž, ale nevím, zda se může stát něco podobného i s -ť.) Martine, na seznam slov, která považujete za lexikalizovaná v 19. století, se rád podívám v každém případě, ať už ho použijeme nebo ne. Kvůli konzistenci s novočeskými daty bych na tom seznamu rád viděl slova, která se v novočeských datech vyskytují, těch ale nebude mnoho (nahoře jsem jich vyjmenoval 6 resp. 7, o moc víc jich asi nenajdu). Pokud jde o způsob, jak anotovat ty nelexikalizované případy, už jsme začali s jejich dělením na dvě slova, asi bych to teď tedy tak nechal; pokud bychom to v budoucnosti chtěli revidovat, bude možné napsat skript, který to zařídí (tj. opět přilepí -ť k mateřskému slovu a místo toho vygeneruje nějaký morfologický rys, na kterém se dohodneme). <fc #6495ed>JP: Souhlasím.</fc> 
  
 === Seznam lexikalizovaných výrazů s -ť === === Seznam lexikalizovaných výrazů s -ť ===
Řádek 25: Řádek 25:
 |                61 | PART  |          | |                61 | PART  |          |
 | //byť//       120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). | | //byť//       120 | SCONJ | **POZOR**, pro starou češtinu //byť// v typických spojeních s l-ovým participiem (//byť přišel//) nechápeme jako lexikalizovanou spojku, ale jako multiword token, totiž spojení //by// (AUX, jde o pomocný tvar kondicionálu) a //ť// (PART). Za spojku //byť// pokládáme pouze v případě, že by to jako pomocný tvar kondicionálu interpetovat nešlo, tj. buď by v kontextu bylo další //by// (//byť by přišel//), nebo by tam nebylo l-ové participium tvořící zbytek kondicionáového tvaru (např. //byť přijde//). |
 +| //nebť// |      | CCONJ |          |
 | //neboť// |     411 | CCONJ |          | | //neboť// |     411 | CCONJ |          |
 | //nechť// |      38 | PART  |          | | //nechť// |      38 | PART  |          |
Řádek 33: Řádek 34:
 ==== Příklonka -ž ==== ==== Příklonka -ž ====
  
-  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc>+  * Objevil se i návrh odtrhávat koncové //-ž//, např. u imperativu //obratiž//. Jakou by to mělo funkci? A pokud bychom to začali dělat, podobně jako u //-ť// musíme vědět, kdy odtrhávat a kdy ne. Takové //což// nebo //jehož// jsou v novočeských datech nedělitelná slova. Namátkou: //než, když, až, což, rovněž?, jehož, jejichž, jenž, aniž, jakož, natož, budiž//. Určitě bych tím pádem nedělil ani //kdož/ktož//, které v novočeských datech nevidím, a v podstatě asi žádné zájmeno, příslovce nebo spojku končící na //-ž//. U sloves si nejsem jistý, ale asi jsem to zatím viděl pouze u imperativu a jako laik to vnímám jako archaický tvar imperativu. Ale v datech už se objevila i kombinace s adjektivem //(dřevniehož)// <fc #008000>**MS:** O oddělování //-ž// viz to samé, co jsem napsal u //-ť//. Funkce //-ž// jsou během vývoje mnohem omezenější, tak by to nemuselo nikoho tolik mrzet:)</fc> <fc #6495ed>**JP:** V případě //ž// jsem zatím postupoval výrazně jinak než u //ť//, a to v tom, že jsem to nepovažoval nikdy za samostatné slovo, tj. celek obsahující //ž// jsem nikdy nedělil na dvě části. Bylo to spíš intuitivní rozhodnutí, ale důvod je podle mě ten, že to //ž// myslím (ale nejsem si jistý, kdyžtak ať mě prosím Martin vyvede z omylu) mělo spíš jen tu zdůrazňovací funkci, než že by to přímo vyjadřovalo mezivětné vztahy nebo to byl dokonce tvar zájmena. Takže tady jsem neměl problém s tokenizací, ale i tak tu vznikají dva typy případů, a to s ohledem na lemmatizaci, jestli to //ž// bude součástí lemmatu (mělo by být asi u těch zájmen typu //což//, obecněji snad u funkčních slov), nebo nebude (u sloves, u toho případu s adjektivem apod.). Taky jsem ale myslím jednou řešil problém, nevím, jestli si to pamatuju přesně, ale bylo to něco ve smyslu, že v textu bylo //když//, nicméně nemělo to tu dnešní funkci spojky, ale funkčně to odpovídalo nč. zájmennému příslovci //kdy//, takže v tomhle případě jsem to myslím lemmatizoval jako //kdy//, přestože lemma //když// jsem v jiných kontextech samozřejmě používal taky. Takže možná nejde vycházet jen ze samotné formy. U toho //ž// ale myslím budou velké rozdíly mezi anotátory, protože někdo to tuším rozděloval podobně jako to //ť//.</fc> <fc #008000>**MS:** Omlouvám se, za nepřesnou formulaci vycházející z té o částici //-ť// - ale jsme v tom, Jirko a Dane, zajedno, že //ž// bychom nepovažovali nikdy za samostatné slovo (mělo celou dobu v jazyce víceméně zdůrazňovací fci, popř. se v rámci jiného lexému lexikalizovalo). Mínil jsem tou analogií s //ť// svůj návrh na to, že bych //ť// taky neklasifikoval jako samostatné slovo, ale jen jako buď zesilovací příklonnnou částici, nebo součást lexikalizované jednotky. Někdy to bude těžké rozhodnout, viz to //kdy-ž//, ale kvůli zjednodušení situace, bych se nabránil řešením podle formy, i když to bude někdy vypadat hůř obhajitelně (ale anotaci a desambiguaci by to mělo výrazně zjednodušit). Takže bych řekl, že jsem u //ž// dohodnuti.</fc> <fc #ffa500>**JZ1**: Pokud ť ani ž nebudeme nikdy odtrhávat, tak mi připadá opravdu důležité, aby se jejich přítomnost dala signalizovat v tagu. Pokud se to v tagu signalizovat nedá, tak jsem pro odtrhávání ve všech případech kromě lexikalizovaných, aby se ty případy daly snadno vyhledat a korpus mohl v budoucnu co nejefektivněji posloužit jako materiál pro výzkum fungování ť a ž. **JZ2**: Koncové -ž u imperativu má podle mě zdůrazňovací funkci. **JZ3**: ad JP a MS: co myslíte řešením podle formy?</fc> <fc #6495ed>JP: Já jsem tím myslel ten případ s //když//, že by se prostě řeklo, že //když// se vždy anotuje nějakým způsobem bez ohledu na to, jestli to není ten komplikovanější případ, co jsem popsal výše.</fc> **DZ:** Stejně jako u //-ť// tedy potřebujeme rozlišit lexikalizované a nelexikalizované případy. Na rozdíl od //-ť// bych se u těch nelexikalizovaných přikláněl k řešení, které nezasahuje do tokenizace, tj. tvary se //-ž// nejsou považovány za víceslovné tokeny. Budou mít ale lemma bez //-ž// a můžeme se dohodnout na přidání rysu do sloupce FEATS, který je jasně identifikuje. Nabízí se např. značka ''Emph=Yes'' (emphatic), kterou už si některé jazyky v UD pro své účely dodefinovaly. Pokud bychom v budoucnosti chtěli způsob anotace revidovat a třeba přece jen oddělit //-ž// jako samostatné slovo, půjde to udělat skriptem. <fc #6495ed>JP: Souhlasím.</fc> <fc #008000>**MS:** Taky souhlasím.</fc>
  
 **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést. **DZ:** Soubory pro anotaci vygenerované v první várce neobsahují sloupec pro rys ''Emph''. Pro budoucí anotace bych mohl soubory přegenerovat s tímto sloupcem, ale u souborů, jejichž anotace už začala, se musíme obejít bez něj. Mohli bychom zneužít některý existující sloupec, který se málo využívá, např. ''Hyph''. Přidám do zpracování pravidlo, že ''Hyph=ž'' ve skutečnosti znamená ''Emph=Yes'' a má se na něj převést.
Řádek 39: Řádek 40:
 === Seznam lexikalizovaných výrazů se -ž === === Seznam lexikalizovaných výrazů se -ž ===
  
-Nasledující slova končí na //-ž// a po jeho případném odtržení by pořád zbylo existující české slovo. (ZMĚNA: V některých případech nyní doplňuji i tvary, kde zbytek po odtržení není slovo.) Ponechávám stranou debatu, zda vůbec všechna tímto způsobem vznikla, ale pokud ano, tak je považujeme za lexikalizovaná, tj. i jejich lemma obsahuje //-ž// a nepřidává se žádná morfologická značka, která by na koncové //-ž// upozorňovala. Výjimkou by mohl být případ, kdy by se slovo se //-ž// vyskytlo zjevně v platnosti slova bez //-ž//, např. kdyby se //když// objevilo ve významu //kdy//. <fc #6495ed>JP: Pro starou češtinu bych mezi tyto případy počítal i zájmena / zájmenná příslovce zakončená na -ž, např. ktož, kterýž, jenž, kdež apod., a nejspíš i nikdež, niktož, něktož, ledaktož apod. Pokud je tak nebudeme brát paušálně všechna, tak se nám asi nepodaří to dělat jednotně. Ale je pak otázka, co s tím problematickým //kdy-ž//.</fc> DZ: Se zájmeny a zájmennými příslovci určitě souhlas, ona ta tabulka nebyla a ani teď není kompletní. Pokud jde o //kdy-ž//, to je právě zvláštní tím, že v současné češtině se //když// používá s dost posunutou funkcí; naopak //kdož// téměř vymizelo, a když už se objeví, je to pro mě totéž jako //kdo//. Ale nijak bych se nebránil tomu ho spláchnout s ostatními a říct, že žádnou výjimku mít nemá. <fc #008000>**MS:** Souhlasím se spláchnutím a bez výjimky. U "kdy" a "když" bych se držel formy, a neřešil pokud možno význam - takže dvě různá lemmata. <fc #6495ed>+Nasledující slova končí na //-ž// a po jeho případném odtržení by pořád zbylo existující české slovo. (ZMĚNA: V některých případech nyní doplňuji i tvary, kde zbytek po odtržení není slovo.) Ponechávám stranou debatu, zda vůbec všechna tímto způsobem vznikla, ale pokud ano, tak je považujeme za lexikalizovaná, tj. i jejich lemma obsahuje //-ž// a nepřidává se žádná morfologická značka, která by na koncové //-ž// upozorňovala. Výjimkou by mohl být případ, kdy by se slovo se //-ž// vyskytlo zjevně v platnosti slova bez //-ž//, např. kdyby se //když// objevilo ve významu //kdy//. <fc #6495ed>JP: Pro starou češtinu bych mezi tyto případy počítal i zájmena / zájmenná příslovce zakončená na -ž, např. ktož, kterýž, jenž, kdež apod., a nejspíš i nikdež, niktož, něktož, ledaktož apod. Pokud je tak nebudeme brát paušálně všechna, tak se nám asi nepodaří to dělat jednotně. Ale je pak otázka, co s tím problematickým //kdy-ž//.</fc> DZ: Se zájmeny a zájmennými příslovci určitě souhlas, ona ta tabulka nebyla a ani teď není kompletní. Pokud jde o //kdy-ž//, to je právě zvláštní tím, že v současné češtině se //když// používá s dost posunutou funkcí; naopak //kdož// téměř vymizelo, a když už se objeví, je to pro mě totéž jako //kdo//. Ale nijak bych se nebránil tomu ho spláchnout s ostatními a říct, že žádnou výjimku mít nemá. <fc #008000>**MS:** Souhlasím se spláchnutím a bez výjimky. U "kdy" a "když" bych se držel formy, a neřešil pokud možno význam - takže dvě různá lemmata.</fc>
  
 +**Tabulka**
 ^ Slovo        ^  PDT           ^^ Poznámka ^ ^ Slovo        ^  PDT           ^^ Poznámka ^
 ^              ^ výskyty ^ UPOS  ^          ^ ^              ^ výskyty ^ UPOS  ^          ^
 | //aniž//         120 | SCONJ |          | | //aniž//         120 | SCONJ |          |
 +| //avšakž//         | CCONJ |          |
 | //až//          1384 | PART  |          | | //až//          1384 | PART  |          |
 |              |     639 | CCONJ |          | |              |     639 | CCONJ |          |
Řádek 51: Řádek 54:
 |              |       3 | INTJ  | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | |              |       3 | INTJ  | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. |
 |              |       1 | PART  | //Což se XXX neděje?// | |              |       1 | PART  | //Což se XXX neděje?// |
 +| //dokudž//  |       | ADV/SCONJ | (PronType=Rel) |
 | //jakovýž//  |       0 | DET   | PronType=Rel | | //jakovýž//  |       0 | DET   | PronType=Rel |
 | //jakož//    |      23 | SCONJ |          | | //jakož//    |      23 | SCONJ |          |
Řádek 57: Řádek 61:
 | //jehož//    |     658 | DET   | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | | //jehož//    |     658 | DET   | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// |
 | //jenž//        2201 | PRON  | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | | //jenž//        2201 | PRON  | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// |
 +| //kakž/kakož//            | ADV   | PronType=Rel/Int |
 | //kdež//           0 | ADV   | PronType=Rel | | //kdež//           0 | ADV   | PronType=Rel |
 | //kdož//           3 | PRON  | PronType=Rel. Ve staré češtině také //ktož, kdožež//. | | //kdož//           3 | PRON  | PronType=Rel. Ve staré češtině také //ktož, kdožež//. |
 | //když//        2100 | SCONJ |          | | //když//        2100 | SCONJ |          |
 +| //kterakž//  |        | ADV   | PronType=Rel/Int |
 | //kterýž//         0 | DET   | PronType=Rel | | //kterýž//         0 | DET   | PronType=Rel |
 | //ledaktož// |       0 | PRON  | PronType=Ind | | //ledaktož// |       0 | PRON  | PronType=Ind |
Řádek 67: Řádek 73:
 | //než//      |    2143 | SCONJ |          | | //než//      |    2143 | SCONJ |          |
 |              |       5 | PART  | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. | |              |       5 | PART  | Tři z těch pěti případů jsou záporné typu //nezbývá, než ...//, ale asi by to klidně i zde mohlo být SCONJ. |
 +| //nikakž/nikakéž//         | ADV   | PronType=Neg |
 | //nikdež//         0 | ADV   | PronType=Neg | | //nikdež//         0 | ADV   | PronType=Neg |
 | //nikdož//         0 | PRON  | PronType=Neg. Ve staré češtině také //niktož//. | | //nikdož//         0 | PRON  | PronType=Neg. Ve staré češtině také //niktož//. |
 +| //pročež//        | ADV/SCONJ (?) | PronType=Int/Rel|
 | //protož//        | CCONJ/ADV| | | //protož//        | CCONJ/ADV| |
 | //rovněž//       457 | ADV            | | //rovněž//       457 | ADV            |
 +| //takéž//            | ADV            |
 | //takovýtéž// |      0 | DET   | PronType=Dem | | //takovýtéž// |      0 | DET   | PronType=Dem |
 | //takž//           1 | ADV            | | //takž//           1 | ADV            |
 +| //takož//            | ADV            |
 +| //takýž//            | DET   | PronType=Dem    |
 | //tentýž//        92 | DET   | PronType=Dem | | //tentýž//        92 | DET   | PronType=Dem |
 +| //tenž//        | DET   | PronType=Dem |
 +| //tož//        | ADV   | PronType=Dem |
 | //týž//      |     141 | DET   | PronType=Dem | | //týž//      |     141 | DET   | PronType=Dem |
 | //všelicož// |       0 | PRON  |          | | //všelicož// |       0 | PRON  |          |
Řádek 105: Řádek 118:
 | //zaňž//     | za     | za    | Prep    | nějž | jenž  | Rel      | Acc  | Pre      |        | Sing   | Masc,Neut | | //zaňž//     | za     | za    | Prep    | nějž | jenž  | Rel      | Acc  | Pre      |        | Sing   | Masc,Neut |
  
 +==== Spojka i ====
 +
 +Jednou se vyskytlo //myslilaj déle// ve významu //myslila i déle//. Nevím, jak moc je to produktivní, prozatím jsem implementoval dělení pouze pro tento konkrétní případ.