| Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
| hickok:problemy_tokenizace [2025/04/07 11:00] – [Příklonka -ž] jiripergler | hickok:problemy_tokenizace [2025/10/15 11:13] (aktuální) – [Příklonka -ž] jiripergler |
|---|
| |
| * Dokumentace UD momentálně tvrdí, že příklonka //-ť// je stažený tvar spojky //neboť//, což je zřejmě problematické. V celých novočeských datech je jen jeden výskyt v PDT //(neníť)//, ten se dá případně opravit. Zdá se, že tady neexistuje žádný dobře zdůvodněný hypotetický tvar, jak by se to řeklo, kdyby to nebylo přilepené jako příklonka, protože se to asi v jiné podobě nevyskytuje (a samotné //neboť// možná vzniklo přilepením //-ť// k //nebo//). Takže jako tvar bude asi lepší nechat //ť//. Pak je také sporné, zda tomu dávat slovní druh ''CCONJ'' a závislost ''cc''. Alternativou by u slovního druhu bylo asi ''PART'', u závislosti snad ''discourse''. | * Dokumentace UD momentálně tvrdí, že příklonka //-ť// je stažený tvar spojky //neboť//, což je zřejmě problematické. V celých novočeských datech je jen jeden výskyt v PDT //(neníť)//, ten se dá případně opravit. Zdá se, že tady neexistuje žádný dobře zdůvodněný hypotetický tvar, jak by se to řeklo, kdyby to nebylo přilepené jako příklonka, protože se to asi v jiné podobě nevyskytuje (a samotné //neboť// možná vzniklo přilepením //-ť// k //nebo//). Takže jako tvar bude asi lepší nechat //ť//. Pak je také sporné, zda tomu dávat slovní druh ''CCONJ'' a závislost ''cc''. Alternativou by u slovního druhu bylo asi ''PART'', u závislosti snad ''discourse''. |
| * Ve staročeských datech se //-ť// vyskytuje o dost častěji a je potřeba si ujasnit, kde všude ho odtrhávat a kde nechat případně token vcelku. Otázka je zejména u slov, která mohla tímto způsobem vzniknout a zachovala se do současnosti, akorát dnes jsou chápána jako nedělitelná //(neboť, byť, vždyť, ať, nechť, toť,// jednou se v PDT objevilo i //arciť)// <fc #008000>**MS:** Chápu, Dane, s čím se potýkáš, řešili jsme to asi komplet všechno při přípravě tagsetu pro 19. stol. Jestli je to naše řešení vždycky vhodné, nedokážu posoudit, ale stručně ho napíšu. Ještě nejdřív oběcně k částici //-ť//. Mnohem hojněji než dnes se používala i v 19. stol. (podobně jako //-ž//, ale //-ť// byla během své existence znatelně víc řekněme multifunkční). Ty její funkce jsou zároveň dost těžko přesně specifikovatelné: částice //-ť// byla patrně formou spojovacího výrazu pro různé větné vztahy, měla taky jen zesilovací fci pro lexém, ke kterému se připojovala, a s velkou pravděpodobností hraničící s jistotou měla fci příklonného os. zájm. //ti//, které se v českých textech do 18. stol. prakticky nevyskytuje (na fci zájm. //ti// ukazují i porovnání některých míst v staročeských redakcích bible a Kralické bibli a Vulgatě, kde je v takových případech tvar //tibi//). Tahle multifunkčnost ale do 19. stol. mizí a v tomhle století má //-ť// už jen zesilovací fci. Ohledně formy se tahle částice může od stč. období po 19. stol. objevovat ve formě //-ť -tě (ťe// - platí jen pro stč. období, ale jde v podstatě o ten samý jev jako u //ňej vs. něj// - viz níže). Naše řešení v tagsetu pro 19. stol.: a) částice je neoddělitelná, dané tokeny jsou lexikalizované: //neboť > lemma neboť//; b) částice je oddělitelná: //vidělť > lemma vidět// > na 15. pozici v tagu značeno písmenem //T//, které signalizuje, že daný token obsahuje příklonnnou částici (stejně postupujeme i s částicí -ž). Nebylo a asi není stále bez problémů někdy rozhodnout, zda jde už o lexikalizaci, nebo volně připojenou částici - hranice je jinde, než v dnešní češtině, a v té staré je to ještě složitejší. Ale nějaký konsenzus proběhl. Kdybyste chtěli, můžu vytahat z našeho Morf. slovníku pro 19. stol. všechny připady lexikalizovaných tokenů s původní částicí //-ť a -ž// a poslat Vám je. Jako diachronní lingvista bych si taky vždycky přál, aby šlo u korpusového zpracování zachytit všechno. Ale už vím, že to nejde, i když mě to mrzí. Takže ohledně částice //-ť// (a i //-ž//) navrhuju, aby byly vždycky součástí lexému, ke kterému se připojují, a byly s ním jeden token: a) typ //neboť > lemma neboť//, nic se nesignalizuje v tagu; b) typ //vidělť > lemma vidět//, signaliace existence částice v rámci jednoho tokenu v tagu, pokud je to v UD možné a lehko udělatelné, nebo nesignalizovat nic.</fc> <fc #6495ed>**JP:** Nevím, jestli dobře rozumím tomu řešení, které píše Martin, ale souhlasím s oběma v tom, že by bylo vhodné pracovat se dvěma typy případů, mezi nimiž ale bohužel bude problematické stanovit jasnou hranici. Ve většině případů bych //ť// chápal jako samostatné syntaktické slovo, tj. celek obsahující //ť// by byl chápán jako multiword token. U toho //ť// bych asi dával jako slovní druh PART, tak je to i v dosavadním návodu na wiki. Dávat to jako CCONJ je myslím problemtické v tom, že ty funkce mohou být různé, může to jen zesilovat nebo to může být ten dativ osobního zájmena (tj. pak to spojka není), přičemž rozlišovat to je myslím neproveditelné, protože posouzení, jestli to v daném kontextu např. vyjadřuje nějaký mezivětný vztah, je asi typicky docela na vodě. Druhým typem případů jsou pak ty lexikalizované případy, kdy se //ť// bere jako součást lexému. V principu by tím kritériem podle mě mělo být, jestli dané slovo má s tím //ť// jiný význam než bez //ť// (např. novočeské //a//–//ať//), ale ne vždy to asi jde snadno posoudit. Je otázka, jestli to řešit nějakým seznamem, třeba se inspirovat tím 19. stoletím, podle mě si jde částečně pomoct i současnou češtinou. Taky by v tomhle možná šlo se trochu opřít o staročeské slovníky. Jinak ten postup, co jsem tu popsal, jsem se snažil dodržovat během svých anotací, nevím ale, jak přesně postupovali ostatní. </fc> <fc #008000>**MS:** Myslím, že jsem v zásadě ve shodě. Odlišnost je asi víceméně zdánlivá a je daná jen teď dvojím způsobem anotace (UD a naší pro 19. stol.). Celek obsahující //ť// mi dává smysl a vidím to vlastně jako analogii k tomu řešení, které máme zatím v našem tagsetu - převoditelné to bude bez problémů. Ohledně neřešení fcí ať už částice, nebo samostatného syntaktického slova //ť// souhlas, to není nikdy možné udělat - ve všech těchto případech mi přijde slovní druh PART jako adekvátní. A ta druhá skupina lexikalizovaných případů: jestli myslíte, že by vám seznam lexikalizovaných jednotek, které s //ť// používáme pro 19. stol., pomohl, vyextrahuju ho z našeho Morf. slovníku a pošlu. Jestli dáte přednost raděj analogii s novou češtinou, tak je to podle mě taky dobré řešení vzhledem k novočeské lemmatizaci etc. Jen dejte vědet, prosím.</fc> **DZ:** V každém případě tedy potřebujeme rozlišit dva případy, lexikalizovaný vs. nelexikalizovaný, a pak půjde jen o to, jak ten nelexikalizovaný zachytit v anotaci. Buď to bude řešeno jako multiword token a v UD rozděleno na dvě slova, nebo nic dělit nebudeme, ale promítneme to do morfologické anotace: lemma bude bez -ť a do sloupce FEATS se přidá nějaký rys, který na výskyt morfému -ť upozorní. Pokud jde o rozpoznání lexikalizovaných případů, kvůli konzistenci anotací bychom měli vytvořit seznam lexikalizovaných případů a měli bychom také zdokumentovat zásady, podle kterých se na seznam přidává. Pokud je to možné, tak bych rád, aby přítomnost slova na seznamu nezávisela (příliš) na století, ve kterém bylo to slovo vyřčeno; ale pokud je současný význam slova s -ť od odpovídajícího slova bez -ť odlišný a pokud je zřejmé, že slovo s -ť bylo ve starém textu použito spíše ve významu odpovídajícím dnešnímu slovu bez -ť, tak bych to asi zohlednil (Jirka měl takový příklad pro kdy-ž, ale nevím, zda se může stát něco podobného i s -ť.) Martine, na seznam slov, která považujete za lexikalizovaná v 19. století, se rád podívám v každém případě, ať už ho použijeme nebo ne. Kvůli konzistenci s novočeskými daty bych na tom seznamu rád viděl slova, která se v novočeských datech vyskytují, těch ale nebude mnoho (nahoře jsem jich vyjmenoval 6 resp. 7, o moc víc jich asi nenajdu). Pokud jde o způsob, jak anotovat ty nelexikalizované případy, už jsme začali s jejich dělením na dvě slova, asi bych to teď tedy tak nechal; pokud bychom to v budoucnosti chtěli revidovat, bude možné napsat skript, který to zařídí (tj. opět přilepí -ť k mateřskému slovu a místo toho vygeneruje nějaký morfologický rys, na kterém se dohodneme). <fc #6495ed>JP: Souhlasím.</fc> | * Ve staročeských datech se //-ť// vyskytuje o dost častěji a je potřeba si ujasnit, kde všude ho odtrhávat a kde nechat případně token vcelku. Otázka je zejména u slov, která mohla tímto způsobem vzniknout a zachovala se do současnosti, akorát dnes jsou chápána jako nedělitelná //(neboť, byť, vždyť, ať, nechť, toť,// jednou se v PDT objevilo i //arciť)// <fc #008000>**MS:** Chápu, Dane, s čím se potýkáš, řešili jsme to asi komplet všechno při přípravě tagsetu pro 19. stol. Jestli je to naše řešení vždycky vhodné, nedokážu posoudit, ale stručně ho napíšu. Ještě nejdřív oběcně k částici //-ť//. Mnohem hojněji než dnes se používala i v 19. stol. (podobně jako //-ž//, ale //-ť// byla během své existence znatelně víc řekněme multifunkční). Ty její funkce jsou zároveň dost těžko přesně specifikovatelné: částice //-ť// byla patrně formou spojovacího výrazu pro různé větné vztahy, měla taky jen zesilovací fci pro lexém, ke kterému se připojovala, a s velkou pravděpodobností hraničící s jistotou měla fci příklonného os. zájm. //ti//, které se v českých textech do 18. stol. prakticky nevyskytuje (na fci zájm. //ti// ukazují i porovnání některých míst v staročeských redakcích bible a Kralické bibli a Vulgatě, kde je v takových případech tvar //tibi//). Tahle multifunkčnost ale do 19. stol. mizí a v tomhle století má //-ť// už jen zesilovací fci. Ohledně formy se tahle částice může od stč. období po 19. stol. objevovat ve formě //-ť -tě (ťe// - platí jen pro stč. období, ale jde v podstatě o ten samý jev jako u //ňej vs. něj// - viz níže). Naše řešení v tagsetu pro 19. stol.: a) částice je neoddělitelná, dané tokeny jsou lexikalizované: //neboť > lemma neboť//; b) částice je oddělitelná: //vidělť > lemma vidět// > na 15. pozici v tagu značeno písmenem //T//, které signalizuje, že daný token obsahuje příklonnnou částici (stejně postupujeme i s částicí -ž). Nebylo a asi není stále bez problémů někdy rozhodnout, zda jde už o lexikalizaci, nebo volně připojenou částici - hranice je jinde, než v dnešní češtině, a v té staré je to ještě složitejší. Ale nějaký konsenzus proběhl. Kdybyste chtěli, můžu vytahat z našeho Morf. slovníku pro 19. stol. všechny připady lexikalizovaných tokenů s původní částicí //-ť a -ž// a poslat Vám je. Jako diachronní lingvista bych si taky vždycky přál, aby šlo u korpusového zpracování zachytit všechno. Ale už vím, že to nejde, i když mě to mrzí. Takže ohledně částice //-ť// (a i //-ž//) navrhuju, aby byly vždycky součástí lexému, ke kterému se připojují, a byly s ním jeden token: a) typ //neboť > lemma neboť//, nic se nesignalizuje v tagu; b) typ //vidělť > lemma vidět//, signaliace existence částice v rámci jednoho tokenu v tagu, pokud je to v UD možné a lehko udělatelné, nebo nesignalizovat nic.</fc> <fc #6495ed>**JP:** Nevím, jestli dobře rozumím tomu řešení, které píše Martin, ale souhlasím s oběma v tom, že by bylo vhodné pracovat se dvěma typy případů, mezi nimiž ale bohužel bude problematické stanovit jasnou hranici. Ve většině případů bych //ť// chápal jako samostatné syntaktické slovo, tj. celek obsahující //ť// by byl chápán jako multiword token. U toho //ť// bych asi dával jako slovní druh PART, tak je to i v dosavadním návodu na wiki. Dávat to jako CCONJ je myslím problemtické v tom, že ty funkce mohou být různé, může to jen zesilovat nebo to může být ten dativ osobního zájmena (tj. pak to spojka není), přičemž rozlišovat to je myslím neproveditelné, protože posouzení, jestli to v daném kontextu např. vyjadřuje nějaký mezivětný vztah, je asi typicky docela na vodě. Druhým typem případů jsou pak ty lexikalizované případy, kdy se //ť// bere jako součást lexému. V principu by tím kritériem podle mě mělo být, jestli dané slovo má s tím //ť// jiný význam než bez //ť// (např. novočeské //a//–//ať//), ale ne vždy to asi jde snadno posoudit. Je otázka, jestli to řešit nějakým seznamem, třeba se inspirovat tím 19. stoletím, podle mě si jde částečně pomoct i současnou češtinou. Taky by v tomhle možná šlo se trochu opřít o staročeské slovníky. Jinak ten postup, co jsem tu popsal, jsem se snažil dodržovat během svých anotací, nevím ale, jak přesně postupovali ostatní. </fc> <fc #008000>**MS:** Myslím, že jsem v zásadě ve shodě. Odlišnost je asi víceméně zdánlivá a je daná jen teď dvojím způsobem anotace (UD a naší pro 19. stol.). Celek obsahující //ť// mi dává smysl a vidím to vlastně jako analogii k tomu řešení, které máme zatím v našem tagsetu - převoditelné to bude bez problémů. Ohledně neřešení fcí ať už částice, nebo samostatného syntaktického slova //ť// souhlas, to není nikdy možné udělat - ve všech těchto případech mi přijde slovní druh PART jako adekvátní. A ta druhá skupina lexikalizovaných případů: jestli myslíte, že by vám seznam lexikalizovaných jednotek, které s //ť// používáme pro 19. stol., pomohl, vyextrahuju ho z našeho Morf. slovníku a pošlu. Jestli dáte přednost raděj analogii s novou češtinou, tak je to podle mě taky dobré řešení vzhledem k novočeské lemmatizaci etc. Jen dejte vědet, prosím.</fc> **DZ:** V každém případě tedy potřebujeme rozlišit dva případy, lexikalizovaný vs. nelexikalizovaný, a pak půjde jen o to, jak ten nelexikalizovaný zachytit v anotaci. Buď to bude řešeno jako multiword token a v UD rozděleno na dvě slova, nebo nic dělit nebudeme, ale promítneme to do morfologické anotace: lemma bude bez -ť a do sloupce FEATS se přidá nějaký rys, který na výskyt morfému -ť upozorní. Pokud jde o rozpoznání lexikalizovaných případů, kvůli konzistenci anotací bychom měli vytvořit seznam lexikalizovaných případů a měli bychom také zdokumentovat zásady, podle kterých se na seznam přidává. Pokud je to možné, tak bych rád, aby přítomnost slova na seznamu nezávisela (příliš) na století, ve kterém bylo to slovo vyřčeno; ale pokud je současný význam slova s -ť od odpovídajícího slova bez -ť odlišný a pokud je zřejmé, že slovo s -ť bylo ve starém textu použito spíše ve významu odpovídajícím dnešnímu slovu bez -ť, tak bych to asi zohlednil (Jirka měl takový příklad pro kdy-ž, ale nevím, zda se může stát něco podobného i s -ť.) Martine, na seznam slov, která považujete za lexikalizovaná v 19. století, se rád podívám v každém případě, ať už ho použijeme nebo ne. Kvůli konzistenci s novočeskými daty bych na tom seznamu rád viděl slova, která se v novočeských datech vyskytují, těch ale nebude mnoho (nahoře jsem jich vyjmenoval 6 resp. 7, o moc víc jich asi nenajdu). Pokud jde o způsob, jak anotovat ty nelexikalizované případy, už jsme začali s jejich dělením na dvě slova, asi bych to teď tedy tak nechal; pokud bychom to v budoucnosti chtěli revidovat, bude možné napsat skript, který to zařídí (tj. opět přilepí -ť k mateřskému slovu a místo toho vygeneruje nějaký morfologický rys, na kterém se dohodneme). <fc #6495ed>JP: Souhlasím.</fc> |
| | * V některých případech se zřejmě místo //-ť// objevuje //-tě// nebo //-ti//. Zacházet s nimi obdobně, tj. rozdělit jako multiword token. Tvar je ten, který se vyskytl, tedy //tě// nebo //ti//, ale lemma je nadále //ť//. Značka UPOS je ''PART''. |
| |
| === Seznam lexikalizovaných výrazů s -ť === | === Seznam lexikalizovaných výrazů s -ť === |
| | //nebť// | | CCONJ | | | | //nebť// | | CCONJ | | |
| | //neboť// | 411 | CCONJ | | | | //neboť// | 411 | CCONJ | | |
| | //nechť// | 38 | PART | | | | //nechť// | 38 | PART | Včetně variant typu nechať, nechažť apod. Vše bych lemmatizoval jako "nechť". | |
| | | //proto(ž)ť// | | CCONJ/ADV | | |
| | //toť// | 2 | PART | Ne vždy je to lexikalizované, může jít i o běžné spojení zájmena //ten// (DET) s částicí ť (PART). Lexikalizované je to v případech typu //aj toť, budeš mlčěti//. Běžné zájmeno + ť je to v případech typu //toť jest mistr plný milosti; toť chcu učiniti// (zájmeno //ten// v nelexikalizovaných případech může být i v jiných tvarech, např. //tenť obyčěj v sobě jmají//). <fc #008000>(Poznámka DZ k PDT: značka PDNS1. Po vzoru zájmena //to// to v UD dostalo značku DET, ale asi by to mělo být PRON, protože tvary v jiných rodech (//tenť, tať//) se nevyskytují. Ve skutečnosti //toť// funguje jako zájmenná spona.)</fc> | | | //toť// | 2 | PART | Ne vždy je to lexikalizované, může jít i o běžné spojení zájmena //ten// (DET) s částicí ť (PART). Lexikalizované je to v případech typu //aj toť, budeš mlčěti//. Běžné zájmeno + ť je to v případech typu //toť jest mistr plný milosti; toť chcu učiniti// (zájmeno //ten// v nelexikalizovaných případech může být i v jiných tvarech, např. //tenť obyčěj v sobě jmají//). <fc #008000>(Poznámka DZ k PDT: značka PDNS1. Po vzoru zájmena //to// to v UD dostalo značku DET, ale asi by to mělo být PRON, protože tvary v jiných rodech (//tenť, tať//) se nevyskytují. Ve skutečnosti //toť// funguje jako zájmenná spona.)</fc> | |
| | //vždyť// | 100 | CCONJ | Ve stč. typicky funguje jako ADV s významem "vždy", v těchto případech tedy rozkládat na //vždy//+//ť// (?) a anotovat jako ADV. | | | //vždyť// | 100 | CCONJ | Ve stč. typicky funguje jako ADV s významem "vždy", v těchto případech tedy rozkládat na //vždy//+//ť// (?) a anotovat jako ADV. | |
| | | 639 | CCONJ | | | | | 639 | CCONJ | | |
| | | 139 | SCONJ | | | | | 139 | SCONJ | | |
| | //budiž// | 5 | PART | V nové češtině se vyskytuje jako samostatná klauze //(ale budiž)//. Pokud by šlo o imperativ od existenciálního nebo sponového //být//, pak to asi za lexikalizované nepovažujeme? | | | //budiž// | 5 | PART | V nové češtině se vyskytuje jako samostatná klauze //(ale budiž)//. Pokud jde ve starší češtině o imperativ od existenciálního nebo sponového //být//, pak to za lexikalizované nepovažujeme. | |
| | //což// | 653 | PRON | PronType=Rel | | | //což// | 653 | PRON | PronType=Rel | |
| | | 3 | INTJ | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | | | | 3 | INTJ | //což o to; a což teprve; vyplnilo se nám to jen což// – DZ: Když už, tak bych dal spíš PART než INTJ. | |
| | //dokudž// | | ADV/SCONJ | (PronType=Rel) | | | //dokudž// | | ADV/SCONJ | (PronType=Rel) | |
| | //jakovýž// | 0 | DET | PronType=Rel | | | //jakovýž// | 0 | DET | PronType=Rel | |
| | //jakož// | 23 | SCONJ | | | | //jakož// | 23 | SCONJ/ADV | (PronType=Rel) | |
| | //jakýž// | 0 | DET | PronType=Rel | | | //jakýž// | 0 | DET | PronType=Rel | |
| | //jakž// | 1 | ADV | | | | //jakž(koli)// | 1 | ADV | | |
| | //jeliž// | | SCONJ | | | | //je(st)liž// | | SCONJ | | |
| | //jehož// | 658 | DET | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | | | //jehož// | 658 | DET | Poss=Yes, PronType=Rel. Ve všech tvarech, tj. např. //jejichž, jejíž, jejímž, jejímiž, ...// | |
| | //jenž// | 2201 | PRON | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | | | //jenž// | 2201 | PRON | PronType=Rel. Ve všech tvarech, tj. např. //němž, jehož, nichž, níž, ...// | |
| | | //kamž// | | ADV | PronType=Rel | |
| | //kakž/kakož// | | ADV | PronType=Rel/Int | | | //kakž/kakož// | | ADV | PronType=Rel/Int | |
| | //kdež// | 0 | ADV | PronType=Rel | | | //kdež// | 0 | ADV | PronType=Rel | |
| | //kterýž// | 0 | DET | PronType=Rel | | | //kterýž// | 0 | DET | PronType=Rel | |
| | //ledaktož// | 0 | PRON | PronType=Ind | | | //ledaktož// | 0 | PRON | PronType=Ind | |
| | | //liž// | | SCONJ/PART | | |
| | //natož// | 18 | PART | | | | //natož// | 18 | PART | | |
| | //někdež// | 0 | ADV | PronType=Ind | | | //někdež// | 0 | ADV | PronType=Ind | |
| | //nikdež// | 0 | ADV | PronType=Neg | | | //nikdež// | 0 | ADV | PronType=Neg | |
| | //nikdož// | 0 | PRON | PronType=Neg. Ve staré češtině také //niktož//. | | | //nikdož// | 0 | PRON | PronType=Neg. Ve staré češtině také //niktož//. | |
| | | //nikdyž// | | ADV | PronType=Neg. | |
| | | //nikterakž// | | ADV | PronType=Neg | |
| | | //odkavadž// | | ADV | PronType=Rel | |
| | | //pokudž// | | ADV/SCONJ | | |
| | //pročež// | | ADV/SCONJ (?) | PronType=Int/Rel| | | //pročež// | | ADV/SCONJ (?) | PronType=Int/Rel| |
| | //protož// | | CCONJ/ADV| | | | //protož// | | CCONJ/ADV| | |
| | //takž// | 1 | ADV | | | | //takž// | 1 | ADV | | |
| | //takož// | | ADV | | | | //takož// | | ADV | | |
| | //takýž// | | DET | PronType=Dem | | | //tak(ov)ýž// | | DET | PronType=Dem | |
| | //tehdaž/tehdáž// | | ADV | PronType=Dem | | | //tehdaž/tehdáž/tehdyž// | | ADV | PronType=Dem | |
| | //tentýž// | 92 | DET | PronType=Dem | | | //tentýž// | 92 | DET | PronType=Dem | |
| | //tenž// | | DET | PronType=Dem | | | //tenž// | | DET | PronType=Dem | |
| | | //tolikéž// | | ADV/DET | | |
| | //tož// | | ADV | PronType=Dem | | | //tož// | | ADV | PronType=Dem | |
| | | //tuž// | | ADV | PronType=Dem | |
| | //týž// | 141 | DET | PronType=Dem | | | //týž// | 141 | DET | PronType=Dem | |
| | //všelicož// | 0 | PRON | | | | //všelicož// | 0 | PRON | | |
| | | //zda(li)ž// | | PART/SCONJ | | |
| |
| ==== Spojení předložky se zájmenem ==== | ==== Spojení předložky se zájmenem ==== |