Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:syn2020:tokenizace [2020/11/16 10:41] – jankrivan | cnk:syn2020:tokenizace [2021/03/12 16:53] (aktuální) – [Skupiny interpunkčních znaků] jankrivan | ||
---|---|---|---|
Řádek 10: | Řádek 10: | ||
Spojovníky (příp. pomlčky na jejich místě) se tokenizují dohromady s okolním textem: | Spojovníky (příp. pomlčky na jejich místě) se tokenizují dohromady s okolním textem: | ||
- | * ve složených adjektivech a adverbiích (// | + | * ve **složených adjektivech a adverbiích** (// |
- | * ve frekventovaných slovech (//e-mail, on-line//) včetně vlastních jmen (// | + | |
+ | * ve **frekventovaných slovech** (//e-mail, on-line//) včetně vlastních jmen (// | ||
Ostatní případy psaní spojovníku jsou tokenizovány zvlášť (//Rakousko - Uhersko//, //Jean - Philippe//, //Kvitová - Muchová//, //ne - člověk// | Ostatní případy psaní spojovníku jsou tokenizovány zvlášť (//Rakousko - Uhersko//, //Jean - Philippe//, //Kvitová - Muchová//, //ne - člověk// | ||
Řádek 17: | Řádek 18: | ||
==== Apostrofy (' ’ ‘ ’ ' ´ ‛) ==== | ==== Apostrofy (' ’ ‘ ’ ' ´ ‛) ==== | ||
- | Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují mezi alfabetickými znaky (// | + | Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují |
==== Hvězdičky (*) ==== | ==== Hvězdičky (*) ==== | ||
- | Hvězdičky se tokenizují dohromady v řadě alfabetických znaků, která je potenciálním tabuovým slovem (// | + | Hvězdičky se tokenizují dohromady |
==== Numerické znaky (0123456789) ==== | ==== Numerické znaky (0123456789) ==== | ||
Řádek 27: | Řádek 28: | ||
Numerické znaky se tokenizují dohromady: | Numerické znaky se tokenizují dohromady: | ||
- | * v každém řetězci, který začíná alfabetickým znakem (//m2//, //cm3//, //TOP09//, //H2SO4//) | + | * v každém řetězci, který |
- | * v adjektivech a násobných | + | |
- | * ve vybraných frekventovaných | + | * v **adjektivech a číslovkových |
+ | |||
+ | * ve vybraných | ||
Ostatní případy jsou tokenizovány rozděleně (//6 W//, //40 km//, //1 h//) | Ostatní případy jsou tokenizovány rozděleně (//6 W//, //40 km//, //1 h//) | ||
Řádek 37: | Řádek 40: | ||
Řady interpunkčních znaků se tokenizují dohromady: | Řady interpunkčních znaků se tokenizují dohromady: | ||
- | * tvoří-li skupiny teček, trojteček (včetně kombinací teček a trojteček), | + | * tvoří-li |
- | * v těchto vybraných emotikonech: | + | |
+ | * v těchto vybraných | ||
==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ==== | ==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ==== | ||
- | Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy: | + | Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy: |
\\ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||