Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:syn2020:tokenizace [2020/12/21 15:03] – [Numerické znaky (0123456789)] jankrivan | cnk:syn2020:tokenizace [2021/03/12 16:53] (aktuální) – [Skupiny interpunkčních znaků] jankrivan | ||
---|---|---|---|
Řádek 30: | Řádek 30: | ||
* v každém řetězci, který **začíná alfabetickým znakem** (//m2//, //cm3//, //TOP09//, // | * v každém řetězci, který **začíná alfabetickým znakem** (//m2//, //cm3//, //TOP09//, // | ||
- | * v **adjektivech a násobných | + | * v **adjektivech a číslovkových |
* ve vybraných **frekventovaných zkratkách** začínajících číslicí (//3D//, //5G//) \\ Seznam těchto slov je uveden na zvláštní stránce v sekci [[cnk: | * ve vybraných **frekventovaných zkratkách** začínajících číslicí (//3D//, //5G//) \\ Seznam těchto slov je uveden na zvláštní stránce v sekci [[cnk: | ||
Řádek 40: | Řádek 40: | ||
Řady interpunkčních znaků se tokenizují dohromady: | Řady interpunkčních znaků se tokenizují dohromady: | ||
- | * tvoří-li **skupiny** teček, trojteček (včetně kombinací teček a trojteček), | + | * tvoří-li **skupiny** teček, trojteček (včetně kombinací teček a trojteček), |
* v těchto vybraných **emotikonech**: | * v těchto vybraných **emotikonech**: | ||
Řádek 46: | Řádek 46: | ||
==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ==== | ==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ==== | ||
- | Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy: | + | Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy: |
\\ | \\ | ||
%%%% >> [[cnk: | %%%% >> [[cnk: | ||