AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:syn2020:tokenizace [2020/12/21 15:02] jankrivancnk:syn2020:tokenizace [2021/03/12 16:53] (aktuální) – [Skupiny interpunkčních znaků] jankrivan
Řádek 30: Řádek 30:
   * v každém řetězci, který **začíná alfabetickým znakem** (//m2//, //cm3//, //TOP09//, //H2SO4//   * v každém řetězci, který **začíná alfabetickým znakem** (//m2//, //cm3//, //TOP09//, //H2SO4//
  
-  * v **adjektivech a násobných výrazech začínajících číslicí** (//54letý//, //8hodinový//, //5násobný//, //8krát//, //12násobek//, //10násobně//) \\ Seznam těchto výrazů je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#slozeniny_obsahujici_cislovku_a_odvozeniny_od_cislovek|Složeniny obsahující číslovku a odvozeniny od číslovek]]. +  * v **adjektivech a číslovkových výrazech** začínajících číslicí (//54letý//, //8hodinový//, //5násobný//, //8krát//, //12násobek//, //10násobně//) \\ Seznam těchto výrazů je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#slozeniny_obsahujici_cislovku_a_odvozeniny_od_cislovek|Složeniny obsahující číslovku a odvozeniny od číslovek]]. 
  
   * ve vybraných **frekventovaných zkratkách** začínajících číslicí (//3D//, //5G//) \\ Seznam těchto slov je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#konvencializovane_zkratky|Konvencializované zkratky]].   * ve vybraných **frekventovaných zkratkách** začínajících číslicí (//3D//, //5G//) \\ Seznam těchto slov je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#konvencializovane_zkratky|Konvencializované zkratky]].
Řádek 40: Řádek 40:
 Řady interpunkčních znaků se tokenizují dohromady:  Řady interpunkčních znaků se tokenizují dohromady: 
  
-  * tvoří-li **skupiny** teček, trojteček (včetně kombinací teček a trojteček), vykřičníků, otazníků (včetně kombinací vykřičníků a otazníků), spojovníků, hvězdiček +  * tvoří-li **skupiny** teček, trojteček (včetně kombinací teček a trojteček), vykřičníků, otazníků (včetně kombinací vykřičníků a otazníků), hvězdiček 
  
   * v těchto vybraných **emotikonech**: //%%:-) :-( :) ;-) :-D%%//   * v těchto vybraných **emotikonech**: //%%:-) :-( :) ;-) :-D%%//
Řádek 46: Řádek 46:
 ==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ==== ==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ====
  
-Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy:tag|tagu]] zvláštní hodnota **0**. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly původně psány dohromady (//Rakousko - Uhersko//, //bude - li//). +Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy:tag|tagu]] zvláštní hodnota **0**. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (//Rakousko - Uhersko//, //bude - li//). 
  
 \\ \\
 %%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]] %%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]]