Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:syn2020:tokenizace [2020/11/16 10:41] – jankrivan
+++ cnk:syn2020:tokenizace [2021/03/12 16:53] (aktuální) – [Skupiny interpunkčních znaků] jankrivan
@@ Řádek 10: / Řádek 10: @@
 Spojovníky (příp. pomlčky na jejich místě) se tokenizují dohromady s okolním textem:
-  * ve složených adjektivech a adverbiích (//červeno-bílý//, //česko-anglicky//),
+  * ve **složených adjektivech a adverbiích** (//červeno-bílý//, //česko-anglicky//)
-  * ve frekventovaných slovech (//e-mail, on-line//) včetně vlastních jmen (//Wu-chan//, //Coca-Cola//) a v proměnných (//n-tý//). >> [[seznamy]]
+  * ve **frekventovaných slovech** (//e-mail, on-line//) včetně vlastních jmen (//Wu-chan//, //Coca-Cola//) a proměnných (//n-tý//). \\ Seznamy těchto slov jsou uvedeny na zvláštní stránce //Seznamy slov tokenizovaných dohromady// v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#slova_se_spojovnikem|Slova se spojovníkem]].
 Ostatní případy psaní spojovníku jsou tokenizovány zvlášť (//Rakousko - Uhersko//, //Jean - Philippe//, //Kvitová - Muchová//, //ne - člověk//).
@@ Řádek 17: / Řádek 18: @@
 ==== Apostrofy (' ’ ‘ ’ ' ´ ‛) ====
-Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují mezi alfabetickými znaky (//rock’n’roll//, //Lao’c//, //McDonald’s//), na jejich hranici se naopak oddělují (//moh ’//).
+Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují **mezi alfabetickými znaky** (//rock’n’roll//, //Lao’c//, //McDonald’s//), na jejich hranici se naopak oddělují (//moh ’//).
 ==== Hvězdičky (*) ====
-Hvězdičky se tokenizují dohromady v řadě alfabetických znaků, která je potenciálním tabuovým slovem (//nas*anej//, //f%%***%%ing//).
+Hvězdičky se tokenizují dohromady **v řadě alfabetických znaků**, která je potenciálním tabuovým slovem (//nas*anej//, //f%%***%%ing//).
 ==== Numerické znaky (0123456789) ====
@@ Řádek 27: / Řádek 28: @@
 Numerické znaky se tokenizují dohromady:
-  * v každém řetězci, který začíná alfabetickým znakem (//m2//, //cm3//, //TOP09//, //H2SO4//)
+  * v každém řetězci, který **začíná alfabetickým znakem** (//m2//, //cm3//, //TOP09//, //H2SO4//)
-  * v adjektivech a násobných výrazech začínajících číslicí (//54letý//, //8hodinový//, //5násobný//, //8krát//, //12násobek//, //10násobně//) >> [[seznamy]]
-  * ve vybraných frekventovaných slovech začínajících číslicí (//3D//, //5G//) >> [[seznamy]]
+  * v **adjektivech a číslovkových výrazech** začínajících číslicí (//54letý//, //8hodinový//, //5násobný//, //8krát//, //12násobek//, //10násobně//) \\ Seznam těchto výrazů je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#slozeniny_obsahujici_cislovku_a_odvozeniny_od_cislovek|Složeniny obsahující číslovku a odvozeniny od číslovek]].
+  * ve vybraných **frekventovaných zkratkách** začínajících číslicí (//3D//, //5G//) \\ Seznam těchto slov je uveden na zvláštní stránce v sekci [[cnk:syn2020:seznamy:tokenizace_dohromady#konvencializovane_zkratky|Konvencializované zkratky]].
 Ostatní případy jsou tokenizovány rozděleně (//6 W//, //40 km//, //1 h//)
@@ Řádek 37: / Řádek 40: @@
 Řady interpunkčních znaků se tokenizují dohromady:
-  * tvoří-li skupiny teček, trojteček (včetně kombinací teček a trojteček), vykřičníků, otazníků (včetně kombinací vykřičníků a otazníků), spojovníků, hvězdiček
+  * tvoří-li **skupiny** teček, trojteček (včetně kombinací teček a trojteček), vykřičníků, otazníků (včetně kombinací vykřičníků a otazníků), hvězdiček
-  * v těchto vybraných emotikonech: //%%:-) :-( :) ;-) :-D%%//
+  * v těchto vybraných **emotikonech**: //%%:-) :-( :) ;-) :-D%%//
 ==== Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť ====
-Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy:tag|tagu]] zvláštní hodnota **0**. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly původně psány dohromady (//Rakousko - Uhersko//, //bude - li//).
+Oproti minulosti se tak zvlášť tokenizují i **tečky**, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: //nám .//), iniciálami (2 tokeny: //J .//) nebo číslicemi (2 tokeny: //12 .//). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v [[pojmy:tag|tagu]] zvláštní hodnota **0**. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (//16 : 30//), vykřičníky, které jsou součástí názvu (//Aha !//), a všechny spojovníky, které byly ve zdrojovém textu psány dohromady (//Rakousko - Uhersko//, //bude - li//).
 \\
 %%%% >> [[cnk:syn2020|Zpět na hlavní stránku Korpus SYN2020]]

Historie:

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence