AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Korpus SYN2020: Tokenizace

Tokenizace numerických a interpunkčních znaků

Numerické a interpunkční znaky jsou systematicky oddělovány jako samostatné tokeny, pohromadě však zůstávají některé kombinace znaků podle předem vymezených pravidel a seznamů slov:

Spojovníky (- – — −)

Spojovníky (příp. pomlčky na jejich místě) se tokenizují dohromady s okolním textem:

  • ve složených adjektivech a adverbiích (červeno-bílý, česko-anglicky),
  • ve frekventovaných slovech (e-mail, on-line) včetně vlastních jmen (Wu-chan, Coca-Cola) a v proměnných (n-tý). » seznamy

Ostatní případy psaní spojovníku jsou tokenizovány zvlášť (Rakousko - Uhersko, Jean - Philippe, Kvitová - Muchová, ne - člověk).

Apostrofy (' ’ ‘ ’ ' ´ ‛)

Apostrofy (v libovolném způsobu záznamu) se tokenizují dohromady, pokud se vyskytují mezi alfabetickými znaky (rock’n’roll, Lao’c, McDonald’s), na jejich hranici se naopak oddělují (moh ’).

Hvězdičky (*)

Hvězdičky se tokenizují dohromady v řadě alfabetických znaků, která je potenciálním tabuovým slovem (nas*anej, f***ing).

Numerické znaky (0123456789)

Numerické znaky se tokenizují dohromady:

  • v každém řetězci, který začíná alfabetickým znakem (m2, cm3, TOP09, H2SO4)
  • v adjektivech a násobných výrazech začínajících číslicí (54letý, 8hodinový, 5násobný, 8krát, 12násobek, 10násobně) » seznamy
  • ve vybraných frekventovaných slovech začínajících číslicí (3D, 5G) » seznamy

Ostatní případy jsou tokenizovány rozděleně (6 W, 40 km, 1 h)

Skupiny interpunkčních znaků

Skupiny interpunkčních znaků se tokenizují dohromady v těchto případech:

  • skupiny teček, trojteček (včetně kombinací teček a trojteček), vykřičníků, otazníků (včetně kombinací vykřičníků a otazníků), spojovníků, hvězdiček
  • vybrané emotikony: :-) :) :-(

Ve všech ostatních kombinacích se numerické a interpunkční znaky tokenizují zvlášť

Oproti minulosti se tak zvlášť tokenizují i tečky, které se nevyskytují na konci věty, tj. tečky za zkratkami (2 tokeny: nám .), iniciálami (2 tokeny: J .) nebo číslicemi (2 tokeny: 12 .). Pro identifikaci tohoto typu teček byla vytvořena na druhé pozici v tagu zvláštní hodnota 0. Tuto hodnotu 0 mají v tagu také dvojtečky mezi číslicemi (16 : 30), vykřičníky, které jsou součástí názvu (Aha !), a všechny spojovníky, které byly původně psány dohromady (Rakousko – Uhersko, bude – li).