Texty v korpusu SYN2015 jsou rozděleny do tří hlavních skupin (txtype_group):
Každá z těchto skupin tvoří v korpusu jednu třetinu textů.
Změny oproti předchozí klasifikaci v řadě SYN:
txtype
dále členěna na romány a novely (NOV), povídkové soubory (COL), básně (VER), dramata (SCR) a zbylé texty (X), jež nelze zařadit k žádné z výše jmenovaných skupin. V beletrii byla zrušena explicitní klasifikace na úrovni genre
, neboť beletristické texty bývají často žánrově nevyhraněné či smíšené; při výběru konkrétních textů do korpusu jsme nicméně přihlíželi k pracovnímu rozdělení textů (např. detektivka, thriller/horror, sci-fi, fantasy, humor/satira atd.), aby byla nabídka beletrie co možná nejpestřejší.Beletrie (FIC) se na úrovni txtype nově člení na:
Nejvýznamnější změny oproti předchozí klasifikaci řady SYN:
txtype
): literaturu odbornou (SCI), profesní (PRO) a populárně naučnou (POP). Tuto makroskupinu je však třeba chápat také jako protipól beletrie a publicistiky: patří sem proto i texty administrativního rázu (ADM) v nejširším smyslu a skupina textů tzv. přechodového pásma mezi beletrií a odbornou literaturou (MEM), jejichž typickými představiteli jsou memoáry a autobiografie. Přejmenování této skupiny z odborné na obecnější oborovou by proto mělo přesněji odrážet její heterogenní složení, přičemž termín odborná zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru.genre_group
, která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS). genre
, která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Obory jsou podrobně uvedeny dále v přehledové tabulce.Oborová literatura (NFC) se na úrovni txtype nově dělí na:
Skupina NFC obsahuje další novou klasifikační úroveň genre_group, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem genre) do větších skupin: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže.
Na úrovni genre
, tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce.
HUM: humanitní vědy | SSC: sociální vědy | NAT: přírodní vědy | FTS: formální a technické vědy | ITD: interdisciplinární |
---|---|---|---|---|
ANT: antropologie, etnografie THE: divadlo, film, tanec PHI: filozofie, náboženství HIS: historie LAN: filologie INF: knihovnictví, informatika ART: umění, architektura | ECO: ekonomika, obchod, logistika POL: politika, vojenství LAW: právo PSY: psychologie SOC: sociologie REC: sport, rekreace, hobby EDU: pedagogika | BIO: biologie PHY: fyzika GEO: geografie, geologie CHE: chemie MED: lékařství AGR: zemědělství, chovatelství | MAT: matematika TEC: technika ICT: výpočetní technika | ITD: interdisciplinární |
Nejvýznamnější změny oproti předchozím korpusům řady SYN:
txtype
na publicistiku tradiční (NEW) a volnočasovou (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni genre
dělí na celostátní (NTW) a regionální (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni genre
rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX).text.section
): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana. Publicistika (NMG) se na úrovni txtype nově dělí na:
Tradiční publicistika (NEW) se dělí na úrovni genre na:
Volnočasová publicistika (LEI) se na úrovni genre dělí tematicky na:
U vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu section, která charakterizuje strukturu <text>
a může nabývat těchto hodnot:
Tabulka shrnuje klasifikaci textu do skupin podle atributů txtype_group
, txtype
, genre_group
a genre
.
txtype_group | txtype | genre_group | genre |
---|---|---|---|
FIC: beletrie | NOV: próza | X: neuvedeno | X: neuvedeno |
COL: kratší próza | |||
VER: poezie | |||
SCR: drama | |||
X: neuvedeno | |||
NFC: oborová literatura | SCI: odborná literatura PRO: profesní literatura POP: populárně naučná literatura | HUM: humanitní vědy | ANT: antropologie, etnografie |
THE: divadlo, film, tanec | |||
PHI: filozofie, náboženství | |||
HIS: historie, biografie | |||
MUS: hudba | |||
LAN: filologie | |||
INF: knihovnictví, informatika | |||
ART: umění, architektura | |||
SSC: sociální vědy | ECO: ekonomika, obchod, logistika | ||
POL: politika, vojenství | |||
LAW: právo | |||
PSY: psychologie | |||
SOC: sociologie | |||
REC: sport, rekreace, hobby | |||
EDU: pedagogika | |||
NAT: přírodní vědy | BIO: biologie | ||
PHY: fyzika | |||
GEO: geografie, geologie | |||
CHE: chemie | |||
MED: lékařství | |||
AGR: zemědělství, chovatelství | |||
FTS: formální a technické vědy | MAT: matematika | ||
TEC: technika | |||
ICT: výpočetní technika | |||
ITD : interdisciplinární | ITD: interdisciplinární | ||
MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | |
ADM: administrativa | ADM: administrativa | ADM: administrativa | |
NMG: publicistika | NEW: tradiční publicistika | X: neuvedeno | NTW: celostátní tisk |
REG: regionální tisk | |||
LEI: volnočasová publicistika | X: neuvedeno | HOU: bydlení, zahrada, hobby | |
LIF: životní styl | |||
SCT: společenský život | |||
SPO: sport | |||
INT: zajímavosti ze světa | |||
MIX: společnost |
Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut médium, nabývající jednu z následujících hodnot:
Dále vznikla i zcela nová kategorie udávající periodicitu daného titulu, která nabývá těchto hodnot:
V atributu audience je uvedena informace o věku předpokládaného čtenáře textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN).
Nově lze také u každého textu dohledat pohlaví autora (authsex), případně překladatele (transsex): žena (F), muž (M), neuvedeno (X).
Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (title
), autor (author
), překladatel (translator
), rok vydání (pubyear
), rok prvního vydání (first_published
), zdrojový jazyk (srclang
) a další charakteristiky.
Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie txtype_group
, txtype
a genre_group
. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.
txtype | genre / genre_group | kategorie | proporce |
---|---|---|---|
Beletrie (FIC) | 33,33 % | ||
NOV | próza | 26 % | |
COL | kratší próza | 5 % | |
VER | poezie | 1 % | |
SCR | drama | 1 % | |
X | ostatní beletrie | 0,33 % | |
Oborová literatura (NFC) | 33,33 % | ||
SCI/PRO/POP | HUM | humanitní vědy | 7 % |
SSC | sociální vědy | 7 % | |
NAT | přírodní vědy | 7 % | |
FTS | formální a technické vědy | 7 % | |
ITD | interdisciplinární | 1 % | |
MEM | memoáry, autobiografie | 4 % | |
ADM | administrativní texty | 0,33 % | |
Publicistika (NMG) | 33,33 % | ||
NEW | NTW | celostátní publicistika – konkrétní tituly (MF, LN, HN, Právo) | 10 % |
NTW | celostátní publicistika – ostatní | 5 % | |
REG | regionální publicistika | 5 % | |
LEI | volnočasová publicistika | 13,33 % |
— Václav Cvrček, Michal Křen, Anna Čermáková, Lucie Chlumská, Michal Škrabal, Dominika Kováříková