This is an old revision of the document!
Table of Contents
Overview of text classification in SYN2015
Texts in the SYN2015 corpus are divided into three main groups (txtype_group):
- FIC: fiction
- NFC: non-fiction
- NMG: newspapers and magazines
Each of these groups makes up one third of all texts in the corpus.
1. Fiction
Changes with regard to the previous SYN series classification:
- The fiction (FIC) category is further divided on the
txtype
level into novels and novellas (NOV), short story collections (COL), poetry (VER), drama and screenplays (SCR), and finally the category other (X), which cannot be placed in any of the above mentioned groups. For fiction, we have removed the explicit classification on thegenre
level, because fiction texts often tend to be either mixed genre or with no single defined genre; however, when selecting texts for the corpus, we did take into account an operative genre classification (e.g. detective novel, thriller/horror, sci-fi, fantasy, humour/satire etc.), in order to ensure that the selection of texts would be as varied as possible.
The new division of fiction (FIC) on the txtype level is:
- NOV: prose – novels and novellas
- COL: shorter prose – collections of short stories and other shorter prose texts (e.g. essays, blog entries etc.)
- VER: poetry – collections of poetry, marginally song lyrics
- SCR: drama - theatre plays, marginally also screenplays for film
- X: unclassified – works which cannot be clearly assigned to one of the above mentioned categories (e.g. mixed genre texts, collections of aphorisms, anecdotes, etc.)
2. Non-fiction
The most significant changes compared to the previous SYN series classification:
- Non-fiction (previously scientific) literature (NFC) reflects a certain level of „proficiency“ and specialization of the target audience, and consists of three main types (
txtype
): scientific (SCI), professional (PRO) and popular (POP) literature. This macrogroup should be understood as the opposite of fiction and journalistic texts: for this reason, it also contains administrative texts (ADM) in the broadest sense as well as a group of texts that are on the borderline between fiction and non-fiction, most typically memoirs and autobiographies (MEM). By changing the name of this group from scientific to the more general non-fiction we hope to achieve a more accurate representation of its heterogeneous contents, přičemž termín odborná zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru. - V oborové literatuře nově přibyla pro txtype SCI, PRO a POP další úroveň –
genre_group
, která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS). - Na úrovni
genre
, která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Obory jsou podrobně uvedeny dále v přehledové tabulce.
Oborová literatura (NFC) se na úrovni txtype nově dělí na:
- SCI: odbornou literaturu – vědecko-naučné texty, včetně akademických publikací a vysokoškolských skript
- PRO: profesní literaturu – texty určené profesionálům v oboru, včetně specializovaných časopisů (např. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce)
- POP: populárně naučnou literaturu – texty určené pro nejširší laickou veřejnost se zájmem o daný obor (např. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař)
- ADM: administrativu – provozní řády, zápisy z jednání, pokyny a návody, výroční zprávy apod.
- MEM: memoáry, (auto)biografie – paměti, (auto)biografie (s výjimkou beletrizovaných autobiografií, které jsou řazeny do beletrie), korespondence (např. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život)
Genre_group
Skupina NFC obsahuje další novou klasifikační úroveň genre_group, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem genre) do větších skupin: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže.
Na úrovni genre
, tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce.
HUM: humanitní vědy | SSC: sociální vědy | NAT: přírodní vědy | FTS: formální a technické vědy | ITD: interdisciplinární |
---|---|---|---|---|
ANT: antropologie, etnografie THE: divadlo, film, tanec PHI: filozofie, náboženství HIS: historie LAN: filologie INF: knihovnictví, informatika ART: umění, architektura | ECO: ekonomika, obchod, logistika POL: politika, vojenství LAW: právo PSY: psychologie SOC: sociologie REC: sport, rekreace, hobby EDU: pedagogika | BIO: biologie PHY: fyzika GEO: geografie, geologie CHE: chemie MED: lékařství AGR: zemědělství, chovatelství | MAT: matematika TEC: technika ICT: výpočetní technika | ITD: interdisciplinární |
3. Publicistika
Nejvýznamnější změny oproti předchozím korpusům řady SYN:
- Původně monolitická publicistika (NMG) se nově dělí na úrovni
txtype
na publicistiku tradiční (NEW) a volnočasovou (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovnigenre
dělí na celostátní (NTW) a regionální (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovnigenre
rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX). - Kde to bylo možné, jsou významné publicistické tituly vydané po roce 2010 nově podrobněji členěny (na úrovni článků) do tematických rubrik (atribut
text.section
): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana.
Publicistika (NMG) se na úrovni txtype nově dělí na:
- NEW: tradiční publicistiku (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě)
- LEI: volnočasovou publicistiku (především zájmové časopisy)
Tradiční publicistika (NEW)
Tradiční publicistika (NEW) se dělí na úrovni genre na:
- NTW: celostátní (např. Lidové noviny, Hospodářské noviny, Mladá fronta DNES, Právo, Respekt, Reflex)
- REG: regionální (např. Chrudimský zpravodaj, Kopřivnické noviny, Týnecké listy)
Volnočasová publicistika (LEI)
Volnočasová publicistika (LEI) se na úrovni genre dělí tematicky na:
- HOU: bydlení, zahrada, hobby (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada)
- LIF: životní styl (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta)
- SCT: společenský život (např. Blesk, Aha!, Story, Rytmus života)
- SPO: sport (např. Sport, Nedělní sport, Sport magazín, Sport GÓÓÓL!)
- INT: zajímavosti ze světa (např. 100+1 zahraniční zajímavost, ABC, Lidé a země, Geo, National Geographic Česko)
- MIX: společnost (např. Instinkt, Kraus, Květy, IN Magazín, Magazín Práva, Pátek Lidových novin)
Rubriky
U vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu section, která charakterizuje strukturu <text>
a může nabývat těchto hodnot:
- zpravodajství
- zahraniční zpravodajství
- domácí zpravodajství
- regionální zpravodajství
- politika
- ekonomika
- sport
- kultura
- volný čas
- komentáře
- krimi
- společenský život
- titulní strana
Souhrnná klasifikace
Tabulka shrnuje klasifikaci textu do skupin podle atributů txtype_group
, txtype
, genre_group
a genre
.
txtype_group | txtype | genre_group | genre |
---|---|---|---|
FIC: beletrie | NOV: próza | X: neuvedeno | X: neuvedeno |
COL: kratší próza | |||
VER: poezie | |||
SCR: drama | |||
X: neuvedeno | |||
NFC: oborová literatura | SCI: odborná literatura PRO: profesní literatura POP: populárně naučná literatura | HUM: humanitní vědy | ANT: antropologie, etnografie |
THE: divadlo, film, tanec | |||
PHI: filozofie, náboženství | |||
HIS: historie, biografie | |||
MUS: hudba | |||
LAN: filologie | |||
INF: knihovnictví, informatika | |||
ART: umění, architektura | |||
SSC: sociální vědy | ECO: ekonomika, obchod, logistika | ||
POL: politika, vojenství | |||
LAW: právo | |||
PSY: psychologie | |||
SOC: sociologie | |||
REC: sport, rekreace, hobby | |||
EDU: pedagogika | |||
NAT: přírodní vědy | BIO: biologie | ||
PHY: fyzika | |||
GEO: geografie, geologie | |||
CHE: chemie | |||
MED: lékařství | |||
AGR: zemědělství, chovatelství | |||
FTS: formální a technické vědy | MAT: matematika | ||
TEC: technika | |||
ICT: výpočetní technika | |||
ITD : interdisciplinární | ITD: interdisciplinární | ||
MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | |
ADM: administrativa | ADM: administrativa | ADM: administrativa | |
NMG: publicistika | NEW: tradiční publicistika | X: neuvedeno | NTW: celostátní tisk |
REG: regionální tisk | |||
LEI: volnočasová publicistika | X: neuvedeno | HOU: bydlení, zahrada, hobby | |
LIF: životní styl | |||
SCT: společenský život | |||
SPO: sport | |||
INT: zajímavosti ze světa | |||
MIX: společnost |
Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut médium, nabývající jednu z následujících hodnot:
- B: kniha
- J: časopis
- NWS: noviny
- OTH: jiná tiskovina
- REF: referenční příručka
- TXB: učební materiál
Dále vznikla i zcela nová kategorie udávající periodicitu daného titulu, která nabývá těchto hodnot:
- BI: nižší než měsíčník
- DA: deník
- MO: měsíčník
- NP: neperiodická publikace
- WE: týdeník, čtrnáctideník
V atributu audience je uvedena informace o věku předpokládaného čtenáře textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN).
Nově lze také u každého textu dohledat pohlaví autora (authsex), případně překladatele (transsex): žena (F), muž (M), neuvedeno (X).
Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (title
), autor (author
), překladatel (translator
), rok vydání (pubyear
), rok prvního vydání (first_published
), zdrojový jazyk (srclang
) a další charakteristiky.
Podíly jednotlivých typů textů
Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie txtype_group
, txtype
a genre_group
. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.
txtype | genre / genre_group | kategorie | proporce |
---|---|---|---|
Beletrie (FIC) | 33,33 % | ||
NOV | próza | 26 % | |
COL | kratší próza | 5 % | |
VER | poezie | 1 % | |
SCR | drama | 1 % | |
X | ostatní beletrie | 0,33 % | |
Oborová literatura (NFC) | 33,33 % | ||
SCI/PRO/POP | HUM | humanitní vědy | 7 % |
SSC | sociální vědy | 7 % | |
NAT | přírodní vědy | 7 % | |
FTS | formální a technické vědy | 7 % | |
ITD | interdisciplinární | 1 % | |
MEM | memoáry, autobiografie | 4 % | |
ADM | administrativní texty | 0,33 % | |
Publicistika (NMG) | 33,33 % | ||
NEW | NTW | celostátní publicistika – konkrétní tituly (MF, LN, HN, Právo) | 10 % |
NTW | celostátní publicistika – ostatní | 5 % | |
REG | regionální publicistika | 5 % | |
LEI | volnočasová publicistika | 13,33 % |
— Václav Cvrček, Michal Křen, Anna Čermáková, Lucie Chlumská, Michal Škrabal, Dominika Kováříková