AplikaceAplikace
Nastavení

This is an old revision of the document!


Overview of text classification in SYN2015

Texts in the SYN2015 corpus are divided into three main groups (txtype_group):

  1. FIC: fiction
  2. NFC: non-fiction
  3. NMG: newspapers and magazines

Each of these groups makes up one third of all texts in the corpus.

1. Fiction

Changes with regard to the previous SYN series classification:

  • The fiction (FIC) category is further divided on the txtype level into novels and novellas (NOV), short story collections (COL), poetry (VER), drama and screenplays (SCR), and finally the category other (X), which cannot be placed in any of the above mentioned groups. For fiction, we have removed the explicit classification on the genre level, because fiction texts often tend to be either mixed genre or with no single defined genre; however, when selecting texts for the corpus, we did take into account an operative genre classification (e.g. detective novel, thriller/horror, sci-fi, fantasy, humour/satire etc.), in order to ensure that the selection of texts would be as varied as possible.

The new division of fiction (FIC) on the txtype level is:

  1. NOV: prose – novels and novellas
  2. COL: shorter prose – collections of short stories and other shorter prose texts (e.g. essays, blog entries etc.)
  3. VER: poetry – collections of poetry, marginally song lyrics
  4. SCR: drama - theatre plays, marginally also screenplays for film
  5. X: unclassified – works which cannot be clearly assigned to one of the above mentioned categories (e.g. mixed genre texts, collections of aphorisms, anecdotes, etc.)

2. Non-fiction

The most significant changes compared to the previous SYN series classification:

  • Non-fiction (previously scientific) literature (NFC) reflects a certain level of „proficiency“ and specialization of the target audience, and consists of three main types (txtype): scientific (SCI), professional (PRO) and popular (POP) literature. This macrogroup should be understood as the opposite of fiction and journalistic texts: for this reason, it also contains administrative texts (ADM) in the broadest sense as well as a group of texts that are on the borderline between fiction and non-fiction, most typically memoirs and autobiographies (MEM). By changing the name of this group from scientific to the more general non-fiction we hope to achieve a more accurate representation of its heterogeneous contents, while the term scientific is now assigned only to academic texts (SCI). The newly defined category of professional literature (PRO) includes texts which are characterized by large quantities of practical information primarily intended for professionals in a given field.
  • Non-fiction literature newly contains an additional level for the SCI, PRO and POP txtype – genre_group, which was created by grouping together individual disciplines or fields into larger categories and makes it possible to analyze texts from similar or related fields together: humanities (HUM), social sciences (SSC), natural sciences (NAT) and technical sciences (FTS).
  • On the genre level, which contains the most detailed classification and reflects each specific field or discipline, the individual texts were classified in a way that would most accurately correspond with the subject categorization used by the National Library of the Czech Republic. The fields are featured in detail in the table below.

Non-fiction literature (NFC) on the txtype level is newly divided into:

  1. SCI: scientific literature – scientific texts, including academic publications and university textbooks
  2. PRO: professional literature – texts intended for professionals in a given field, including specialized periodicals (e.g. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce)
  3. POP: popular literature – texts intended for a lay audience with an interest in the field (e.g. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař)
  4. ADM: administrative texts – rules and regulations, meeting minutes, instructions and guidelines, annual reports, etc.
  5. MEM: memoirs, (auto)biographies – memoirs, (auto)biographies (with the exception of fictionalized autobiographies, which are included in the fiction category), written correspondence (e.g. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život)

Genre_group

The NFC category contains a new layer of classification, genre_group, which is relevant for texts in the SCI, PRO and POP categories. It was created by grouping together the individual fields (labelled genre in the CNC) into larger groups: humanities (HUM), social sciences (SSC), natural sciences (NAT) and formal and technical sciences (FTS), please refer to the table below.

On the genre level, in other words the most detailed level of text classification, the individual texts (with very few exceptions) were classified in compliance with the subject-based categorization which is used in the National Library of the Czech Republic. Ambiguous cases were resolved through the consensus of several classifiers. The fields are shown in detail in the table below.

HUM: humanities SSC: social sciences NAT: natural sciences FTS: formal and technical sciences ITD: interdisciplinary
ANT: anthropology, etnography
THE: theatre, film, dance
PHI: philosophy, religion
HIS: history
LAN: philology
INF: library and information science
ART: art, architecture
ECO: economy, business, logistics
POL: politics, military
LAW: law
PSY: psychology
SOC: sociology
REC: sports, recreation, hobbies
EDU: education
BIO: biology
PHY: physics
GEO: geography, geology
CHE: chemistry
MED: medicine
AGR: agriculture
MAT: mathematics
TEC: technology
ICT: information technology
ITD: interdisciplinary

3. Publicistika

Nejvýznamnější změny oproti předchozím korpusům řady SYN:

  • Původně monolitická publicistika (NMG) se nově dělí na úrovni txtype na publicistiku tradiční (NEW) a volnočasovou (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni genre dělí na celostátní (NTW) a regionální (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni genre rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX).
  • Kde to bylo možné, jsou významné publicistické tituly vydané po roce 2010 nově podrobněji členěny (na úrovni článků) do tematických rubrik (atribut text.section): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana.
Podíl kategorií LEI a NEW v jednotlivých letech.

Publicistika (NMG) se na úrovni txtype nově dělí na:

  1. NEW: tradiční publicistiku (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě)
  2. LEI: volnočasovou publicistiku (především zájmové časopisy)

Tradiční publicistika (NEW)

Tradiční publicistika (NEW) se dělí na úrovni genre na:

  • NTW: celostátní (např. Lidové noviny, Hospodářské noviny, Mladá fronta DNES, Právo, Respekt, Reflex)
  • REG: regionální (např. Chrudimský zpravodaj, Kopřivnické noviny, Týnecké listy)

Volnočasová publicistika (LEI)

Volnočasová publicistika (LEI) se na úrovni genre dělí tematicky na:

  • HOU: bydlení, zahrada, hobby (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada)
  • LIF: životní styl (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta)
  • SCT: společenský život (např. Blesk, Aha!, Story, Rytmus života)
  • SPO: sport (např. Sport, Nedělní sport, Sport magazín, Sport GÓÓÓL!)
  • INT: zajímavosti ze světa (např. 100+1 zahraniční zajímavost, ABC, Lidé a země, Geo, National Geographic Česko)
  • MIX: společnost (např. Instinkt, Kraus, Květy, IN Magazín, Magazín Práva, Pátek Lidových novin)
Zastoupení hlavních titulů v rámci publicistiky.

Rubriky

U vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu section, která charakterizuje strukturu <text> a může nabývat těchto hodnot:

  • zpravodajství
  • zahraniční zpravodajství
  • domácí zpravodajství
  • regionální zpravodajství
  • politika
  • ekonomika
  • sport
  • kultura
  • volný čas
  • komentáře
  • krimi
  • společenský život
  • titulní strana

Souhrnná klasifikace

Tabulka shrnuje klasifikaci textu do skupin podle atributů txtype_group, txtype, genre_group a genre.

txtype_group txtype genre_group genre
FIC: fiction NOV: novels X: other X: other
COL: short stories
VER: poetry
SCR: drama, screenplays
X: other
NFC: non-fiction literature SCI: scientific literature
PRO: professional literature
POP: popular literature
HUM: humanities ANT: anthropology, etnography
THE: theatre, film, dance
PHI: philosophy, religion
HIS: history, biography
MUS: music
LAN: philology
INF: library and information science
ART: art, architecture
SSC: social sciences ECO: economy, business, logistics
POL: politics, military
LAW: law
PSY: psychology
SOC: sociology
REC: sports, recreation, hobbies
EDU: education
NAT: natural sciences BIO: biology
PHY: physics
GEO: geography, geology
CHE: chemistry
MED: medicine
AGR: agriculture
FTS: formal and technical sciences MAT: mathematics
TEC: technology
ICT: information technology
ITD : interdisciplinary ITD: interdisciplinary
MEM: memoirs, autobiographies MEM: memoirs, autobiographies MEM: memoirs, autobiographies
ADM: administrative ADM: administrative ADM: administrative
NMG: newspapers and magazines NEW: traditional journalistic texts X: other NTW: nationwide newspapers
REG: regional newspapers
LEI: leisure magazines X: other HOU: home, garden, hobbies
LIF: lifestyle
SCT: social life
SPO: sports
INT: curiosities
MIX: society

Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut médium, nabývající jednu z následujících hodnot:

  • B: kniha
  • J: časopis
  • NWS: noviny
  • OTH: jiná tiskovina
  • REF: referenční příručka
  • TXB: učební materiál
Podíl periodik a neperiodik v SYN2015.

Dále vznikla i zcela nová kategorie udávající periodicitu daného titulu, která nabývá těchto hodnot:

  • BI: nižší než měsíčník
  • DA: deník
  • MO: měsíčník
  • NP: neperiodická publikace
  • WE: týdeník, čtrnáctideník

V atributu audience je uvedena informace o věku předpokládaného čtenáře textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN).

Nově lze také u každého textu dohledat pohlaví autora (authsex), případně překladatele (transsex): žena (F), muž (M), neuvedeno (X).

Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (title), autor (author), překladatel (translator), rok vydání (pubyear), rok prvního vydání (first_published), zdrojový jazyk (srclang) a další charakteristiky.

Podíly jednotlivých typů textů

Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie txtype_group, txtype a genre_group. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.

txtype genre / genre_group kategorie proporce
Beletrie (FIC) 33,33 %
NOV próza 26 %
COL kratší próza 5 %
VER poezie 1 %
SCR drama 1 %
X ostatní beletrie 0,33 %
Oborová literatura (NFC) 33,33 %
SCI/PRO/POP HUM humanitní vědy 7 %
SSC sociální vědy 7 %
NAT přírodní vědy 7 %
FTS formální a technické vědy 7 %
ITD interdisciplinární 1 %
MEM memoáry, autobiografie 4 %
ADM administrativní texty 0,33 %
Publicistika (NMG) 33,33 %
NEW NTW celostátní publicistika – konkrétní tituly (MF, LN, HN, Právo) 10 %
NTW celostátní publicistika – ostatní 5 %
REG regionální publicistika 5 %
LEI volnočasová publicistika 13,33 %

Václav Cvrček, Michal Křen, Anna Čermáková, Lucie Chlumská, Michal Škrabal, Dominika Kováříková