AplikaceAplikace
Nastavení

Přehled klasifikace textů v SYN2015

Texty v korpusu SYN2015 jsou rozděleny do tří hlavních skupin (txtype_group):

  1. FIC: beletrie
  2. NFC: oborová literatura
  3. NMG: publicistika

Každá z těchto skupin tvoří v korpusu jednu třetinu textů.

1. Beletrie

Změny oproti předchozí klasifikaci v řadě SYN:

  • Skupina beletrie (FIC) je na úrovni txtype dále členěna na romány a novely (NOV), povídkové soubory (COL), básně (VER), dramata (SCR) a zbylé texty (X), jež nelze zařadit k žádné z výše jmenovaných skupin. V beletrii byla zrušena explicitní klasifikace na úrovni genre, neboť beletristické texty bývají často žánrově nevyhraněné či smíšené; při výběru konkrétních textů do korpusu jsme nicméně přihlíželi k pracovnímu rozdělení textů (např. detektivka, thriller/horror, sci-fi, fantasy, humor/satira atd.), aby byla nabídka beletrie co možná nejpestřejší.

Beletrie (FIC) se na úrovni txtype nově člení na:

  1. NOV: próza – romány a novely
  2. COL: kratší próza – soubory povídek a jiných krátkých prozaických útvarů
  3. VER: poezie – básnické sbírky, okrajově písňové texty
  4. SCR: drama - divadelní hry, okrajově filmové scénáře
  5. X: neuvedeno – díla, jež nelze jednoznačně přiřadit k výše zmíněným kategoriím (např. žánrově smíšená díla, sbírky aforismů, anekdot apod.)

2. Oborová literatura

Nejvýznamnější změny oproti předchozí klasifikaci řady SYN:

  • Oborová (původně odborná) literatura (NFC) reflektuje míru „odbornosti“ a specializace na úrovni cílového čtenáře a zahrnuje tři hlavní typy (txtype): literaturu odbornou (SCI), profesní (PRO) a populárně naučnou (POP). Tuto makroskupinu je však třeba chápat také jako protipól beletrie a publicistiky: patří sem proto i texty administrativního rázu (ADM) v nejširším smyslu a skupina textů tzv. přechodového pásma mezi beletrií a odbornou literaturou (MEM), jejichž typickými představiteli jsou memoáry a autobiografie. Přejmenování této skupiny z odborné na obecnější oborovou by proto mělo přesněji odrážet její heterogenní složení, přičemž termín odborná zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru.
  • V oborové literatuře nově přibyla pro txtype SCI, PRO a POP další úroveň – genre_group, která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS).
  • Na úrovni genre, která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Obory jsou podrobně uvedeny dále v přehledové tabulce.

Oborová literatura (NFC) se na úrovni txtype nově dělí na:

  1. SCI: odbornou literaturu – vědecko-naučné texty, včetně akademických publikací a vysokoškolských skript
  2. PRO: profesní literaturu – texty určené profesionálům v oboru, včetně specializovaných časopisů (např. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce)
  3. POP: populárně naučnou literaturu – texty určené pro nejširší laickou veřejnost se zájmem o daný obor (např. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař)
  4. ADM: administrativu – provozní řády, zápisy z jednání, pokyny a návody, výroční zprávy apod.
  5. MEM: memoáry, (auto)biografie – paměti, (auto)biografie (s výjimkou beletrizovaných autobiografií, které jsou řazeny do beletrie), korespondence (např. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život)

Genre_group

Skupina NFC obsahuje další novou klasifikační úroveň genre_group, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem genre) do větších skupin: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže.

Na úrovni genre, tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce.

HUM: humanitní vědy SSC: sociální vědy NAT: přírodní vědy FTS: formální a technické vědy ITD: interdisciplinární
ANT: antropologie, etnografie
THE: divadlo, film, tanec
PHI: filozofie, náboženství
HIS: historie
LAN: filologie
INF: knihovnictví, informatika
ART: umění, architektura
ECO: ekonomika, obchod, logistika
POL: politika, vojenství
LAW: právo
PSY: psychologie
SOC: sociologie
REC: sport, rekreace, hobby
EDU: pedagogika
BIO: biologie
PHY: fyzika
GEO: geografie, geologie
CHE: chemie
MED: lékařství
AGR: zemědělství, chovatelství
MAT: matematika
TEC: technika
ICT: výpočetní technika
ITD: interdisciplinární

3. Publicistika

Nejvýznamnější změny oproti předchozím korpusům řady SYN:

  • Původně monolitická publicistika (NMG) se nově dělí na úrovni txtype na publicistiku tradiční (NEW) a volnočasovou (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni genre dělí na celostátní (NTW) a regionální (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni genre rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX).
  • Kde to bylo možné, jsou významné publicistické tituly vydané po roce 2010 nově podrobněji členěny (na úrovni článků) do tematických rubrik (atribut text.section): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana.
Podíl kategorií LEI a NEW v jednotlivých letech.

Publicistika (NMG) se na úrovni txtype nově dělí na:

  1. NEW: tradiční publicistiku (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě)
  2. LEI: volnočasovou publicistiku (především zájmové časopisy)

Tradiční publicistika (NEW)

Tradiční publicistika (NEW) se dělí na úrovni genre na:

  • NTW: celostátní (např. Lidové noviny, Hospodářské noviny, Mladá fronta DNES, Právo, Respekt, Reflex)
  • REG: regionální (např. Chrudimský zpravodaj, Kopřivnické noviny, Týnecké listy)

Volnočasová publicistika (LEI)

Volnočasová publicistika (LEI) se na úrovni genre dělí tematicky na:

  • HOU: bydlení, zahrada, hobby (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada)
  • LIF: životní styl (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta)
  • SCT: společenský život (např. Blesk, Aha!, Story, Rytmus života)
  • SPO: sport (např. Sport, Nedělní sport, Sport magazín, Sport GÓÓÓL!)
  • INT: zajímavosti ze světa (např. 100+1 zahraniční zajímavost, ABC, Lidé a země, Geo, National Geographic Česko)
  • MIX: společnost (např. Instinkt, Kraus, Květy, IN Magazín, Magazín Práva, Pátek Lidových novin)
Zastoupení hlavních titulů v rámci publicistiky.

Rubriky

U vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu section, která charakterizuje strukturu <text> a může nabývat těchto hodnot:

  • zpravodajství
  • zahraniční zpravodajství
  • domácí zpravodajství
  • regionální zpravodajství
  • politika
  • ekonomika
  • sport
  • kultura
  • volný čas
  • komentáře
  • krimi
  • společenský život
  • titulní strana

Souhrnná klasifikace

Tabulka shrnuje klasifikaci textu do skupin podle atributů txtype_group, txtype, genre_group a genre.

txtype_group txtype genre_group genre
FIC: beletrie NOV: próza X: neuvedeno X: neuvedeno
COL: kratší próza
VER: poezie
SCR: drama
X: neuvedeno
NFC: oborová literatura SCI: odborná literatura
PRO: profesní literatura
POP: populárně naučná literatura
HUM: humanitní vědy ANT: antropologie, etnografie
THE: divadlo, film, tanec
PHI: filozofie, náboženství
HIS: historie, biografie
MUS: hudba
LAN: filologie
INF: knihovnictví, informatika
ART: umění, architektura
SSC: sociální vědy ECO: ekonomika, obchod, logistika
POL: politika, vojenství
LAW: právo
PSY: psychologie
SOC: sociologie
REC: sport, rekreace, hobby
EDU: pedagogika
NAT: přírodní vědy BIO: biologie
PHY: fyzika
GEO: geografie, geologie
CHE: chemie
MED: lékařství
AGR: zemědělství, chovatelství
FTS: formální a technické vědy MAT: matematika
TEC: technika
ICT: výpočetní technika
ITD : interdisciplinární ITD: interdisciplinární
MEM: memoáry, autobiografie MEM: memoáry, autobiografie MEM: memoáry, autobiografie
ADM: administrativa ADM: administrativa ADM: administrativa
NMG: publicistika NEW: tradiční publicistika X: neuvedeno NTW: celostátní tisk
REG: regionální tisk
LEI: volnočasová publicistika X: neuvedeno HOU: bydlení, zahrada, hobby
LIF: životní styl
SCT: společenský život
SPO: sport
INT: zajímavosti ze světa
MIX: společnost

Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut médium, nabývající jednu z následujících hodnot:

  • B: kniha
  • J: časopis
  • NWS: noviny
  • OTH: jiná tiskovina
  • REF: referenční příručka
  • TXB: učební materiál
Podíl periodik a neperiodik v SYN2015.

Dále vznikla i zcela nová kategorie udávající periodicitu daného titulu, která nabývá těchto hodnot:

  • BI: nižší než měsíčník
  • DA: deník
  • MO: měsíčník
  • NP: neperiodická publikace
  • WE: týdeník, čtrnáctideník

V atributu audience je uvedena informace o věku předpokládaného čtenáře textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN).

Nově lze také u každého textu dohledat pohlaví autora (authsex), případně překladatele (transsex): žena (F), muž (M), neuvedeno (X).

Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (title), autor (author), překladatel (translator), rok vydání (pubyear), rok prvního vydání (first_published), zdrojový jazyk (srclang) a další charakteristiky.

Podíly jednotlivých typů textů

Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie txtype_group, txtype a genre_group. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.

txtype genre / genre_group kategorie proporce
Beletrie (FIC) 33,33 %
NOV próza 26 %
COL kratší próza 5 %
VER poezie 1 %
SCR drama 1 %
X ostatní beletrie 0,33 %
Oborová literatura (NFC) 33,33 %
SCI/PRO/POP HUM humanitní vědy 7 %
SSC sociální vědy 7 %
NAT přírodní vědy 7 %
FTS formální a technické vědy 7 %
ITD interdisciplinární 1 %
MEM memoáry, autobiografie 4 %
ADM administrativní texty 0,33 %
Publicistika (NMG) 33,33 %
NEW NTW celostátní publicistika – konkrétní tituly (MF, LN, HN, Právo) 10 %
NTW celostátní publicistika – ostatní 5 %
REG regionální publicistika 5 %
LEI volnočasová publicistika 13,33 %

Václav Cvrček, Michal Křen, Anna Čermáková, Lucie Chlumská, Michal Škrabal, Dominika Kováříková