====== Přehled klasifikace textů v SYN2015 ====== Texty v korpusu [[cnk:syn2015|SYN2015]] jsou rozděleny do tří hlavních skupin ([[pojmy:txtype_group|txtype_group]]): - **FIC: beletrie** - **NFC: oborová literatura** - **NMG: publicistika** Každá z těchto skupin tvoří v korpusu jednu třetinu textů. ===== 1. Beletrie ===== Změny oproti předchozí klasifikaci v řadě SYN: * Skupina **beletrie** (FIC) je na úrovni ''txtype'' dále členěna na romány a novely (NOV), povídkové soubory (COL), básně (VER), dramata (SCR) a zbylé texty (X), jež nelze zařadit k žádné z výše jmenovaných skupin. V beletrii byla zrušena explicitní klasifikace na úrovni ''genre'', neboť beletristické texty bývají často žánrově nevyhraněné či smíšené; při výběru konkrétních textů do korpusu jsme nicméně přihlíželi k pracovnímu rozdělení textů (např. detektivka, thriller/horror, sci-fi, fantasy, humor/satira atd.), aby byla nabídka beletrie co možná nejpestřejší. Beletrie (FIC) se na úrovni [[pojmy:txtype|txtype]] nově člení na: - **NOV: próza** – romány a novely - **COL: kratší próza** – soubory povídek a jiných krátkých prozaických útvarů - **VER: poezie** – básnické sbírky, okrajově písňové texty - **SCR: drama** - divadelní hry, okrajově filmové scénáře - **X: neuvedeno** – díla, jež nelze jednoznačně přiřadit k výše zmíněným kategoriím (např. žánrově smíšená díla, sbírky aforismů, anekdot apod.) ===== 2. Oborová literatura ===== Nejvýznamnější změny oproti předchozí klasifikaci řady SYN: * **Oborová** (původně odborná) **literatura** (NFC) reflektuje míru „odbornosti“ a specializace na úrovni cílového čtenáře a zahrnuje tři hlavní typy (''txtype''): literaturu odbornou (SCI), profesní (PRO) a populárně naučnou (POP). Tuto makroskupinu je však třeba chápat také jako protipól beletrie a publicistiky: patří sem proto i texty administrativního rázu (ADM) v nejširším smyslu a skupina textů tzv. přechodového pásma mezi beletrií a odbornou literaturou (MEM), jejichž typickými představiteli jsou memoáry a autobiografie. Přejmenování této skupiny z //odborné// na obecnější //oborovou// by proto mělo přesněji odrážet její heterogenní složení, přičemž termín //odborná// zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru. * V oborové literatuře nově přibyla pro txtype SCI, PRO a POP další úroveň – ''genre_group'', která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS). * Na úrovni ''genre'', která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v [[http://text.nkp.cz/o-knihovne/odborne-cinnosti/zpracovani-fondu/vecne-zpracovani-vecne-autority/material-kon2|Národní knihovně ČR]]. Obory jsou podrobně uvedeny dále v přehledové tabulce. Oborová literatura (NFC) se na úrovni [[pojmy:txtype|txtype]] nově dělí na: - **SCI: odbornou literaturu** – vědecko-naučné texty, včetně akademických publikací a vysokoškolských skript - **PRO: profesní literaturu** – texty určené profesionálům v oboru, včetně specializovaných časopisů (např. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce) - **POP: populárně naučnou literaturu** – texty určené pro nejširší laickou veřejnost se zájmem o daný obor (např. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař) - **ADM: administrativu** – provozní řády, zápisy z jednání, pokyny a návody, výroční zprávy apod. - **MEM: memoáry, (auto)biografie** – paměti, (auto)biografie (s výjimkou beletrizovaných autobiografií, které jsou řazeny do beletrie), korespondence (např. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život) === Genre_group === Skupina NFC obsahuje další novou klasifikační úroveň **[[pojmy:genre_group|genre_group]]**, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem [[pojmy:genre|genre]]) do větších skupin: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže. Na úrovni ''genre'', tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce. ^ HUM: humanitní vědy ^ SSC: sociální vědy ^ NAT: přírodní vědy ^ FTS: formální a technické vědy ^ ITD: interdisciplinární ^ | ANT: antropologie, etnografie\\ THE: divadlo, film, tanec\\ PHI: filozofie, náboženství\\ HIS: historie\\ LAN: filologie\\ INF: knihovnictví, informatika\\ ART: umění, architektura | ECO: ekonomika, obchod, logistika\\ POL: politika, vojenství\\ LAW: právo\\ PSY: psychologie\\ SOC: sociologie\\ REC: sport, rekreace, hobby\\ EDU: pedagogika | BIO: biologie \\ PHY: fyzika\\ GEO: geografie, geologie\\ CHE: chemie\\ MED: lékařství\\ AGR: zemědělství, chovatelství | MAT: matematika\\ TEC: technika\\ ICT: výpočetní technika | ITD: interdisciplinární | ===== 3. Publicistika ===== Nejvýznamnější změny oproti předchozím korpusům řady SYN: * Původně monolitická **publicistika** (NMG) se nově dělí na úrovni ''txtype'' na publicistiku **tradiční** (NEW) a **volnočasovou** (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni ''genre'' dělí na **celostátní** (NTW) a **regionální** (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni ''genre'' rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX). * Kde to bylo možné, jsou významné publicistické tituly vydané po roce 2010 nově podrobněji členěny (na úrovni článků) do tematických **rubrik** (atribut ''[[seznamy:section|text.section]]''): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana. [{{ :cnk:syn2015-lei-new.png?direct&450|Podíl kategorií LEI a NEW v jednotlivých letech.}}] Publicistika (NMG) se na úrovni [[pojmy:txtype|txtype]] nově dělí na: - **NEW: tradiční publicistiku** (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě) - **LEI: volnočasovou publicistiku** (především zájmové časopisy) ==== Tradiční publicistika (NEW) ==== Tradiční publicistika (NEW) se dělí na úrovni [[pojmy:genre|genre]] na: * **NTW: celostátní** (např. Lidové noviny, Hospodářské noviny, Mladá fronta DNES, Právo, Respekt, Reflex) * **REG: regionální** (např. Chrudimský zpravodaj, Kopřivnické noviny, Týnecké listy) ==== Volnočasová publicistika (LEI) ==== Volnočasová publicistika (LEI) se na úrovni [[pojmy:genre|genre]] dělí tematicky na: * **HOU: bydlení, zahrada, hobby** (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada) * **LIF: životní styl** (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta) * **SCT: společenský život** (např. Blesk, Aha!, Story, Rytmus života) * **SPO: sport** (např. Sport, Nedělní sport, Sport magazín, Sport GÓÓÓL!) * **INT: zajímavosti ze světa** (např. 100+1 zahraniční zajímavost, ABC, Lidé a země, Geo, National Geographic Česko) * **MIX: společnost** (např. Instinkt, Kraus, Květy, IN Magazín, Magazín Práva, Pátek Lidových novin) [{{ :cnk:syn2015-nmg-tituly.png?direct&500|Zastoupení hlavních titulů v rámci publicistiky.}}] === Rubriky === U vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu [[seznamy:section|section]], která charakterizuje strukturu '''' a může nabývat těchto hodnot: * zpravodajství * zahraniční zpravodajství * domácí zpravodajství * regionální zpravodajství * politika * ekonomika * sport * kultura * volný čas * komentáře * krimi * společenský život * titulní strana ===== Souhrnná klasifikace ===== Tabulka shrnuje klasifikaci textu do skupin podle atributů ''txtype_group'', ''txtype'', ''genre_group'' a ''genre''. ^ txtype_group ^ txtype ^ genre_group ^ genre ^ | FIC: beletrie | NOV: próza | X: neuvedeno | X: neuvedeno | | ::: | COL: kratší próza | ::: | ::: | | ::: | VER: poezie | ::: | ::: | | ::: | SCR: drama | ::: | ::: | | ::: | X: neuvedeno | ::: | ::: | | NFC: oborová literatura | SCI: odborná literatura\\ PRO: profesní literatura\\ POP: populárně naučná literatura | HUM: humanitní vědy | ANT: antropologie, etnografie| | ::: | ::: | ::: | THE: divadlo, film, tanec | | ::: | ::: | ::: | PHI: filozofie, náboženství | | ::: | ::: | ::: | HIS: historie, biografie | | ::: | ::: | ::: | MUS: hudba | | ::: | ::: | ::: | LAN: filologie | | ::: | ::: | ::: | INF: knihovnictví, informatika | | ::: | ::: | ::: | ART: umění, architektura | | ::: | ::: | SSC: sociální vědy | ECO: ekonomika, obchod, logistika | | ::: | ::: | ::: | POL: politika, vojenství | | ::: | ::: | ::: | LAW: právo | | ::: | ::: | ::: | PSY: psychologie | | ::: | ::: | ::: | SOC: sociologie | | ::: | ::: | ::: | REC: sport, rekreace, hobby | | ::: | ::: | ::: | EDU: pedagogika | | ::: | ::: | NAT: přírodní vědy | BIO: biologie | | ::: | ::: | ::: | PHY: fyzika | | ::: | ::: | ::: | GEO: geografie, geologie | | ::: | ::: | ::: | CHE: chemie | | ::: | ::: | ::: | MED: lékařství | | ::: | ::: | ::: | AGR: zemědělství, chovatelství | | ::: | ::: | FTS: formální a technické vědy | MAT: matematika | | ::: | ::: | ::: | TEC: technika | | ::: | ::: | ::: | ICT: výpočetní technika | | ::: | ::: | ITD : interdisciplinární | ITD: interdisciplinární | | ::: | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | | ::: | ADM: administrativa | ADM: administrativa | ADM: administrativa | | NMG: publicistika | NEW: tradiční publicistika | X: neuvedeno | NTW: celostátní tisk | | ::: | ::: | ::: | REG: regionální tisk | | ::: | LEI: volnočasová publicistika | X: neuvedeno | HOU: bydlení, zahrada, hobby | | ::: | ::: | ::: | LIF: životní styl | | ::: | ::: | ::: | SCT: společenský život | | ::: | ::: | ::: | SPO: sport | | ::: | ::: | ::: | INT: zajímavosti ze světa | | ::: | ::: | ::: | MIX: společnost | Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut [[seznamy:med|médium]], nabývající jednu z následujících hodnot: * B: kniha * J: časopis * NWS: noviny * OTH: jiná tiskovina * REF: referenční příručka * TXB: učební materiál [{{ :cnk:syn2015-periodicita.png?direct&250|Podíl periodik a neperiodik v SYN2015.}}] Dále vznikla i zcela nová kategorie udávající [[seznamy:periodicity|periodicitu]] daného titulu, která nabývá těchto hodnot: * BI: nižší než měsíčník * DA: deník * MO: měsíčník * NP: neperiodická publikace * WE: týdeník, čtrnáctideník V atributu [[seznamy:audience|audience]] je uvedena informace o **věku předpokládaného čtenáře** textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN). Nově lze také u každého textu dohledat **pohlaví autora** ([[seznamy:authsex-transsex|authsex]]), případně **překladatele** ([[seznamy:authsex-transsex|transsex]]): žena (F), muž (M), neuvedeno (X). Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (''title''), autor (''author''), překladatel (''translator''), rok vydání (''pubyear''), rok prvního vydání (''first_published''), zdrojový jazyk (''[[seznamy:srclang|srclang]]'') a další charakteristiky. ===== Podíly jednotlivých typů textů ===== Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie ''txtype_group'', ''txtype'' a ''genre_group''. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů. ^ txtype ^ genre / genre_group ^ kategorie ^ proporce ^ | **Beletrie** (FIC) ||| 33,33 % | | NOV | | próza | 26 % | | COL | | kratší próza | 5 % | | VER | | poezie | 1 % | | SCR | | drama | 1 % | | X | | ostatní beletrie | 0,33 % | | **Oborová literatura** (NFC) ||| 33,33 % | | SCI/PRO/POP | HUM | humanitní vědy | 7 % | | ::: | SSC | sociální vědy | 7 % | | ::: | NAT | přírodní vědy | 7 % | | ::: | FTS | formální a technické vědy | 7 % | | ::: | ITD | interdisciplinární | 1 % | | MEM | | memoáry, autobiografie | 4 % | | ADM | | administrativní texty | 0,33 % | | **Publicistika** (NMG) ||| 33,33 % | | NEW | NTW | celostátní publicistika – konkrétní tituly (MF, LN, HN, Právo) | 10 % | | ::: | NTW | celostátní publicistika – ostatní | 5 % | | ::: | REG | regionální publicistika | 5 % | | LEI | | volnočasová publicistika | 13,33 % | --- //Václav Cvrček, Michal Křen, Anna Čermáková, Lucie Chlumská, Michal Škrabal, Dominika Kováříková//