AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:klasifikace_textu_syn2015 [2015/12/18 10:10] – [1. Beletrie] michalskrabalcnk:klasifikace_textu_syn2015 [2020/06/18 13:05] (aktuální) – [2. Oborová literatura] vaclavcvrcek
Řádek 26: Řádek 26:
 ===== 2. Oborová literatura ===== ===== 2. Oborová literatura =====
  
-Nejvýznamnější změny oproti předchozí klasifikaci řady SYN (kategorie byla dříve nazývaná "odborná literatura"):+Nejvýznamnější změny oproti předchozí klasifikaci řady SYN:
  
   * **Oborová** (původně odborná) **literatura** (NFC) reflektuje míru „odbornosti“ a specializace na úrovni cílového čtenáře a zahrnuje tři hlavní typy (''txtype''): literaturu odbornou (SCI), profesní (PRO) a populárně naučnou (POP). Tuto makroskupinu je však třeba chápat také jako protipól beletrie a publicistiky: patří sem proto i texty administrativního rázu (ADM) v nejširším smyslu a skupina textů tzv. přechodového pásma mezi beletrií a odbornou literaturou (MEM), jejichž typickými představiteli jsou memoáry a autobiografie. Přejmenování této skupiny z //odborné// na obecnější //oborovou// by proto mělo přesněji odrážet její heterogenní složení, přičemž termín //odborná// zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru.   * **Oborová** (původně odborná) **literatura** (NFC) reflektuje míru „odbornosti“ a specializace na úrovni cílového čtenáře a zahrnuje tři hlavní typy (''txtype''): literaturu odbornou (SCI), profesní (PRO) a populárně naučnou (POP). Tuto makroskupinu je však třeba chápat také jako protipól beletrie a publicistiky: patří sem proto i texty administrativního rázu (ADM) v nejširším smyslu a skupina textů tzv. přechodového pásma mezi beletrií a odbornou literaturou (MEM), jejichž typickými představiteli jsou memoáry a autobiografie. Přejmenování této skupiny z //odborné// na obecnější //oborovou// by proto mělo přesněji odrážet její heterogenní složení, přičemž termín //odborná// zůstal nově vyhrazen pouze akademickým textům (SCI). Nově definovaná profesní literatura (PRO) zahrnuje texty charakterizované převahou praktických informací, které jsou určeny především profesionálům v oboru.
-  * V oborové literatuře nově přibyla pro txtype SCI, PRO a POP další úroveň – ''genre_group'', která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), společenské vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS). +  * V oborové literatuře nově přibyla pro txtype SCI, PRO a POP další úroveň – ''genre_group'', která vznikla seskupením jednotlivých disciplín či oborů do větších skupin a umožňuje tak zkoumat texty z blízkých oborů pohromadě: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS). 
   * Na úrovni ''genre'', která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v [[http://text.nkp.cz/o-knihovne/odborne-cinnosti/zpracovani-fondu/vecne-zpracovani-vecne-autority/material-kon2|Národní knihovně ČR]]. Obory jsou podrobně uvedeny dále v přehledové tabulce.   * Na úrovni ''genre'', která představuje nejpodrobnější členění a odráží konkrétní obor či disciplínu, byly jednotlivé texty klasifikovány v maximální možné míře v souladu s předmětovou kategorizací používanou v [[http://text.nkp.cz/o-knihovne/odborne-cinnosti/zpracovani-fondu/vecne-zpracovani-vecne-autority/material-kon2|Národní knihovně ČR]]. Obory jsou podrobně uvedeny dále v přehledové tabulce.
  
-Oborová literatura (NFC) se na úrovni [[pojmy:txtype|txtype]] dělí na:+Oborová literatura (NFC) se na úrovni [[pojmy:txtype|txtype]] nově dělí na:
   - **SCI: odbornou literaturu** – vědecko-naučné texty, včetně akademických publikací a vysokoškolských skript   - **SCI: odbornou literaturu** – vědecko-naučné texty, včetně akademických publikací a vysokoškolských skript
   - **PRO: profesní literaturu** – texty určené profesionálům v oboru, včetně specializovaných časopisů (např. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce)   - **PRO: profesní literaturu** – texty určené profesionálům v oboru, včetně specializovaných časopisů (např. Logistika, Lékařské listy, Sestra, Zeměměřič, Stavitel, Konstrukce)
   - **POP: populárně naučnou literaturu** – texty určené pro nejširší laickou veřejnost se zájmem o daný obor (např. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař)   - **POP: populárně naučnou literaturu** – texty určené pro nejširší laickou veřejnost se zájmem o daný obor (např. Bydlí s námi sladkovodní želva, Botanické zahrady a arboreta České republiky, Praktický houbař)
   - **ADM: administrativu** – provozní řády, zápisy z jednání, pokyny a návody, výroční zprávy apod.   - **ADM: administrativu** – provozní řády, zápisy z jednání, pokyny a návody, výroční zprávy apod.
-  - **MEM: memoáry, autobiografie** – paměti, autobiografie (s výjimkou beletrizovaných autobiografií, které jsou řazeny do beletrie), korespondence (např. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život)+  - **MEM: memoáry, (auto)biografie** – paměti, (auto)biografie (s výjimkou beletrizovaných autobiografií, které jsou řazeny do beletrie), korespondence (např. Bojoval jsem u Berlína, Chirurgovy poznámky, Meda Mládková - Můj úžasný život)
  
 === Genre_group === === Genre_group ===
  
-Skupina NFC obsahuje další novou klasifikační úroveň **[[pojmy:genre_group|genre_group]]**, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem [[pojmy:genre|genre]]) do větších skupin: humanitní vědy (HUM), společenské vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže.+Skupina NFC obsahuje další novou klasifikační úroveň **[[pojmy:genre_group|genre_group]]**, která je relevantní pro texty ve skupinách SCI, PRO a POP. Vznikla seskupením jednotlivých oborů (v ČNK označovaných termínem [[pojmy:genre|genre]]) do větších skupin: humanitní vědy (HUM), sociální vědy (SSC), přírodní vědy (NAT) a formální a technické vědy (FTS), viz tabulka níže.
  
-Na úrovni genre, tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce.+Na úrovni ''genre'', tedy na úrovni nejpodrobnějšího členění textů, byly jednotlivé texty klasifikovány až na výjimky v souladu s předmětovou kategorizací používanou v Národní knihovně ČR. Sporné případy klasifikace byly řešeny prostřednictvím konsenzu několika klasifikátorů. Obory jsou podrobně uvedeny dále v přehledové tabulce.
  
-^ HUM: humanitní vědy ^ SSC: společenské vědy ^ NAT: přírodní vědy ^ FTS: formální a technické vědy ^ ITD: interdisciplinární ^+^ HUM: humanitní vědy ^ SSC: sociální vědy ^ NAT: přírodní vědy ^ FTS: formální a technické vědy ^ ITD: interdisciplinární ^
 | ANT: antropologie, etnografie\\ THE: divadlo, film, tanec\\ PHI: filozofie, náboženství\\ HIS: historie\\ LAN: filologie\\ INF: knihovnictví, informatika\\ ART: umění, architektura | ECO: ekonomika, obchod, logistika\\ POL: politika, vojenství\\ LAW: právo\\ PSY: psychologie\\ SOC: sociologie\\ REC: sport, rekreace, hobby\\ EDU: pedagogika | BIO: biologie \\ PHY: fyzika\\ GEO: geografie, geologie\\ CHE: chemie\\ MED: lékařství\\ AGR: zemědělství, chovatelství | MAT: matematika\\ TEC: technika\\ ICT: výpočetní technika | ITD: interdisciplinární | | ANT: antropologie, etnografie\\ THE: divadlo, film, tanec\\ PHI: filozofie, náboženství\\ HIS: historie\\ LAN: filologie\\ INF: knihovnictví, informatika\\ ART: umění, architektura | ECO: ekonomika, obchod, logistika\\ POL: politika, vojenství\\ LAW: právo\\ PSY: psychologie\\ SOC: sociologie\\ REC: sport, rekreace, hobby\\ EDU: pedagogika | BIO: biologie \\ PHY: fyzika\\ GEO: geografie, geologie\\ CHE: chemie\\ MED: lékařství\\ AGR: zemědělství, chovatelství | MAT: matematika\\ TEC: technika\\ ICT: výpočetní technika | ITD: interdisciplinární |
  
Řádek 53: Řádek 53:
  
   * Původně monolitická **publicistika** (NMG) se nově dělí na úrovni ''txtype'' na publicistiku **tradiční** (NEW) a **volnočasovou** (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni ''genre'' dělí na **celostátní** (NTW) a **regionální** (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni ''genre'' rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX).   * Původně monolitická **publicistika** (NMG) se nově dělí na úrovni ''txtype'' na publicistiku **tradiční** (NEW) a **volnočasovou** (LEI). Tradiční publicistika (typicky zpravodajské deníky) se dále na úrovni ''genre'' dělí na **celostátní** (NTW) a **regionální** (REG). Volnočasovou publicistiku (především různě zaměřené zájmové časopisy) rovněž na úrovni ''genre'' rozdělujeme tematicky do následujících skupin: bydlení, zahrada, hobby (HOU), životní styl (LIF), společenský život (SCT), sport (SPO), zahraniční zajímavosti (INT) a společnost (MIX).
-  * Kde to bylo možné, významné publicistické tituly vydané po roce 2010 jsou nově podrobněji členěny (na úrovni článků) do tematických **rubrik** (atribut ''[[seznamy:section|text.section]]''): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana. +  * Kde to bylo možné, jsou významné publicistické tituly vydané po roce 2010 nově podrobněji členěny (na úrovni článků) do tematických **rubrik** (atribut ''[[seznamy:section|text.section]]''): zpravodajství (zahraniční, domácí, regionální), politika, ekonomika, sport, kultura, volný čas, komentáře, krimi, společenský život a titulní strana. 
  
 [{{ :cnk:syn2015-lei-new.png?direct&450|Podíl kategorií LEI a NEW v jednotlivých letech.}}] [{{ :cnk:syn2015-lei-new.png?direct&450|Podíl kategorií LEI a NEW v jednotlivých letech.}}]
  
-Publicistika (NMG) se na úrovni [[pojmy:txtype|txtype]] dělí na: +Publicistika (NMG) se na úrovni [[pojmy:txtype|txtype]] nově dělí na: 
   - **NEW: tradiční publicistiku** (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě)   - **NEW: tradiční publicistiku** (důraz na aktuální zpravodajství, zprávy z politiky, dění doma i ve světě)
   - **LEI: volnočasovou publicistiku** (především zájmové časopisy)   - **LEI: volnočasovou publicistiku** (především zájmové časopisy)
Řádek 70: Řádek 70:
  
 Volnočasová publicistika (LEI) se na úrovni [[pojmy:genre|genre]] dělí tematicky na:  Volnočasová publicistika (LEI) se na úrovni [[pojmy:genre|genre]] dělí tematicky na: 
-  * **HOU: bydlení, zahrada hobby** (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada)+  * **HOU: bydlení, zahradahobby** (např. Bydlení, Chatař & chalupář, Blesk Hobby, Dům a zahrada)
   * **LIF: životní styl** (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta)   * **LIF: životní styl** (např. Marianne, Elle, JOY, Esprit, Žena a život, Kondice, Maxim, Vlasta)
   * **SCT: společenský život** (např. Blesk, Aha!, Story, Rytmus života)   * **SCT: společenský život** (např. Blesk, Aha!, Story, Rytmus života)
Řádek 81: Řádek 81:
 === Rubriky === === Rubriky ===
  
-Rubriky u vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk):+vybraných periodik (Mladá fronta Dnes, Právo, Hospodářské noviny, Lidové noviny, Deníky Bohemia, Týden, Deníky Moravia, Respekt, Regionální týdeník, Blesk, Dobrý den s kurýrem, Metro, E15, Jihlavské listy, Sedmička, Aha! neděle, Nedělní Blesk) jsou k dispozici informace o rubrice, v níž daný článek vyšel. Tato informace je uložena v atributu [[seznamy:section|section]], která charakterizuje strukturu ''<text>'' a může nabývat těchto hodnot:
   * zpravodajství   * zpravodajství
   * zahraniční zpravodajství   * zahraniční zpravodajství
Řádek 96: Řádek 96:
   * titulní strana   * titulní strana
  
-Informace o rubrice je uložena v atributu [[seznamy:section|section]], která charakterizuje strukturu ''<text>''. 
 ===== Souhrnná klasifikace ===== ===== Souhrnná klasifikace =====
  
-Tabulka shrnuje klasifikaci textu do skupin podle atributů txtype_group, txtype, genre_group a genre.+Tabulka shrnuje klasifikaci textu do skupin podle atributů ''txtype_group''''txtype''''genre_group'' ''genre''.
  
 ^  txtype_group  ^  txtype  ^  genre_group  ^  genre  ^ ^  txtype_group  ^  txtype  ^  genre_group  ^  genre  ^
Řádek 115: Řádek 114:
 | ::: | ::: | ::: | INF: knihovnictví, informatika | | ::: | ::: | ::: | INF: knihovnictví, informatika |
 | ::: | ::: | ::: | ART: umění, architektura | | ::: | ::: | ::: | ART: umění, architektura |
-| ::: | ::: | SSC: společenské vědy | ECO: ekonomika, obchod, logistika |+| ::: | ::: | SSC: sociální vědy | ECO: ekonomika, obchod, logistika |
 | ::: | ::: | ::: | POL: politika, vojenství | | ::: | ::: | ::: | POL: politika, vojenství |
 | ::: | ::: | ::: | LAW: právo | | ::: | ::: | ::: | LAW: právo |
Řádek 134: Řádek 133:
 | ::: | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | | ::: | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie | MEM: memoáry, autobiografie |
 | ::: | ADM: administrativa | ADM: administrativa | ADM: administrativa | | ::: | ADM: administrativa | ADM: administrativa | ADM: administrativa |
-| NMG: publicistika | NEW: tradiční publicistika | X: neuvedeno | NTW: celostátní | +| NMG: publicistika | NEW: tradiční publicistika | X: neuvedeno | NTW: celostátní tisk 
-| ::: | ::: | ::: | REG: regionální |+| ::: | ::: | ::: | REG: regionální tisk |
 | ::: | LEI: volnočasová publicistika | X: neuvedeno | HOU: bydlení, zahrada, hobby | | ::: | LEI: volnočasová publicistika | X: neuvedeno | HOU: bydlení, zahrada, hobby |
 | ::: | ::: | ::: | LIF: životní styl | | ::: | ::: | ::: | LIF: životní styl |
Řádek 142: Řádek 141:
 | ::: | ::: | ::: | INT: zajímavosti ze světa | | ::: | ::: | ::: | INT: zajímavosti ze světa |
 | ::: | ::: | ::: | MIX: společnost | | ::: | ::: | ::: | MIX: společnost |
-FIXME+ 
 +Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut [[seznamy:med|médium]], nabývající jednu z následujících hodnot:  
 +  * B: kniha  
 +  * J: časopis 
 +  * NWS: noviny  
 +  * OTH: jiná tiskovina 
 +  * REF: referenční příručka 
 +  * TXB: učební materiál 
  
 [{{ :cnk:syn2015-periodicita.png?direct&250|Podíl periodik a neperiodik v SYN2015.}}] [{{ :cnk:syn2015-periodicita.png?direct&250|Podíl periodik a neperiodik v SYN2015.}}]
  
-Klasifikace textů je v SYN2015 doplněna o jejich další charakteristiky. Každý text má nově atribut [[seznamy:med|médium]], kde se rozlišují knihy (B), časopisy (J), noviny (NWS), referenční příručky, slovníky a encyklopedie (REF)učebnice (TXB) a zbylé tiskoviny (OTH).+Dále vznikla i zcela nová kategorie udávající [[seznamy:periodicity|periodicitu]] daného titulukterá nabývá těchto hodnot: 
 +  * BI: nižší než měsíčník 
 +  * DA: deník 
 +  * MO: měsíčník 
 +  * NP: neperiodická publikace 
 +  * WE: týdeník, čtrnáctideník
  
-Dále vznikla i zcela nová kategorie udávající [[seznamy:periodicity|periodicitu]] daného titulu a je uvedena též informace o **věku předpokládaného čtenáře** ([[seznamy:audience|audience]]) textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN). Nově lze také u každého textu dohledat **pohlaví autora** ([[seznamy:authsex-transsex|authsex]]), případně **překladatele** ([[seznamy:authsex-transsex|transsex]]): žena (F), muž (M), neuvedeno (X).+V atributu [[seznamy:audience|audience]] je uvedena informace o **věku předpokládaného čtenáře** textu: rozlišujeme texty určené pro obecné publikum (GEN) a dětem a mládeži (JUN). 
  
-Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (''title''), autor (''author''), překladatel (''translator''), rok vydání (''pubyear''), rok prvního vydání (''first_published''), zdrojový jazyk (''[[seznamy:srclang|srclang]]''a další charakteristiky.+Nově lze také u každého textu dohledat **pohlaví autora** ([[seznamy:authsex-transsex|authsex]]), případně **překladatele** ([[seznamy:authsex-transsex|transsex]]): žena (F), muž (M), neuvedeno (X).
  
 +Stejně jako v předešlých korpusech patří mezi metainformace o textu samozřejmě název díla (''title''), autor (''author''), překladatel (''translator''), rok vydání (''pubyear''), rok prvního vydání (''first_published''), zdrojový jazyk (''[[seznamy:srclang|srclang]]'') a další charakteristiky.
 ===== Podíly jednotlivých typů textů ===== ===== Podíly jednotlivých typů textů =====
  
  
-Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie txtype_group, txtype a genre_group. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.+Ačkoli se při vyvažování korpusu přihlíží ke všem kategoriím, aby byl výsledný korpus co možná nejpestřejší, základní rámec pro stanovení podílů textů tvoři pouze kategorie ''txtype_group''''txtype'' ''genre_group''. Proporce jednotlivých kategorií byly zvoleny pragmaticky s ohledem na texty, které má ČNK k dispozici od nakladatelů a jiných poskytovatelů textů.
  
 ^  txtype  ^  genre / genre_group  ^  kategorie  ^  proporce  ^ ^  txtype  ^  genre / genre_group  ^  kategorie  ^  proporce  ^
Řádek 163: Řádek 175:
 | VER | | poezie |  1 % | | VER | | poezie |  1 % |
 | SCR | | drama |  1 % | | SCR | | drama |  1 % |
-| X | | neuvedeno |  0,33 % |+| X | | ostatní beletrie |  0,33 % |
 | **Oborová literatura** (NFC) |||  33,33 % | | **Oborová literatura** (NFC) |||  33,33 % |
 | SCI/PRO/POP | HUM | humanitní vědy |  7 % | | SCI/PRO/POP | HUM | humanitní vědy |  7 % |
-| ::: | SSC | společenské vědy |  7 % |+| ::: | SSC | sociální vědy |  7 % |
 | ::: | NAT | přírodní vědy |  7 % | | ::: | NAT | přírodní vědy |  7 % |
 | ::: | FTS | formální a technické vědy |  7 % | | ::: | FTS | formální a technické vědy |  7 % |