Toto je starší verze dokumentu!
Korpus akademické češtiny
Korpus akademické češtiny je komplementem Frázové banky akademické češtiny a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science, Scopus nebo EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle Frascatského manuálu. Přesnější složení korpusu je uvedeno v tabulce. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo.
Obor | Titul | Počet slov |
---|---|---|
1 Přírodní vědy | 1 951 029 | |
Geografie | 733 885 | |
Chemické listy | 1 217 144 | |
2 Inženýrství a technologie | 534 739 | |
Paliva | 534 739 | |
3 Lékařské a zdravotnické vědy | 1 811 902 | |
Cor et Vasa | 643 254 | |
Česká a slovenská neurologie a neurochirurgie | 1 168 648 | |
4 Zemědělské a veterinární vědy | 406 257 | |
Zprávy lesnického výzkumu | 406 257 | |
5 Společenské vědy | 5 120 839 | |
Československá psychologie | 856 683 | |
Český lid | 778 212 | |
Obrana a strategie | 309 725 | |
Orbis scholae | 578 303 | |
Revue církevního práva | 665 229 | |
Sociologický časopis | 1 053 680 | |
Studia paedagogica | 673 108 | |
Vojenské rozhledy | 205 899 | |
6 Humanitní vědy a umění | 5 434 650 | |
Archeologické rozhledy | 1 289 072 | |
Cornova | 304 773 | |
Česká literatura | 1 446 707 | |
Musicologica Brunensia | 455 712 | |
Památky archeologické | 409 157 | |
Slovo a slovesnost | 760 468 | |
Studia theologica | 768 761 | |
CELKEM | 15 259 416 |
Celkový rozsah korpusu činí více než 15 milionů slov (téměř 20 milionů tokenů) ve 3 394 vědeckých článcích. Technické zpracování korpusu vychází z korpusů řady SYN. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (<div>) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot úvod, diskuse, závěr a neznámá. Toto členění bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají SYN2020.
Autorský tým děkuje redakcím časopisů zařazených do korpusu, bez jejichž vstřícnosti by Korpus akademické češtiny nemohl vzniknout.
Jak citovat Korpus akademické češtiny
Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: Korpus akademické češtiny, verze 1 z 20. 1. 2024. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2024. Dostupný z WWW: http://www.korpus.cz
Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. Slovo a slovesnost 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418.