Toto je starší verze dokumentu!
Korpus akademické češtiny
Korpus akademické češtiny je komplementem Frázové banky akademické češtiny a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 v odborných časopisech indexovaných v databázích Web of Science, Scopus nebo EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Korpus obsahuje články z celkem 21 titulů česky psaných odborných časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle Frascatského manuálu. Přesnější složení korpusu je uvedeno v tabulkách. Převaha společenských a humanitních věd je dána tím, že česky psaných odborných článků vychází v těchto oborech už jen velice málo.
Obor | Titul | Počet slov |
---|---|---|
Přírodní vědy | 1951029 | |
Chemické listy | 1217144 | |
Geografie | 733885 | |
Inženýrství a technologie | 534739 |
Paliva 534739
Lékařské a zdravotnické vědy | 1811902 |
Cor et Vasa 643254 Česká a slovenská neurologie a neurochirurgie 1168648
Zemědělské a veterinární vědy | 406257 |
Zprávy lesnického výzkumu 406257
Společenské vědy | 5120839 |
Československá psychologie 856683 Český lid 778212 Obrana a strategie 309725 Orbis scholae 578303 Revue církevního práva 665229 Sociologický časopis 1053680 Studia paedagogica 673108 Vojenské rozhledy 205899
Humanitní vědy a umění | 5434650 |
Archeologické rozhledy 1289072 Cornova 304773 Musicologica Brunensia 455712 Památky archeologické 409157 Slovo a slovesnost 760468 Studia theologica 768761 Česká literatura 1446707
Celkový počet článků v korpusu odborných textů činí 3 394, celkový rozsah korpusu činí téměř 20 milionů tokenů. Technické zpracování korpusu vychází z korpusů řady SYN. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (<div>) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot úvod, diskuse, závěr a neznámá. Toto členění však bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají SYN2020.
Korpus akademické češtiny
Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: Korpus akademické češtiny, verze 1 z 20. 1. 2024. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2024. Dostupný z WWW: http://www.korpus.cz
Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. Slovo a slovesnost 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418.