~~NOTOC~~ ====== Korpus akademické češtiny ====== Korpus akademické češtiny je komplementem [[https://korpus.cz/frazova-banka|Frázové banky akademické češtiny]] a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science nebo Scopus, případně EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle [[https://doi.org/10.1787/9789264239012-en|Frascatského manuálu]]. Přesnější složení korpusu je uvedeno v tabulce. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo. ^ Obor ^ Titul ^ Počet slov ^ | 1 Přírodní vědy | | **1 951 029** | | | Geografie | 733 885 | | | Chemické listy | 1 217 144 | | 2 Inženýrství a technologie | | **534 739** | | | Paliva | 534 739 | | 3 Lékařské a zdravotnické vědy | | **1 811 902** | | | Cor et Vasa | 643 254 | | | Česká a slovenská neurologie a neurochirurgie | 1 168 648 | | 4 Zemědělské a veterinární vědy | | **406 257** | | | Zprávy lesnického výzkumu | 406 257 | | 5 Společenské vědy | | **5 120 839** | | | Československá psychologie | 856 683 | | | Český lid | 778 212 | | | Obrana a strategie | 309 725 | | | Orbis scholae | 578 303 | | | Revue církevního práva | 665 229 | | | Sociologický časopis | 1 053 680 | | | Studia paedagogica | 673 108 | | | Vojenské rozhledy | 205 899 | | 6 Humanitní vědy a umění | | **5 434 650** | | | Archeologické rozhledy | 1 289 072 | | | Cornova | 304 773 | | | Česká literatura | 1 446 707 | | | Musicologica Brunensia | 455 712 | | | Památky archeologické | 409 157 | | | Slovo a slovesnost | 760 468 | | | Studia theologica | 768 761 | ^ CELKEM ^ ^ 15 259 416 ^ Celkový rozsah korpusu činí více než 15 milionů slov (téměř 20 milionů [[pojmy:token|tokenů]]) ve 3 394 vědeckých článcích. Technické zpracování korpusu vychází z korpusů řady [[SYN|SYN]]. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (//