Toto je starší verze dokumentu!

Korpus akademické češtiny

Korpus akademické češtiny je komplementem Frázové banky akademické češtiny a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science, Scopus nebo EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle Frascatského manuálu. Přesnější složení korpusu je uvedeno v tabulkách. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo.

Obor	Titul	Počet slov
1 Přírodní vědy		1951029
	Geografie	733885
	Chemické listy	1217144
2 Inženýrství a technologie		534739
	Paliva	534739
3 Lékařské a zdravotnické vědy		1811902
	Cor et Vasa	643254
	Česká a slovenská neurologie a neurochirurgie	1168648
4 Zemědělské a veterinární vědy		406257
	Zprávy lesnického výzkumu	406257
5 Společenské vědy		5120839
	Československá psychologie	856683
	Český lid	778212
	Obrana a strategie	309725
	Orbis scholae	578303
	Revue církevního práva	665229
	Sociologický časopis	1053680
	Studia paedagogica	673108
	Vojenské rozhledy	205899
6 Humanitní vědy a umění		5434650
	Archeologické rozhledy	1289072
	Cornova	304773
	Česká literatura	1446707
	Musicologica Brunensia	455712
	Památky archeologické	409157
	Slovo a slovesnost	760468
	Studia theologica	768761

Celkový počet článků v korpusu odborných textů činí 3 394, celkový rozsah korpusu činí téměř 20 milionů tokenů. Technické zpracování korpusu vychází z korpusů řady SYN. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (<div>) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot úvod, diskuse, závěr a neznámá. Toto členění však bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají SYN2020.

Autorský tým děkuje redakcím časopisů zařazených do korpusu, bez jejichž vstřícnosti by korpus nemohl vzniknout.

Korpus akademické češtiny

Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: Korpus akademické češtiny, verze 1 z 20. 1. 2024. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2024. Dostupný z WWW: http://www.korpus.cz

Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. Slovo a slovesnost 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418.

Historie: • ukwac • orator • veda

Korpus akademické češtiny

Korpus akademické češtiny

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence