Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:veda [2024/01/20 15:39] – michalkren | cnk:veda [2024/02/25 20:39] (aktuální) – [Jak citovat Korpus akademické češtiny] michalkren |
---|
====== Korpus akademické češtiny ====== | ====== Korpus akademické češtiny ====== |
| |
Korpus akademické češtiny je komplementem [[https://korpus.cz/frazova-banka|Frázové banky akademické češtiny]] a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science, Scopus nebo EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle [[https://doi.org/10.1787/9789264239012-en|Frascatského manuálu]]. Přesnější složení korpusu je uvedeno v tabulkách. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo. | Korpus akademické češtiny je komplementem [[https://korpus.cz/frazova-banka|Frázové banky akademické češtiny]] a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science nebo Scopus, případně EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle [[https://doi.org/10.1787/9789264239012-en|Frascatského manuálu]]. Přesnější složení korpusu je uvedeno v tabulce. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo. |
| |
^ Obor ^ Titul ^ Počet slov ^ | ^ Obor ^ Titul ^ Počet slov ^ |
| 1 Přírodní vědy | | **1951029** | | | 1 Přírodní vědy | | **1 951 029** | |
| | Geografie | 733885 | | | | Geografie | 733 885 | |
| | Chemické listy | 1217144 | | | | Chemické listy | 1 217 144 | |
| 2 Inženýrství a technologie | | **534739** | | | 2 Inženýrství a technologie | | **534 739** | |
| | Paliva | 534739 | | | | Paliva | 534 739 | |
| 3 Lékařské a zdravotnické vědy | | **1811902** | | | 3 Lékařské a zdravotnické vědy | | **1 811 902** | |
| | Cor et Vasa | 643254 | | | | Cor et Vasa | 643 254 | |
| | Česká a slovenská neurologie a neurochirurgie | 1168648 | | | | Česká a slovenská neurologie a neurochirurgie | 1 168 648 | |
| 4 Zemědělské a veterinární vědy | | **406257** | | | 4 Zemědělské a veterinární vědy | | **406 257** | |
| | Zprávy lesnického výzkumu | 406257 | | | | Zprávy lesnického výzkumu | 406 257 | |
| 5 Společenské vědy | | **5120839** | | | 5 Společenské vědy | | **5 120 839** | |
| | Československá psychologie | 856683 | | | | Československá psychologie | 856 683 | |
| | Český lid | 778212 | | | | Český lid | 778 212 | |
| | Obrana a strategie | 309725 | | | | Obrana a strategie | 309 725 | |
| | Orbis scholae | 578303 | | | | Orbis scholae | 578 303 | |
| | Revue církevního práva | 665229 | | | | Revue církevního práva | 665 229 | |
| | Sociologický časopis | 1053680 | | | | Sociologický časopis | 1 053 680 | |
| | Studia paedagogica | 673108 | | | | Studia paedagogica | 673 108 | |
| | Vojenské rozhledy | 205899 | | | | Vojenské rozhledy | 205 899 | |
| 6 Humanitní vědy a umění | | **5434650** | | | 6 Humanitní vědy a umění | | **5 434 650** | |
| | Archeologické rozhledy | 1289072 | | | | Archeologické rozhledy | 1 289 072 | |
| | Cornova | 304773 | | | | Cornova | 304 773 | |
| | Česká literatura | 1446707 | | | | Česká literatura | 1 446 707 | |
| | Musicologica Brunensia | 455712 | | | | Musicologica Brunensia | 455 712 | |
| | Památky archeologické | 409157 | | | | Památky archeologické | 409 157 | |
| | Slovo a slovesnost | 760468 | | | | Slovo a slovesnost | 760 468 | |
| | Studia theologica | 768761 | | | | Studia theologica | 768 761 | |
| ^ CELKEM ^ ^ 15 259 416 ^ |
| |
| Celkový rozsah korpusu činí více než 15 milionů slov (téměř 20 milionů [[pojmy:token|tokenů]]) ve 3 394 vědeckých článcích. Technické zpracování korpusu vychází z korpusů řady [[SYN|SYN]]. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (//<div>//) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot //úvod//, //diskuse//, //závěr// a //neznámá//. Toto členění bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají [[SYN2020|SYN2020]]. |
| |
Celkový počet článků v korpusu odborných textů činí 3 394, celkový rozsah korpusu činí téměř 20 milionů tokenů. Technické zpracování korpusu vychází z korpusů řady [[SYN|SYN]]. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (//<div>//) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot //úvod//, //diskuse//, //závěr// a //neznámá//. Toto členění však bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají [[SYN2020|SYN2020]]. | Autorský tým děkuje redakcím časopisů zařazených do korpusu, bez jejichž vstřícnosti by Korpus akademické češtiny nemohl vzniknout. |
| |
Autorský tým děkuje redakcím časopisů zařazených do korpusu, bez jejichž vstřícnosti by korpus nemohl vzniknout. | ====== Jak citovat Korpus akademické češtiny ====== |
| |
====== Korpus akademické češtiny ====== | |
<WRAP round tip 70%> | <WRAP round tip 70%> |
Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: //Korpus akademické češtiny, verze 1 z 20. 1. 2024//. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2024. Dostupný z WWW: http://www.korpus.cz | Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: //Korpus akademické češtiny, verze 1 z 20. 11. 2023//. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2023. Dostupný z WWW: http://www.korpus.cz |
| |
Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. //Slovo a slovesnost// 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418. | Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. //Slovo a slovesnost// 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418. |
</WRAP> | </WRAP> |
| |