AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:veda [2024/01/19 13:10] michalkrencnk:veda [2024/02/25 20:39] (aktuální) – [Jak citovat Korpus akademické češtiny] michalkren
Řádek 2: Řádek 2:
 ====== Korpus akademické češtiny ====== ====== Korpus akademické češtiny ======
  
-Korpus akademické češtiny je komplementem [[https://korpus.cz/frazova-banka|Frázové banky akademické češtiny]] a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 v odborných časopisech indexovaných v databázích Web of Science, Scopus nebo EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Korpus obsahuje články z celkem 21 titulů česky psaných odborných časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle [[https://doi.org/10.1787/9789264239012-en|Frascatského manuálu]]. Přesnější složení korpusu je uvedeno v tabulkách. Převaha společenských a humanitních věd je dána tím, že česky psaných odborných článků vychází v těchto oborech už jen velice málo.+Korpus akademické češtiny je komplementem [[https://korpus.cz/frazova-banka|Frázové banky akademické češtiny]] a zahrnuje pouze česky psané nepřekladové texty vydané po roce 2010 ve vědeckých časopisech indexovaných v databázích Web of Science nebo Scopus, případně EBSCO. Dalším kritériem je žánr textu: do korpusu jsou zařazeny jen studie a přehledové články, nikoli tedy například recenze nebo zprávy z konferencí. Texty jsou ve většině případů v prefinální úpravě, tj. neprošly závěrečnou redakční úpravou ani autorskými korekturami. Korpus obsahuje články z celkem 21 titulů česky psaných vědeckých časopisů a je v něm zastoupeno všech šest oborů širší klasifikace podle [[https://doi.org/10.1787/9789264239012-en|Frascatského manuálu]]. Přesnější složení korpusu je uvedeno v tabulce. Převaha společenských a humanitních věd je dána tím, že česky psaných vědeckých článků vychází v ostatních oborech relativně málo.
  
 ^ Obor ^ Titul ^ Počet slov ^ ^ Obor ^ Titul ^ Počet slov ^
-| 1 Přírodní vědy | |  **1951029** | +| 1 Přírodní vědy | |  **1 951 029** | 
-| | Geografie |  733885 +| | Geografie |  733 885 
-| | Chemické listy |  1217144 +| | Chemické listy |  1 217 144 
-| 2 Inženýrství a technologie | |  **534739** | +| 2 Inženýrství a technologie | |  **534 739** | 
-| | Paliva |  534739 +| | Paliva |  534 739 
-| 3 Lékařské a zdravotnické vědy | |  **1811902** | +| 3 Lékařské a zdravotnické vědy | |  **1 811 902** | 
-| | Cor et Vasa |  643254 +| | Cor et Vasa |  643 254 
-| | Česká a slovenská neurologie a neurochirurgie |  1168648 +| | Česká a slovenská neurologie a neurochirurgie |  1 168 648 
-| 4 Zemědělské a veterinární vědy | |  **406257** | +| 4 Zemědělské a veterinární vědy | |  **406 257** | 
-| | Zprávy lesnického výzkumu |  406257 +| | Zprávy lesnického výzkumu |  406 257 
-| 5 Společenské vědy | |  **5120839** | +| 5 Společenské vědy | |  **5 120 839** | 
-| | Československá psychologie |  856683 +| | Československá psychologie |  856 683 
-| | Český lid |  778212 +| | Český lid |  778 212 
-| | Obrana a strategie |  309725 +| | Obrana a strategie |  309 725 
-| | Orbis scholae |  578303 +| | Orbis scholae |  578 303 
-| | Revue církevního práva |  665229 +| | Revue církevního práva |  665 229 
-| | Sociologický časopis |  1053680 +| | Sociologický časopis |  1 053 680 
-| | Studia paedagogica |  673108 +| | Studia paedagogica |  673 108 
-| | Vojenské rozhledy |  205899 +| | Vojenské rozhledy |  205 899 
-| 6 Humanitní vědy a umění | |  **5434650** | +| 6 Humanitní vědy a umění | |  **5 434 650** | 
-| | Archeologické rozhledy |  1289072 +| | Archeologické rozhledy |  1 289 072 
-| | Cornova |  304773 +| | Cornova |  304 773 
-| | Česká literatura |  1446707 +| | Česká literatura |  1 446 707 
-| | Musicologica Brunensia |  455712 +| | Musicologica Brunensia |  455 712 
-| | Památky archeologické |  409157 +| | Památky archeologické |  409 157 
-| | Slovo a slovesnost |  760468 +| | Slovo a slovesnost |  760 468 
-| | Studia theologica |  768761 |+| | Studia theologica |  768 761 | 
 +^ CELKEM ^ ^ 15 259 416 ^
  
 +Celkový rozsah korpusu činí více než 15 milionů slov (téměř 20 milionů [[pojmy:token|tokenů]]) ve 3 394 vědeckých článcích. Technické zpracování korpusu vychází z korpusů řady [[SYN|SYN]]. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (//<div>//) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot //úvod//, //diskuse//, //závěr// a //neznámá//. Toto členění bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají [[SYN2020|SYN2020]].
  
-Celkový počet článků v korpusu odborných textů činí 3 394, celkový rozsah korpusu činí téměř 20 milionů tokenů. Technické zpracování korpusu vychází z korpusů řady [[SYN|SYN]]. Hlavní rozdíl oproti řadě SYN spočívá v tom, že dokumenty zde odpovídají jednotlivým článkům, nikoli číslům. Dokumenty (články) jsou navíc dále členěny na jednotlivé sekce (//<div>//) odpovídající oddílům textů s explicitním označením třídy (class), která nabývá hodnot //úvod//, //diskuse//, //závěr// a //neznámá//. Toto členění však bylo získáno heuristickými postupy, a není tedy vždy spolehlivé. Ke všem dokumentům jsou k dispozici metadata (autoři, název článku, číslo, rok vydání apod.), která prošla rozsáhlou manuální revizí. Lemmatizace a morfologické značkování korpusu odpovídají [[SYN2020|SYN2020]].+Autorský tým děkuje redakcím časopisů zařazených do korpusu, bez jejichž vstřícnosti by Korpus akademické češtiny nemohl vzniknout.
  
-====== Korpus akademické češtiny ======+====== Jak citovat Korpus akademické češtiny ======
 <WRAP round tip 70%> <WRAP round tip 70%>
-Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: //Korpus akademické češtiny, verze 1 z 20. 12024//. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2024. Dostupný z WWW: http://www.korpus.cz+Vondřička, P. – Kaderka, P. – Hoffmannová, J. – Homoláč, J. – Kocek, J. – Kopecký, J. – Křen, M. – Sherman, T.: //Korpus akademické češtiny, verze 1 z 20. 112023//. Praha: Ústav Českého národního korpusu FF UK – Ústav pro jazyk český AV ČR, Praha 2023. Dostupný z WWW: http://www.korpus.cz
  
 Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. //Slovo a slovesnost// 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418. Homoláč, J. – Křen, M. – Kašpárková, A. – Etchegoyen Rosolová, K. – Hoffmannová, J. – Kaderka, P. – Kopecký, J. – Sherman, T. – Vondřička, P.: Akademické psaní a frázové banky. //Slovo a slovesnost// 84(4), 2023, 303-321. https://doi.org/10.58756/s4348418.
 </WRAP> </WRAP>