Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
cnk:uvod [2022/12/21 13:13] – michalkren | cnk:uvod [2023/10/11 17:50] – [Přehled dostupných korpusů] alexandrrosen |
---|
| [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | | | [[cnk:syn2000|SYN2000]] | 100 mil. | ✓ | ✓ | 2000 | [[pojmy:referencni|referenční]] reprezentativní korpus, převažují texty z let 1990–1999 | |
| **[[cnk:struktura#webove|Webové korpusy]]** |||||| | | **[[cnk:struktura#webove|Webové korpusy]]** |||||| |
| [[cnk:online|ONLINE]] | > 6 mld. | ✓ | ✓ | 2020 | monitorovací korpus českého internetu | | | [[cnk:online|ONLINE]] ([[cnk:online:gen2|2. generace]]) | > 6 mld. | ✓ | ✓ | 2020 | monitorovací korpus českého internetu | |
| [[cnk:net|NET]] (verze 2) | 176 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace | | | [[cnk:net|NET]] (verze 2) | 176 mil. | ✓ | ✓ | 2019 | korpus polooficiální internetové komunikace | |
| **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| | | **[[pojmy:akvizicni_korpus|Akviziční korpusy]]** |||||| |
| [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] | 960 tis. | ✓ | ✓ | 2019 | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | | | [[cnk:czesl-sgt-basic|CzeSL-SGT-basic]] | 960 tis. | ✓ | ✓ | 2019 | korpus identický s CzeSL-SGT až na omezený výběr metadat ve vyhledávacím rozhraní | |
| [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | | | [[cnk:skript2012|SKRIPT2012]] | 590 tis. | ✓ | ✓ | 2013 | korpus školních písemných prací | |
| | [[cnk:vespa_cz|VESPA_CZ]] | 500 tis. | ✓ | ✓ | 2022 | [[pojmy:zakovsky|žákovský]] korpus psané akademické angličtiny pokročilých mluvčích s češtinou jako L1 | |
| **Autorské korpusy** |||||| | | **Autorské korpusy** |||||| |
| [[cnk:capek|Capek]] | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka | | | [[cnk:capek|Capek]] | 2,3 mil. | ✓ | ✓ | 2007 | autorský korpus pouze vlastních textů Karla Čapka | |
| [[cnk:ksp|KSP]] | 35,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| | | [[cnk:ksp|KSP]] | 35,5 mil. | ✓ | ✓ | 2022 | korpus současné české poezie (publikované knižně i na literárních serverech) z let 1990–2020| |
| [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | | | [[cnk:link|LINK]] | 1,8 mil. | ✓ | ✓ | 2010 | korpus sestavený z odborných lingvistických textů | |
| | [[cnk:totalita|Totalita]] | 12,9 mil. | ✓ | ✓ | 2010 | korpus psaného jazyka komunistického režimu | |
^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ | ^ <fs large>[[cnk:struktura#korpusy_mluvene|Korpusy mluveného jazyka (synchronní)]]</fs> ^^^^^^ |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | | | [[cnk:bmk|BMK]] | 490 tis. | ✗ | ✗ | 2002 | Brněnský mluvený korpus: přepis nahrávek brněnské mluvy z 90. let 20. století | |
| [[cnk:dialekt|DIALEKT]] (verze 2) | 223 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | | | [[cnk:dialekt|DIALEKT]] (verze 2) | 223 tis. | ✓ | ✓ | 2017 | [[pojmy:referencni|referenční]] nářeční korpus s dvouúrovňovou transkripcí | |
| | [[cnk:jazyky-v-migraci|Jazyky v migraci]] | 294 tis. | ✓ | ✓ | 2022 | korpus rozhovorů (vedených v češtině a němčině) s pozdními německými vysídlenci a českými migranty z Československa do Německa o jejich jazykových biografiích | |
| [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | | | [[cnk:lindsei_cz|LINDSEI_CZ]] | 120 tis. | ✗ | ✗ | 2017 | [[pojmy:zakovsky|žákovský]] korpus spontánní mluvené angličtiny pokročilých mluvčích s češtinou jako L1 | |
| [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | | | [[cnk:pmk|PMK]] | 675 tis. | ✗ | ✗ | 2001 | Pražský mluvený korpus: přepis nahrávek pražské mluvy z 90. let 20. století | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané paralelní korpusy (překlady a originály)]] ** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]]) | 1,8 mld. | (✓) | (✓) | 2008-2022 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 41 dalších jazyků | | | [[cnk:intercorp|InterCorp]] ([[cnk:intercorp:verze13ud|verze 13ud]], [[cnk:intercorp:verze15|verze 15]], [[cnk:intercorp:verze16|verze 16]] ) | 5,3 mld. | (✓) | (✓) | 2008-2023 | [[pojmy:verzovany|verzovaný]] [[pojmy:paralelni|paralelní]] korpus zahrnující kromě češtiny 61 dalších jazyků | |
| | [[cnk:psalm77|Žalm 77]] | 10 tis. | (✓) | (✓) | 2023 | [[pojmy:paralelni|paralelní]] korpus 11 verzí textu žalmu 77 v rumunštině, církevní slovanštině a řečtině | |
| **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| | | **[[cnk:struktura#cizojazycnekorpusy#paralelni|Psané srovnatelné webové korpusy]]** |||||| |
^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ | ^ korpus ^ velikost (počet slov) ^ lemmatizace ^ [[pojmy:tag|morfologické značky]] ^ rok zveřejnění ^ charakteristika korpusu ^ |
| **Psané jednojazyčné speciální korpusy** |||||| | | **Psané jednojazyčné speciální korpusy** |||||| |
| [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | | | [[cnk:codit|CODIT]] | 27 mil. | ✗ | ✗ | 2021 | diachronní korpus italštiny pokrývající období od 13. století do roku 1947 | |
| [[cnk:dotko|DOTKO]] | 12 mil. | ✗ | ✗ | 2010 | korpus dolní lužické srbštiny, převažují texty z let 1848--1933 | | | [[cnk:dotko|DOTKO]] (verze 2) | 15,5 mil. | ✓ | ✗ | 2010 | korpus dolní lužické srbštiny | |
| [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | | | [[cnk:eebo|EEBO]] | 730 mil. | ✗ | ✗ | 2015 | korpus anglických textů z období 1475--1700 z kolekce [[http://www.textcreationpartnership.org/tcp-eebo/|Early English Books Online]] | |
| [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | | | [[cnk:hotko|HOTKO]] (verze 2) | 36 mil. | ✗ | ✗ | 2013 | korpus horní lužické srbštiny | |