Toto je starší verze dokumentu!
Obsah
Rozmanité korpusy
Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.
Výběr specificky zaměřených korpusů
| korpus | jazyk, typ | dostupnost | poznámka |
| AFEWC | arabština, angličtina, francouzština | zdarma | srovnatelný korpus |
| British Academic Written English Corpus | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
| BLaRC, dostupné přes Lextutor | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC |
| Comenego | mnohojazyčný, special. - business, ekonomika | zdarma | zaměřeno na překladatele |
| CoMET | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
| Gos | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
| MASC | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná |
| OPUS | paralelní korpusy | zdarma | velké množství jazyků, bez manuální kontroly |
| Pizza Request Corpus | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
| RusLTC | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
| TIME Magazine Corpus | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies |
| Wolverhampton Business English Corpus | angličtina | zpoplatněný | manuální výběr z webových dat |
Výběr (psaných) korpusů slovanských jazyků
| jazyk | korpus, typ | dostupnost | poznámka |
| bosenština | The Oslo Corpus of Bosnian Texts | zdarma | psané texty převážně z 90. let 20. století |
| bulharština | BulTreeBank Group | pro výzkum zdarma | psaný jazyk |
| čeština | korpusy zpřístupňované přes KonText | zdarma | jednotné rozhraní pro řadu korpusů |
| chorvatština | Chorvatský národní korpus | zdarma pro nekomerční využití | psaný jazyk |
| polština | Polský národní korpus | zdarma | další velký korpus polštiny je IPI PAN |
| ruština | Ruský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
| slovenština | Slovenský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
| slovinština | BESEDA a FIDAPLUS | zdarma pro nekomerční využití | korpus univerzity a akademie věd |
Výběr korpusů jiných než slovanských jazyků
| jazyk | korpus, typ | dostupnost | poznámka |
| albánština | Albánský národní korpus | zdarma | vytvářen petrohradskými lingvisty |
| angličtina | The Bank of English | dostupná část | pro tvorbu slovníků |
| angličtina | COCA | zdarma | vytváří Mark Davies, současný jazyk, i mluvený |
| angličtina | Open American National Corpus | zdarma | i mluvený jazyk |
| angličtina | Brown Corpus | zdarma | 1. elektronický korpus (1964), z USA |
| angličtina | LOB Lancaster-Bergen-Oslo Corpus | zdarma | Britský ekvivalent korpusu Brown (1976) |
| angličtina | Strathy Corpus (Canada) | zdarma | kanadská angličtina |
| arabština | ArabiCorpus | zdarma | autor: Dil Parkinson |
| francouzština | Frantext | placený | bezplatně přístupná jen malá část |
| italština | CORpus di Italiano Scritto | zdarma | i diachronní část |
| maďarština | Maďarský národní korpus | zdarma pro nekomerční užití | vč. regionálních variant |
| němčina | Datenbank für Gesprochenes Deutsch | po registraci | rozhraní k řadě mluvených korpusů němčiny |
| němčina | DeReKo Deutches Referenzkorpus (aka Cosmas) | zdarma | patrně celosvětově nejrozsáhlejší korpus |
| němčina | Deutscher Wortschatz Projekt | zdarma | lexikografické zpracování na korpusových datech |
| řečtina | Řecký národní korpus | zdarma | |
| španělština | Korpus současné španělštiny | zdarma | kompilát několika zdrojů |
| švédština | The Bank of Swedish | zdarma | obsahuje řadu nejrůznějších specifických korpusů |
| thajština | Thajský národní korpus | ? | popis korpusu je v thajštině |
| turečtina | Turecký národní korpus | po registraci zdarma | i mluvený jazyk |
Další odkazy a seznamy naleznete zde:
- Clarin-D - seznam především německojazyčných korpusů
- diachronní korpusy - seznam vytvořený v Aténách naleznete zde
- různojazyčné korpusy - seznam na základě diskuze na Corpora listu
- různojazyčné korpusy - portugalská stránka
- různojazyčné korpusy, řada skandinávských - http://spraakbanken.gu.se/eng/resources
O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.
Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.