Obsah
Korpusy u nás a ve světě
Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.
Výběr specificky zaměřených korpusů
korpus | jazyk, typ | dostupnost | poznámka |
AFEWC | arabština, angličtina, francouzština | zdarma | srovnatelný korpus založený na Wikipedii |
British Academic Written English Corpus | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
BLaRC, dostupné přes Lextutor | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC |
Comenego | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma | zaměřeno na překladatele |
CoMET | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
Gos | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
Korpus Karla Čapka | autorský jazyk | zdarma | veškeré publikované dílo K. Č. |
MASC | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná |
N2 - Narrative Networks - Corpus | angličtina, sémant. anotace | zdarma ke stažení | sémanticky anotovaný soubor extrémistických islamistických příběhů |
Patentová databáze USA | angličtina, patenty | zdarma | databáze patentů a ochranných známek je de facto korpus |
Pizza Request Corpus | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
RusLTC | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
TIME Magazine Corpus | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies |
UMIREC Corpus | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference |
Wolverhampton Business English Corpus | angličtina | zpoplatněný | manuální výběr z webových dat |
Výběr (psaných) korpusů slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
bosenština | The Oslo Corpus of Bosnian Texts | zdarma | psané texty převážně z 90. let 20. století |
bulharština | BulTreeBank Group | pro výzkum zdarma | psaný jazyk |
čeština | korpusy zpřístupňované přes KonText | zdarma | jednotné rozhraní pro řadu korpusů |
chorvatština | Chorvatský národní korpus | zdarma pro nekomerční využití | psaný jazyk |
polština | Polský národní korpus | zdarma | další velký korpus polštiny je IPI PAN |
ruština | Ruský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovenština | Slovenský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovinština | BESEDA a FIDAPLUS | zdarma pro nekomerční využití | korpus univerzity a akademie věd |
Výběr korpusů jiných než slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
albánština | Albánský národní korpus | zdarma | vytvářen petrohradskými lingvisty |
angličtina | The Bank of English | dostupná část | pro tvorbu slovníků |
angličtina | COCA | zdarma | vytváří Mark Davies, současný jazyk, i mluvený |
angličtina | Open American National Corpus | zdarma | i mluvený jazyk |
angličtina | Brown Corpus | zdarma | 1. elektronický korpus (1964), z USA |
angličtina | LOB Lancaster-Bergen-Oslo Corpus | zdarma | Britský ekvivalent korpusu Brown (1976) |
angličtina | Strathy Corpus (Canada) | zdarma | kanadská angličtina |
arabština | ArabiCorpus | zdarma | autor: Dil Parkinson |
francouzština | Frantext | placený | bezplatně přístupná jen malá část |
italština | CORpus di Italiano Scritto | zdarma | i diachronní část |
lotyština | Lotyšský národní korpus | zdarma | rozličné typy korpusů |
maďarština | Maďarský národní korpus | zdarma pro nekomerční užití | vč. regionálních variant |
němčina | Datenbank für Gesprochenes Deutsch | po registraci | rozhraní k řadě mluvených korpusů němčiny |
němčina | DeReKo Deutches Referenzkorpus (aka Cosmas) | zdarma | patrně celosvětově nejrozsáhlejší korpus |
němčina | Deutscher Wortschatz Projekt | zdarma | lexikografické zpracování na korpusových datech |
řečtina | Řecký národní korpus | zdarma | |
španělština | Korpus současné španělštiny | zdarma | kompilát několika zdrojů |
švédština | The Bank of Swedish | zdarma | obsahuje řadu nejrůznějších specifických korpusů |
thajština | Thajský národní korpus | ? | popis korpusu je v thajštině |
turečtina | Turecký národní korpus | po registraci zdarma | i mluvený jazyk |
Výběr paralelních korpusů
korpus | jazyk, typ | dostupnost | poznámka |
CzEng | čeština a angličtina | přístupná část | vyvíjí ÚFAL UK |
DGT-TM | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU |
Glosbe | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) |
InterCorp | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný |
Kačenka | čeština a angličtina | zdarma | zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků |
OPUS | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly |
ParaSol | 31 především slovanských jazyků | nutná registrace | beletristické texty |
Pelcra | polština a angličtina | není dostupný on-line | obsahuje též mluvený jazyk |
Další odkazy a seznamy naleznete zde:
- Clarin-D - seznam především německojazyčných korpusů
- diachronní korpusy - seznam vytvořený v Aténách naleznete zde
- různojazyčné korpusy - seznam na základě diskuze na Corpora listu
- různojazyčné korpusy - portugalská stránka
- různojazyčné korpusy, řada skandinávských - http://spraakbanken.gu.se/eng/resources
O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.
Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.