AplikaceAplikace
Nastavení

Korpusy u nás a ve světě

Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.

Výběr specificky zaměřených korpusů

korpus jazyk, typ dostupnost poznámka
AFEWC arabština, angličtina, francouzština zdarma srovnatelný korpus založený na Wikipedii
British Academic Written English Corpus angličtina, akademický zdarma seminární práce apod. (assignments) univerzitních studentů
BLaRC, dostupné přes Lextutor angličtina, právnický zdarma je třeba vybrat mezi různými korpusy přímo BLaRC
Comenego mnohojazyčný, specializovaný: obchod, ekonomika zdarma zaměřeno na překladatele
CoMET portugalština zdarma snaha podpořit tvorbu korpusově založených výukových materiálů
Gos slovinština, mluvený zdarma rozlišuje mluvený a psaný jazyk
Korpus Karla Čapka autorský jazyk zdarma veškeré publikované dílo K. Č.
MASC angličtina, sémant. anotace zdarma část je podrobně sémanticky anotovaná
N2 - Narrative Networks - Corpus angličtina, sémant. anotace zdarma ke stažení sémanticky anotovaný soubor extrémistických islamistických příběhů
Patentová databáze USA angličtina, patenty zdarma databáze patentů a ochranných známek je de facto korpus
Pizza Request Corpus angličtina, specializovaný zdarma korpus žádostí o pizzu zdarma - včetně metadat o výsledku
RusLTC ruština zdarma Russian Learner Translator Corpus - pro výuku budoucích překladatelů
TIME Magazine Corpus angličtina zdarma korpus z časopisu TIME, autor: Mark Davies
UMIREC Corpus angličtina, anotace koreferenčních vztahů zdarma korpus 30 pohádek se vztahy refrence a koreference
Wolverhampton Business English Corpus angličtina zpoplatněný manuální výběr z webových dat

Výběr (psaných) korpusů slovanských jazyků

jazyk korpus, typ dostupnost poznámka
bosenština The Oslo Corpus of Bosnian Texts zdarma psané texty převážně z 90. let 20. století
bulharština BulTreeBank Group pro výzkum zdarma psaný jazyk
čeština korpusy zpřístupňované přes KonText zdarma jednotné rozhraní pro řadu korpusů
chorvatština Chorvatský národní korpus zdarma pro nekomerční využití psaný jazyk
polština Polský národní korpus zdarma další velký korpus polštiny je IPI PAN
ruština Ruský národní korpus zdarma pro nekomerční využití též mluvený jazyk
slovenština Slovenský národní korpus zdarma pro nekomerční využití též mluvený jazyk
slovinština BESEDA a FIDAPLUS zdarma pro nekomerční využití korpus univerzity a akademie věd

Výběr korpusů jiných než slovanských jazyků

jazyk korpus, typ dostupnost poznámka
albánština Albánský národní korpus zdarma vytvářen petrohradskými lingvisty
angličtina The Bank of English dostupná část pro tvorbu slovníků
angličtina COCA zdarma vytváří Mark Davies, současný jazyk, i mluvený
angličtina Open American National Corpus zdarma i mluvený jazyk
angličtina Brown Corpus zdarma 1. elektronický korpus (1964), z USA
angličtina LOB Lancaster-Bergen-Oslo Corpus zdarma Britský ekvivalent korpusu Brown (1976)
angličtina Strathy Corpus (Canada) zdarma kanadská angličtina
arabština ArabiCorpus zdarma autor: Dil Parkinson
francouzština Frantext placený bezplatně přístupná jen malá část
italština CORpus di Italiano Scritto zdarma i diachronní část
lotyština Lotyšský národní korpus zdarma rozličné typy korpusů
maďarština Maďarský národní korpus zdarma pro nekomerční užití vč. regionálních variant
němčina Datenbank für Gesprochenes Deutsch po registraci rozhraní k řadě mluvených korpusů němčiny
němčina DeReKo Deutches Referenzkorpus (aka Cosmas) zdarma patrně celosvětově nejrozsáhlejší korpus
němčina Deutscher Wortschatz Projekt zdarma lexikografické zpracování na korpusových datech
řečtina Řecký národní korpus zdarma
španělština Korpus současné španělštiny zdarma kompilát několika zdrojů
švédština The Bank of Swedish zdarma obsahuje řadu nejrůznějších specifických korpusů
thajština Thajský národní korpus ? popis korpusu je v thajštině
turečtina Turecký národní korpus po registraci zdarma i mluvený jazyk

Výběr paralelních korpusů

korpus jazyk, typ dostupnost poznámka
CzEng čeština a angličtina přístupná část vyvíjí ÚFAL UK
DGT-TM 22 jazyků EU ke stažení překladatelská paměť právních textů EU
Glosbe více než 100 zdarma korpusově založený slovník, přístup k dokladovým větám (konkordancím)
InterCorp 39 jazyků, beletrie, legislativa, publicistika, filmové titulky zdarma částečně morfologicky anotovaný
Kačenka čeština a angličtina zdarma zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků
OPUS více než 100 zdarma částečná morf. a syntakt. anotace, bez manuální kontroly
ParaSol 31 především slovanských jazyků nutná registrace beletristické texty
Pelcra polština a angličtina není dostupný on-line obsahuje též mluvený jazyk

Další odkazy a seznamy naleznete zde:

O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.

Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.

Související odkazy