AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Rozmanité korpusy

Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehled je pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.

korpus jazyk, typ dostupnost poznámka
AFEWC arabština, angličtina, francouzština zdarma AFEWC srovnatelný korpus
BAWE angličtina, akademický zdarma British Academic Written English Corpus seminární práce apod. (assignments) univerzitních studentů
BLaRC angličtina, special. - law reports zdarma dostupné přes Lextutor je třeba vybrat mezi různými korpusy přímo BLaRC
COCA angličtina zdarma COCA korpus současné americké angličtiny, autor: Mark Davies
Comenego mnohojazyčný, special. - business, ekonomika zdarma zaměřeno na překladatele
CoMET portugalština zdarma CoMET snaha podpořit tvorbu korpusově založených výukových materiálů
Datenbank für Gesprochenes Deutsch (DGD2) němčina, mluvený po registraci DGD rozhraní k řadě mluvených korpusů němčiny
Gos slovinština zdarma Gos rozlišuje mluvený a psaný jazyk
MASC angličtina, specializovaný zdarma MASC část je podrobně sémanticky anotovaná
OPUS paralelní korpusy zdarma OPUS velké množství jazyků, bez manuální kontroly
Pizza Request Corpus angličtina, specializovaný zdarma data ke stažení korpus žádostí o pizzu zdarma - včetně metadat o výsledku
RusLTC ruština zdarma RusLTC Russian Learner Translator Corpus - pro výuku budoucích překladatelů

Další odkazy a seznamy naleznete zde:

O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.

Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create „virtual corpora“ from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.

And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.

Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.

Související odkazy