Toto je starší verze dokumentu!

Rozmanité korpusy

Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehled je pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.

korpus	jazyk, typ	dostupnost	poznámka
AFEWC	arabština, angličtina, francouzština	zdarma	AFEWC	srovnatelný korpus
BAWE	angličtina, akademický	zdarma	British Academic Written English Corpus	seminární práce apod. (assignments) univerzitních studentů
BLaRC	angličtina, special. - law reports	zdarma	dostupné přes Lextutor	je třeba vybrat mezi různými korpusy přímo BLaRC
COCA	angličtina	zdarma	COCA	korpus současné americké angličtiny, autor: Mark Davies
Comenego	mnohojazyčný, special. - business, ekonomika	zdarma	zaměřeno na překladatele
CoMET	portugalština	zdarma	CoMET	snaha podpořit tvorbu korpusově založených výukových materiálů
Datenbank für Gesprochenes Deutsch (DGD2)	němčina, mluvený	po registraci	DGD	rozhraní k řadě mluvených korpusů němčiny

Gos	slovinština	zdarma	Gos	rozlišuje mluvený a psaný jazyk
MASC	angličtina, specializovaný	zdarma	MASC	část je podrobně sémanticky anotovaná
OPUS	paralelní korpusy	zdarma	OPUS	velké množství jazyků, bez manuální kontroly
Pizza Request Corpus	angličtina, specializovaný	zdarma	data ke stažení	korpus žádostí o pizzu zdarma - včetně metadat o výsledku
RusLTC	ruština	zdarma	RusLTC	Russian Learner Translator Corpus - pro výuku budoucích překladatelů

Další odkazy a seznamy naleznete zde:

Clarin-D - seznam především německojazyčných korpusů
diachronní korpusy - seznam vytvořený v Aténách naleznete zde
různojazyčné korpusy - seznam na základě diskuze na Corpora listu
různojazyčné korpusy - portugalská stránka

O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.

Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create „virtual corpora“ from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.

And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.

Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.

Související odkazy

Struktura Českého národního korpusu • NoSketch Engine • Korpusový manažer

Historie: • korpusy

Rozmanité korpusy

Související odkazy

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence