Všeliké korpusy

Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.

Výběr specificky zaměřených korpusů

korpus	jazyk, typ	dostupnost	poznámka
AFEWC	arabština, angličtina, francouzština	zdarma	srovnatelný korpus
British Academic Written English Corpus	angličtina, akademický	zdarma	seminární práce apod. (assignments) univerzitních studentů
BLaRC, dostupné přes Lextutor	angličtina, special. - law reports	zdarma	je třeba vybrat mezi různými korpusy přímo BLaRC
Comenego	mnohojazyčný, special. - business, ekonomika	zdarma	zaměřeno na překladatele
CoMET	portugalština	zdarma	snaha podpořit tvorbu korpusově založených výukových materiálů
Gos	slovinština, mluvený	zdarma	rozlišuje mluvený a psaný jazyk
MASC	angličtina, specializovaný	zdarma	část je podrobně sémanticky anotovaná
OPUS	paralelní korpusy	zdarma	velké množství jazyků, bez manuální kontroly
Pizza Request Corpus	angličtina, specializovaný	zdarma	korpus žádostí o pizzu zdarma - včetně metadat o výsledku
RusLTC	ruština	zdarma	Russian Learner Translator Corpus - pro výuku budoucích překladatelů
TIME Magazine Corpus	angličtina	zdarma	korpus z časopisu TIME, autor: Mark Davies
Wolverhampton Business English Corpus	angličtina	zpoplatněný	manuální výběr z webových dat

Výběr (psaných) korpusů slovanských jazyků

jazyk	korpus, typ	dostupnost	poznámka
bosenština	The Oslo Corpus of Bosnian Texts	zdarma	psané texty převážně z 90. let 20. století
bulharština	BulTreeBank Group	pro výzkum zdarma	psaný jazyk
čeština	korpusy zpřístupňované přes KonText	zdarma	jednotné rozhraní pro řadu korpusů
chorvatština	Chorvatský národní korpus	zdarma pro nekomerční využití	psaný jazyk
polština	Polský národní korpus	zdarma	další velký korpus polštiny je IPI PAN
ruština	Ruský národní korpus	zdarma pro nekomerční využití	též mluvený jazyk
slovenština	Slovenský národní korpus	zdarma pro nekomerční využití	též mluvený jazyk
slovinština	BESEDA a FIDAPLUS	zdarma pro nekomerční využití	korpus univerzity a akademie věd

Výběr korpusů jiných než slovanských jazyků

jazyk	korpus, typ	dostupnost	poznámka
albánština	Albánský národní korpus	zdarma	vytvářen petrohradskými lingvisty
angličtina	The Bank of English	dostupná část	pro tvorbu slovníků
angličtina	COCA	zdarma	vytváří Mark Davies, současný jazyk, i mluvený
angličtina	Open American National Corpus	zdarma	i mluvený jazyk
angličtina	Brown Corpus	zdarma	1. elektronický korpus (1964), z USA
angličtina	LOB Lancaster-Bergen-Oslo Corpus	zdarma	Britský ekvivalent korpusu Brown (1976)
angličtina	Strathy Corpus (Canada)	zdarma	kanadská angličtina
francouzština	Frantext	placený	bezplatně přístupná jen malá část
italština	CORpus di Italiano Scritto	zdarma	i diachronní část
maďarština	Maďarský národní korpus	zdarma pro nekomerční užití	vč. regionálních variant
němčina	Datenbank für Gesprochenes Deutsch	po registraci	rozhraní k řadě mluvených korpusů němčiny
němčina	korpusy
němčina	korpusy
	korpusy
	korpusy

Další odkazy a seznamy naleznete zde:

Clarin-D - seznam především německojazyčných korpusů
diachronní korpusy - seznam vytvořený v Aténách naleznete zde
různojazyčné korpusy - seznam na základě diskuze na Corpora listu
různojazyčné korpusy - portugalská stránka

O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.

Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create „virtual corpora“ from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.

And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.

Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.