Toto je starší verze dokumentu!
Obsah
Všeliké korpusy
Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.
Výběr specificky zaměřených korpusů
korpus | jazyk, typ | dostupnost | poznámka |
AFEWC | arabština, angličtina, francouzština | zdarma | srovnatelný korpus |
British Academic Written English Corpus | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
BLaRC, dostupné přes Lextutor | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC |
Comenego | mnohojazyčný, special. - business, ekonomika | zdarma | zaměřeno na překladatele |
CoMET | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
Gos | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
MASC | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná |
OPUS | paralelní korpusy | zdarma | velké množství jazyků, bez manuální kontroly |
Pizza Request Corpus | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
RusLTC | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
TIME Magazine Corpus | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies |
Wolverhampton Business English Corpus | angličtina | zpoplatněný | manuální výběr z webových dat |
Výběr (psaných) korpusů slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
bosenština | The Oslo Corpus of Bosnian Texts | zdarma | psané texty převážně z 90. let 20. století |
bulharština | BulTreeBank Group | pro výzkum zdarma | psaný jazyk |
čeština | korpusy zpřístupňované přes KonText | zdarma | jednotné rozhraní pro řadu korpusů |
chorvatština | Chorvatský národní korpus | zdarma pro nekomerční využití | psaný jazyk |
polština | Polský národní korpus | zdarma | další velký korpus polštiny je IPI PAN |
ruština | Ruský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovenština | Slovenský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovinština | BESEDA a FIDAPLUS | zdarma pro nekomerční využití | korpus univerzity a akademie věd |
Výběr korpusů jiných než slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
albánština | Albánský národní korpus | zdarma | vytvářen petrohradskými lingvisty |
angličtina | The Bank of English | dostupná část | pro tvorbu slovníků |
angličtina | COCA | zdarma | vytváří Mark Davies, současný jazyk, i mluvený |
angličtina | Open American National Corpus | zdarma | i mluvený jazyk |
angličtina | Brown Corpus | zdarma | 1. elektronický korpus (1964), z USA |
angličtina | LOB Lancaster-Bergen-Oslo Corpus | zdarma | Britský ekvivalent korpusu Brown (1976) |
angličtina | Strathy Corpus (Canada) | zdarma | kanadská angličtina |
francouzština | Frantext | placený | bezplatně přístupná jen malá část |
italština | CORpus di Italiano Scritto | zdarma | i diachronní část |
maďarština | Maďarský národní korpus | zdarma pro nekomerční užití | vč. regionálních variant |
němčina | Datenbank für Gesprochenes Deutsch | po registraci | rozhraní k řadě mluvených korpusů němčiny |
němčina | korpusy | ||
němčina | korpusy | ||
korpusy | |||
korpusy |
Další odkazy a seznamy naleznete zde:
- Clarin-D - seznam především německojazyčných korpusů
- diachronní korpusy - seznam vytvořený v Aténách naleznete zde
- různojazyčné korpusy - seznam na základě diskuze na Corpora listu
- různojazyčné korpusy - portugalská stránka
O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.
Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create „virtual corpora“ from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.
And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.
Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.