Toto je starší verze dokumentu!
Obsah
Všeliké korpusy
Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy.
Výběr specificky zaměřených korpusů
korpus | jazyk, typ | dostupnost | poznámka |
AFEWC | arabština, angličtina, francouzština | zdarma | srovnatelný korpus |
British Academic Written English Corpus | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
BLaRC, dostupné přes Lextutor | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC |
COCA | angličtina | zdarma | korpus současné americké angličtiny, autor: Mark Davies |
Comenego | mnohojazyčný, special. - business, ekonomika | zdarma | zaměřeno na překladatele |
CoMET | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
Datenbank für Gesprochenes Deutsch | němčina, mluvený | po registraci | rozhraní k řadě mluvených korpusů němčiny |
Gos | slovinština | zdarma | rozlišuje mluvený a psaný jazyk |
MASC | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná |
OPUS | paralelní korpusy | zdarma | velké množství jazyků, bez manuální kontroly |
Pizza Request Corpus | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
RusLTC | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
Wolverhampton Business English Corpus | angličtina | zpoplatněný | manuální výběr z webových dat |
Výběr korpusů slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
bosenština | The Oslo Corpus of Bosnian Texts | zdarma | psané texty převážně z 90. let 20. století |
bulharština | BulTreeBank Group | pro výzkum zdarma | psaný jazyk |
čeština | korpusy zpřístupňované přes KonText | zdarma | jednotné rozhraní pro řadu korpusů |
chorvatština | Chorvatský národní korpus | zdarma pro nekomerční využití | psaný jazyk |
polština | Polský národní korpus | zdarma | další velký korpus polštiny je IPI PAN |
ruština | Ruský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovenština | Slovenský národní korpus | zdarma pro nekomerční využití | též mluvený jazyk |
slovinština | BESEDA a FIDAPLUS | zdarma pro nekomerční využití | korpus univerzity a akademie věd |
Výběr korpusů jiných než slovanských jazyků
jazyk | korpus, typ | dostupnost | poznámka |
albánština | Albánský národní korpus | zdarma | vytvářen petrohradskými lingvisty |
angličtina | The Bank of English | dostupná část | pro tvorbu slovníků |
angličtina | COCA | zdarma | vytváří Mark Davies, současný jazyk, i mluvený |
angličtina | Open American National Corpus | zdarma | i mluvený jazyk |
angličtina | korpusy | ||
angličtina | korpusy | ||
angličtina | korpusy | ||
korpusy | |||
korpusy | |||
korpusy | |||
korpusy | |||
korpusy | |||
korpusy |
Další odkazy a seznamy naleznete zde:
- Clarin-D - seznam především německojazyčných korpusů
- diachronní korpusy - seznam vytvořený v Aténách naleznete zde
- různojazyčné korpusy - seznam na základě diskuze na Corpora listu
- různojazyčné korpusy - portugalská stránka
O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit zde.
Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create „virtual corpora“ from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words.
And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds.
Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, subfórum týkající se této wiki.