====== Korpusy u nás a ve světě ====== Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy. ==== Výběr specificky zaměřených korpusů ==== | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii | | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | | BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | | [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele | | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | | [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | | [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná | | [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení | sémanticky anotovaný soubor extrémistických islamistických příběhů | | [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtina, patenty | zdarma | databáze patentů a ochranných známek je de facto korpus | | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | | [[http://dspace.mit.edu/handle/1721.1/57507|UMIREC Corpus]] | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference | | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | ==== Výběr (psaných) korpusů slovanských jazyků ==== | **jazyk** | **korpus, typ** | **dostupnost** | **poznámka** | | bosenština | [[http://www.tekstlab.uio.no/Bosnian/Corpus.html|The Oslo Corpus of Bosnian Texts]] | zdarma | psané texty převážně z 90. let 20. století | | bulharština | [[http://www.bultreebank.org/|BulTreeBank Group]] | pro výzkum zdarma | psaný jazyk | | čeština | [[cnk:uvod|korpusy zpřístupňované přes KonText]]| zdarma | jednotné rozhraní pro řadu korpusů | | chorvatština | [[http://www.hnk.ffzg.hr/cnc.htm|Chorvatský národní korpus]] | zdarma pro nekomerční využití | psaný jazyk | | polština| [[http://nkjp.pl/|Polský národní korpus]] | zdarma | další velký korpus polštiny je [[http://korpus.pl/|IPI PAN]] | | ruština | [[http://www.ruscorpora.ru/|Ruský národní korpus]] | zdarma pro nekomerční využití | též mluvený jazyk | | slovenština | [[http://korpus.juls.savba.sk/|Slovenský národní korpus]] | zdarma pro nekomerční využití | též mluvený jazyk | | slovinština | [[http://bos.zrc-sazu.si/|BESEDA]] a [[http://www.fidaplus.net/|FIDAPLUS]] | zdarma pro nekomerční využití | korpus univerzity a akademie věd | ==== Výběr korpusů jiných než slovanských jazyků ==== | **jazyk** | **korpus, typ** | **dostupnost** | **poznámka** | | albánština | [[http://web-corpora.net/AlbanianCorpus/search/?interface_language=en|Albánský národní korpus]] | zdarma | vytvářen petrohradskými lingvisty | | angličtina | [[http://www.mycobuild.com/about-collins-corpus.aspx|The Bank of English]] | dostupná část | pro tvorbu slovníků | | angličtina | [[http://corpus.byu.edu/coca/|COCA]] | zdarma | vytváří Mark Davies, současný jazyk, i mluvený | | angličtina | [[http://www.americannationalcorpus.org/OANC/index.html|Open American National Corpus]] | zdarma | i mluvený jazyk| | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/|Brown Corpus]] | zdarma | 1. elektronický korpus (1964), z USA | | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/LOB/|LOB Lancaster-Bergen-Oslo Corpus]] | zdarma | Britský ekvivalent korpusu Brown (1976) | | angličtina | [[http://corpus2.byu.edu/can/|Strathy Corpus (Canada)]] | zdarma | kanadská angličtina | | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | | italština | [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | | lotyština | [[http://www.korpuss.lv/|Lotyšský národní korpus]] | zdarma | rozličné typy korpusů | | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | | němčina | [[http://www1.ids-mannheim.de/kl/projekte/korpora/|DeReKo Deutches Referenzkorpus (aka Cosmas)]] | zdarma | patrně celosvětově nejrozsáhlejší korpus | | němčina | [[http://wortschatz.uni-leipzig.de/|Deutscher Wortschatz Projekt]] | zdarma | lexikografické zpracování na korpusových datech | | řečtina | [[http://corpus.ilsp.gr/en/|Řecký národní korpus]] | zdarma | | | španělština | [[http://sfn.uab.es:8080/SFN/tools/cea/english|Korpus současné španělštiny]] | zdarma | kompilát několika zdrojů | | švédština | [[http://spraakbanken.gu.se/eng/start|The Bank of Swedish]] | zdarma | obsahuje řadu nejrůznějších specifických korpusů | | thajština | [[http://ling.arts.chula.ac.th/TNC/|Thajský národní korpus]] | ? | popis korpusu je v thajštině | | turečtina | [[http://www.tnc.org.tr/index.php/en/|Turecký národní korpus]] | po registraci zdarma | i mluvený jazyk | ==== Výběr paralelních korpusů ==== | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | [[http://ufal.mff.cuni.cz/czeng|CzEng]] | čeština a angličtina| přístupná část | vyvíjí ÚFAL UK | | [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | | [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | | [[cnk:intercorp|InterCorp]] | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný | | [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | | [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | | [[http://www.slavist.de/|ParaSol]] | 31 především slovanských jazyků | nutná registrace| beletristické texty | | [[http://pelcra.pl/new/pelcra_corpus|Pelcra]] | polština a angličtina | není dostupný on-line| obsahuje též mluvený jazyk | Další odkazy a seznamy naleznete zde: * Clarin-D - [[http://de.clarin.eu/de/sprachressourcen/corpora.html|seznam především německojazyčných korpusů]] * diachronní korpusy - [[http://en.greekcorpus20.phil.uoa.gr/publications.html|seznam vytvořený v Aténách naleznete zde]] * různojazyčné korpusy - [[http://www.forum.santini.se/2014/04/corporasummary/|seznam na základě diskuze na Corpora listu]] * různojazyčné korpusy - [[http://comet.fflch.usp.br/corporaonline|portugalská stránka]] * různojazyčné korpusy, řada skandinávských - [[http://spraakbanken.gu.se/eng/resources]] O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. ==== Související odkazy ==== [[cnk:struktura|Struktura Českého národního korpusu]] • [[manualy:kontext:index|KonText]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:srovnatelny|Srovnatelné korpusy]]