Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
pojmy:korpusy [2014/11/23 13:33] – olgarichterova | pojmy:korpusy [2021/10/23 05:23] (aktuální) – [Výběr korpusů jiných než slovanských jazyků] michalskrabal |
---|
====== Rozmanité korpusy ====== | ====== Korpusy u nás a ve světě ====== |
| |
| |
| |
| **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | |
| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus | | | [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii | |
| [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | | | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | |
| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | | | BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | |
| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, special. - business, ekonomika | zdarma| zaměřeno na překladatele | | | [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele | |
| [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | | | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | |
| [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | | | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | |
| [[http://www.anc.org/data/masc/|MASC]] | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná | | | [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | |
| | [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná | |
| | [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení | sémanticky anotovaný soubor extrémistických islamistických příběhů | |
| | [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtina, patenty | zdarma | databáze patentů a ochranných známek je de facto korpus | |
| [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | |
| [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | |
| [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | | | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | |
| | [[http://dspace.mit.edu/handle/1721.1/57507|UMIREC Corpus]] | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference | |
| [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | | | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | |
| |
| arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | | | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | |
| francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | | | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | |
| italština| [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | | | italština | [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | |
| | lotyština | [[http://www.korpuss.lv/|Lotyšský národní korpus]] | zdarma | rozličné typy korpusů | |
| maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | | | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | |
| němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | | | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | |
| [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | | | [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | |
| [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | | | [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | |
| [[https://ucnk.ff.cuni.cz/intercorp/?req=page:info|InterCorp]] | 32 jazyků, beletrie, právní, publicistika | zdarma | částečně morfologicky anotovaný | | | [[cnk:intercorp|InterCorp]] | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný | |
| [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | | | [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | |
| [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | | | [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | |
| |
Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. | Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. |
| |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 50%> | <WRAP round box 50%> |
[[cnk:struktura|Struktura Českého národního korpusu]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] | [[cnk:struktura|Struktura Českého národního korpusu]] • [[manualy:kontext:index|KonText]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:srovnatelny|Srovnatelné korpusy]] |
</WRAP> | </WRAP> |