AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:korpusy [2014/11/23 13:14] – [Všeliké korpusy] Olga Richterovapojmy:korpusy [2021/10/23 05:23] (aktuální) – [Výběr korpusů jiných než slovanských jazyků] Michal Škrabal
Řádek 1: Řádek 1:
-====== Rozmanité korpusy ======+====== Korpusy u nás a ve světě ======
  
  
Řádek 7: Řádek 7:
  
 | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** |
-| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus |+| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii |
 | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
-| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | +| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | 
-| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, special. - business, ekonomika | zdarma| zaměřeno na překladatele |+| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele |
 | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
 | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
-| [[http://www.anc.org/data/masc/|MASC]] | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná +| [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | 
-| [[http://opus.lingfil.uu.se/|OPUS]] | paralelní korpusy | zdarma | velké množství jazyků, bez manuální kontroly |+| [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná 
 +| [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení  | sémanticky anotovaný soubor extrémistických islamistických příběhů 
 +| [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtinapatenty | zdarma | databáze patentů a ochranných známek je de facto korpus |
 | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
 | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
 | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies |
 +| [[http://dspace.mit.edu/handle/1721.1/57507|UMIREC Corpus]] | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference |
 | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat |  | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | 
  
Řádek 44: Řádek 47:
 | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson |  | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | 
 | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část |  | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | 
-| italština| [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | +| italština | [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část |  
 +| lotyština | [[http://www.korpuss.lv/|Lotyšský národní korpus]] | zdarma | rozličné typy korpusů |
 | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant |  | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | 
 | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny |  | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | 
Řádek 54: Řádek 58:
 | thajština | [[http://ling.arts.chula.ac.th/TNC/|Thajský národní korpus]] | ? | popis korpusu je v thajštině |  | thajština | [[http://ling.arts.chula.ac.th/TNC/|Thajský národní korpus]] | ? | popis korpusu je v thajštině | 
 | turečtina | [[http://www.tnc.org.tr/index.php/en/|Turecký národní korpus]] | po registraci zdarma | i mluvený jazyk |  | turečtina | [[http://www.tnc.org.tr/index.php/en/|Turecký národní korpus]] | po registraci zdarma | i mluvený jazyk | 
 +
 +
 +==== Výběr paralelních korpusů ====
 +
 +| **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** |
 +| [[http://ufal.mff.cuni.cz/czeng|CzEng]] | čeština a angličtina| přístupná část | vyvíjí ÚFAL UK |
 +| [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU |
 +| [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) |
 +| [[cnk:intercorp|InterCorp]] | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný |
 +| [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků |
 +| [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly |
 +| [[http://www.slavist.de/|ParaSol]] | 31 především slovanských jazyků | nutná registrace| beletristické texty |
 +| [[http://pelcra.pl/new/pelcra_corpus|Pelcra]] | polština a angličtina | není dostupný on-line| obsahuje též mluvený jazyk |
 +
  
 Další odkazy a seznamy naleznete zde: Další odkazy a seznamy naleznete zde:
Řádek 65: Řádek 83:
  
 Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]].
 +
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:struktura|Struktura Českého národního korpusu]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]]+[[cnk:struktura|Struktura Českého národního korpusu]] • [[manualy:kontext:index|KonText]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:srovnatelny|Srovnatelné korpusy]]
 </WRAP> </WRAP>