AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:korpusy [2014/11/23 16:51] – [Výběr specificky zaměřených korpusů] olgarichterovapojmy:korpusy [2021/10/23 05:23] (aktuální) – [Výběr korpusů jiných než slovanských jazyků] michalskrabal
Řádek 1: Řádek 1:
-====== Rozmanité korpusy ======+====== Korpusy u nás a ve světě ======
  
  
Řádek 7: Řádek 7:
  
 | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** |
-| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus |+| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii |
 | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
-| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | +| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | 
-| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, special. - business, ekonomika | zdarma| zaměřeno na překladatele |+| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele |
 | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
 | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
 | [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | | [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. |
-| [[http://www.anc.org/data/masc/|MASC]] | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná  |+| [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná  
 +| [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení  | sémanticky anotovaný soubor extrémistických islamistických příběhů | 
 +| [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtina, patenty | zdarma | databáze patentů a ochranných známek je de facto korpus |
 | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
 | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
Řádek 45: Řádek 47:
 | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson |  | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | 
 | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část |  | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | 
-| italština| [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | +| italština | [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část |  
 +| lotyština | [[http://www.korpuss.lv/|Lotyšský národní korpus]] | zdarma | rozličné typy korpusů |
 | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant |  | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | 
 | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny |  | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | 
Řádek 63: Řádek 66:
 | [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | | [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU |
 | [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | | [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) |
-| [[https://ucnk.ff.cuni.cz/intercorp/?req=page:info|InterCorp]] | 32 jazyků, beletrie, právní, publicistika | zdarma | částečně morfologicky anotovaný |+| [[cnk:intercorp|InterCorp]] | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný |
 | [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | | [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků |
 | [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | | [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly |
Řádek 80: Řádek 83:
  
 Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]].
 +
 ==== Související odkazy ==== ==== Související odkazy ====
  
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:struktura|Struktura Českého národního korpusu]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]]+[[cnk:struktura|Struktura Českého národního korpusu]] • [[manualy:kontext:index|KonText]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:srovnatelny|Srovnatelné korpusy]]
 </WRAP> </WRAP>