AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
pojmy:korpusy [2014/11/18 02:55] – [Výběr specificky zaměřených korpusů] olgarichterovapojmy:korpusy [2021/10/23 05:23] (aktuální) – [Výběr korpusů jiných než slovanských jazyků] michalskrabal
Řádek 1: Řádek 1:
-====== Všeliké korpusy ======+====== Korpusy u nás a ve světě ======
  
  
Řádek 7: Řádek 7:
  
 | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** |
-| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | srovnatelný korpus |+| [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii |
 | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů |
-| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, special. - law reports | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | +| BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | 
-| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, special. - business, ekonomika | zdarma| zaměřeno na překladatele |+| [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele |
 | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů |
 | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk |
-| [[http://www.anc.org/data/masc/|MASC]] | angličtina, specializovaný | zdarma | část je podrobně sémanticky anotovaná +| [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | 
-| [[http://opus.lingfil.uu.se/|OPUS]] | paralelní korpusy | zdarma | velké množství jazyků, bez manuální kontroly |+| [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná 
 +| [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení  | sémanticky anotovaný soubor extrémistických islamistických příběhů 
 +| [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtinapatenty | zdarma | databáze patentů a ochranných známek je de facto korpus |
 | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku |
 | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma  | Russian Learner Translator Corpus - pro výuku budoucích překladatelů |
 | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies |
 +| [[http://dspace.mit.edu/handle/1721.1/57507|UMIREC Corpus]] | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference |
 | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat |  | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | 
  
Řádek 42: Řádek 45:
 | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/LOB/|LOB Lancaster-Bergen-Oslo Corpus]] | zdarma | Britský ekvivalent korpusu Brown (1976) |  | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/LOB/|LOB Lancaster-Bergen-Oslo Corpus]] | zdarma | Britský ekvivalent korpusu Brown (1976) | 
 | angličtina | [[http://corpus2.byu.edu/can/|Strathy Corpus (Canada)]] | zdarma | kanadská angličtina |  | angličtina | [[http://corpus2.byu.edu/can/|Strathy Corpus (Canada)]] | zdarma | kanadská angličtina | 
 +| arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | 
 | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část |  | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | 
-| italština| [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | +| italština | [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část |  
 +| lotyština | [[http://www.korpuss.lv/|Lotyšský národní korpus]] | zdarma | rozličné typy korpusů |
 | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant |  | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | 
 | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny |  | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | 
-| němčina | [[|]] | | |  +| němčina | [[http://www1.ids-mannheim.de/kl/projekte/korpora/|DeReKo Deutches Referenzkorpus (aka Cosmas)]] | zdarma patrně celosvětově nejrozsáhlejší korpus |  
-| němčina | [[|]] | | |  +| němčina | [[http://wortschatz.uni-leipzig.de/|Deutscher Wortschatz Projekt]] | zdarma lexikografické zpracování na korpusových datech |  
-| | [[|]] | | |  +řečtina | [[http://corpus.ilsp.gr/en/|Řecký národní korpus]] | zdarma | |  
-| | [[|]] | | | +španělština | [[http://sfn.uab.es:8080/SFN/tools/cea/english|Korpus současné španělštiny]] | zdarma | kompilát několika zdrojů |  
 +| švédština | [[http://spraakbanken.gu.se/eng/start|The Bank of Swedish]] | zdarma | obsahuje řadu nejrůznějších specifických korpusů |  
 +| thajština | [[http://ling.arts.chula.ac.th/TNC/|Thajský národní korpus]] | ? | popis korpusu je v thajštině |  
 +| turečtina | [[http://www.tnc.org.tr/index.php/en/|Turecký národní korpus]] | po registraci zdarma | i mluvený jazyk |  
 + 
 + 
 +==== Výběr paralelních korpusů ==== 
 + 
 +| **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | 
 +| [[http://ufal.mff.cuni.cz/czeng|CzEng]] | čeština a angličtina| přístupná část | vyvíjí ÚFAL UK | 
 +| [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | 
 +| [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | 
 +| [[cnk:intercorp|InterCorp]] | 39 jazyků, beletrie, legislativa, publicistika, filmové titulky | zdarma | částečně morfologicky anotovaný | 
 +| [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | 
 +| [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | 
 +| [[http://www.slavist.de/|ParaSol]] | 31 především slovanských jazyků | nutná registrace| beletristické texty | 
 +| [[http://pelcra.pl/new/pelcra_corpus|Pelcra]] | polština a angličtina | není dostupný on-lineobsahuje též mluvený jazyk |
  
  
Řádek 57: Řádek 78:
   * různojazyčné korpusy - [[http://www.forum.santini.se/2014/04/corporasummary/|seznam na základě diskuze na Corpora listu]]   * různojazyčné korpusy - [[http://www.forum.santini.se/2014/04/corporasummary/|seznam na základě diskuze na Corpora listu]]
   * různojazyčné korpusy - [[http://comet.fflch.usp.br/corporaonline|portugalská stránka]]   * různojazyčné korpusy - [[http://comet.fflch.usp.br/corporaonline|portugalská stránka]]
 +  * různojazyčné korpusy, řada skandinávských - [[http://spraakbanken.gu.se/eng/resources]]
  
 O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]].
- 
-Mark Davies: in about 5-6 weeks I'll be releasing a corpus that is based on the 2 billion words (4.5 million articles) in Wikipedia, which should do most of what you want. Via the web interface, you'll be able to quickly and easily create "virtual corpora" from the 4.5 million articles, based on titles, page links, and/or page content. Each of these virtual, personalized corpora can have up to 1,000 articles and 1.2 million words. 
- 
- 
-And then you'll be able to search within these virtual corpora (strings, n-grams, collocates, collocations, concordances, etc) , or compare word and phrase frequencies across your virtual corpora, or find keywords (including multi-word expressions) in your corpora, all from within the web interface and all within just a few seconds. 
  
 Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]].
Řádek 70: Řádek 87:
  
 <WRAP round box 50%> <WRAP round box 50%>
-[[cnk:struktura|Struktura Českého národního korpusu]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]]+[[cnk:struktura|Struktura Českého národního korpusu]] • [[manualy:kontext:index|KonText]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] • [[pojmy:srovnatelny|Srovnatelné korpusy]]
 </WRAP> </WRAP>