Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:korpusy [2014/11/10 04:04] – olgarichterova | pojmy:korpusy [2014/11/24 00:34] – [Výběr specificky zaměřených korpusů] olgarichterova |
---|
| |
| |
Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehled je pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy. | Vzniká nepřeberné množství různě velkých a různě zaměřených korpusů v nejrůznějších jazycích. Následující přehledové tabulky jsou pouhou ochutnávkou toho, o jak rozmanitou a neustále se zvětšující oblast se jedná. Níže proto najdete i odkazy na další seznamy a přehledy. |
| |
| ==== Výběr specificky zaměřených korpusů ==== |
| |
| | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | |
| | [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | arabština, angličtina, francouzština | zdarma | [[srovnatelný]] korpus založený na Wikipedii | |
| | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | angličtina, akademický | zdarma | seminární práce apod. (assignments) univerzitních studentů | |
| | BLaRC, dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | angličtina, právnický | zdarma | je třeba vybrat mezi různými korpusy přímo BLaRC | |
| | [[http://dti.ua.es/en/comenego/comenego-multilingual-corpus-of-business-and-economics.html|Comenego]] | mnohojazyčný, specializovaný: obchod, ekonomika | zdarma| zaměřeno na překladatele | |
| | [[http://comet.fflch.usp.br/projeto|CoMET]] | portugalština | zdarma | snaha podpořit tvorbu korpusově založených výukových materiálů | |
| | [[http://www.korpus-gos.net/|Gos]] | slovinština, mluvený | zdarma | rozlišuje mluvený a psaný jazyk | |
| | [[http://korpus.cz/publikace.php#capek|Korpus Karla Čapka]] | autorský jazyk | zdarma| veškeré publikované dílo K. Č. | |
| | [[http://www.anc.org/data/masc/|MASC]] | angličtina, sémant. anotace | zdarma | část je podrobně sémanticky anotovaná | |
| | [[http://dspace.mit.edu/handle/1721.1/85893|N2 - Narrative Networks - Corpus]] | angličtina, sémant. anotace | zdarma ke stažení | sémanticky anotovaný soubor extrémistických islamistických příběhů | |
| | [[http://patft.uspto.gov/|Patentová databáze USA]] | angličtina, patenty | zdarma | databáze patentů a ochranných známek je de facto korpus | |
| | [[http://cs.stanford.edu/~althoff/raop-dataset/|Pizza Request Corpus]] | angličtina, specializovaný | zdarma | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | |
| | [[http://rus-ltc.org/|RusLTC]] | ruština | zdarma | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | |
| | [[http://corpus.byu.edu/time/|TIME Magazine Corpus]] | angličtina | zdarma | korpus z časopisu TIME, autor: Mark Davies | |
| | [[http://dspace.mit.edu/handle/1721.1/57507|UMIREC Corpus]] | angličtina, anotace koreferenčních vztahů | zdarma | korpus 30 pohádek se vztahy refrence a koreference | |
| | [[http://catalog.elra.info/product_info.php?products_id=627|Wolverhampton Business English Corpus ]]| angličtina | zpoplatněný | manuální výběr z webových dat | |
| |
| ==== Výběr (psaných) korpusů slovanských jazyků ==== |
| |
| | **jazyk** | **korpus, typ** | **dostupnost** | **poznámka** | |
| | bosenština | [[http://www.tekstlab.uio.no/Bosnian/Corpus.html|The Oslo Corpus of Bosnian Texts]] | zdarma | psané texty převážně z 90. let 20. století | |
| | bulharština | [[http://www.bultreebank.org/|BulTreeBank Group]] | pro výzkum zdarma | psaný jazyk | |
| | čeština | [[cnk:uvod|korpusy zpřístupňované přes KonText]]| zdarma | jednotné rozhraní pro řadu korpusů | |
| | chorvatština | [[http://www.hnk.ffzg.hr/cnc.htm|Chorvatský národní korpus]] | zdarma pro nekomerční využití | psaný jazyk | |
| | polština| [[http://nkjp.pl/|Polský národní korpus]] | zdarma | další velký korpus polštiny je [[http://korpus.pl/|IPI PAN]] | |
| | ruština | [[http://www.ruscorpora.ru/|Ruský národní korpus]] | zdarma pro nekomerční využití | též mluvený jazyk | |
| | slovenština | [[http://korpus.juls.savba.sk/|Slovenský národní korpus]] | zdarma pro nekomerční využití | též mluvený jazyk | |
| | slovinština | [[http://bos.zrc-sazu.si/|BESEDA]] a [[http://www.fidaplus.net/|FIDAPLUS]] | zdarma pro nekomerční využití | korpus univerzity a akademie věd | |
| |
| ==== Výběr korpusů jiných než slovanských jazyků ==== |
| |
| | **jazyk** | **korpus, typ** | **dostupnost** | **poznámka** | |
| | albánština | [[http://web-corpora.net/AlbanianCorpus/search/?interface_language=en|Albánský národní korpus]] | zdarma | vytvářen petrohradskými lingvisty | |
| | angličtina | [[http://www.mycobuild.com/about-collins-corpus.aspx|The Bank of English]] | dostupná část | pro tvorbu slovníků | |
| | angličtina | [[http://corpus.byu.edu/coca/|COCA]] | zdarma | vytváří Mark Davies, současný jazyk, i mluvený | |
| | angličtina | [[http://www.americannationalcorpus.org/OANC/index.html|Open American National Corpus]] | zdarma | i mluvený jazyk| |
| | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/BROWN/|Brown Corpus]] | zdarma | 1. elektronický korpus (1964), z USA | |
| | angličtina | [[http://www.helsinki.fi/varieng/CoRD/corpora/LOB/|LOB Lancaster-Bergen-Oslo Corpus]] | zdarma | Britský ekvivalent korpusu Brown (1976) | |
| | angličtina | [[http://corpus2.byu.edu/can/|Strathy Corpus (Canada)]] | zdarma | kanadská angličtina | |
| | arabština | [[http://arabicorpus.byu.edu/|ArabiCorpus]] | zdarma | autor: Dil Parkinson | |
| | francouzština | [[http://www.frantext.fr|Frantext]] | placený | bezplatně přístupná jen malá část | |
| | italština| [[http://corpora.dslo.unibo.it/coris_eng.html|CORpus di Italiano Scritto]] | zdarma | i diachronní část | |
| | maďarština | [[http://corpus.nytud.hu/mnsz/index_eng.html|Maďarský národní korpus]] | zdarma pro nekomerční užití | vč. regionálních variant | |
| | němčina | [[http://dgd.ids-mannheim.de|Datenbank für Gesprochenes Deutsch]] | po registraci| rozhraní k řadě mluvených korpusů němčiny | |
| | němčina | [[http://www1.ids-mannheim.de/kl/projekte/korpora/|DeReKo Deutches Referenzkorpus (aka Cosmas)]] | zdarma | patrně celosvětově nejrozsáhlejší korpus | |
| | němčina | [[http://wortschatz.uni-leipzig.de/|Deutscher Wortschatz Projekt]] | zdarma | lexikografické zpracování na korpusových datech | |
| | řečtina | [[http://corpus.ilsp.gr/en/|Řecký národní korpus]] | zdarma | | |
| | španělština | [[http://sfn.uab.es:8080/SFN/tools/cea/english|Korpus současné španělštiny]] | zdarma | kompilát několika zdrojů | |
| | švédština | [[http://spraakbanken.gu.se/eng/start|The Bank of Swedish]] | zdarma | obsahuje řadu nejrůznějších specifických korpusů | |
| | thajština | [[http://ling.arts.chula.ac.th/TNC/|Thajský národní korpus]] | ? | popis korpusu je v thajštině | |
| | turečtina | [[http://www.tnc.org.tr/index.php/en/|Turecký národní korpus]] | po registraci zdarma | i mluvený jazyk | |
| |
| |
| ==== Výběr paralelních korpusů ==== |
| |
| | **korpus** | **jazyk, typ** | **dostupnost** | **poznámka** | |
| | [[http://ufal.mff.cuni.cz/czeng|CzEng]] | čeština a angličtina| přístupná část | vyvíjí ÚFAL UK | |
| | [[https://ec.europa.eu/jrc/en/language-technologies/dgt-translation-memory|DGT-TM]] | 22 jazyků EU | ke stažení | překladatelská paměť právních textů EU | |
| | [[https://glosbe.com/|Glosbe]] | více než 100 | zdarma | korpusově založený slovník, přístup k dokladovým větám (konkordancím) | |
| | [[https://ucnk.ff.cuni.cz/intercorp/?req=page:info|InterCorp]] | 32 jazyků, beletrie, právní, publicistika | zdarma | částečně morfologicky anotovaný | |
| | [[http://www.phil.muni.cz/angl/kacenka/kachna.html|Kačenka]] | čeština a angličtina | zdarma| zaměřeno na překladatele, malý korpus beletristických textů od anglických klasiků | |
| | [[http://opus.lingfil.uu.se/|OPUS]] | více než 100 | zdarma | částečná morf. a syntakt. anotace, bez manuální kontroly | |
| | [[http://www.slavist.de/|ParaSol]] | 31 především slovanských jazyků | nutná registrace| beletristické texty | |
| | [[http://pelcra.pl/new/pelcra_corpus|Pelcra]] | polština a angličtina | není dostupný on-line| obsahuje též mluvený jazyk | |
| |
| **korpus** | **jazyk, typ** | **dostupnost** | **odkaz** | **poznámka** | | |
| MASC | angličtina, specializovaný | zdarma | [[http://www.anc.org/data/masc/|MASC]] | část je podrobně sémanticky anotovaná | | |
| Pizza Request Corpus| angličtina, specializovaný | zdarma | [[http://cs.stanford.edu/~althoff/raop-dataset/|data ke stažení]] | korpus žádostí o pizzu zdarma - včetně metadat o výsledku | | |
| Datenbank für Gesprochenes Deutsch (DGD2) | němčina, mluvený | po registraci| [[http://dgd.ids-mannheim.de|DGD]] | rozhraní k řadě mluvených korpusů němčiny | | |
| COCA | angličtina | zdarma | [[http://corpus.byu.edu/coca/|COCA]] | korpus současné americké angličtiny, autor: Mark Davies | | |
| BAWE | angličtina, akademický | zdarma | [[http://www.coventry.ac.uk/research-bank/research-archive/art-design/british-academic-written-english-corpus-bawe/|British Academic Written English Corpus]] | seminární práce apod. (assignments) univerzitních studentů | | |
| OPUS | paralelní korpusy | zdarma | [[http://opus.lingfil.uu.se/|OPUS]] | velké množství jazyků, bez manuální kontroly | | |
| BLaRC | angličtina, special. - law reports | zdarma | dostupné přes [[http://lextutor.ca/conc/eng/|Lextutor]] | je třeba vybrat mezi různými korpusy přímo BLaRC | | |
| AFEWC | arabština, angličtina, francouzština | zdarma | [[https://sites.google.com/site/motazsite/arabic/comparable-corpora|AFEWC]] | srovnatelný korpus | | |
| RusLTC | ruština | zdarma | [[http://rus-ltc.org/|RusLTC]] | Russian Learner Translator Corpus - pro výuku budoucích překladatelů | | |
| CoMET | portugalština | zdarma | [[http://comet.fflch.usp.br/projeto|CoMET]] | snaha podpořit tvorbu korpusově založených výukových materiálů | | |
| Gos | slovinština | zdarma | [[http://www.korpus-gos.net/|Gos]] | rozlišuje mluvený a psaný jazyk | | |
| |
Další odkazy a seznamy naleznete zde: | Další odkazy a seznamy naleznete zde: |
* různojazyčné korpusy - [[http://www.forum.santini.se/2014/04/corporasummary/|seznam na základě diskuze na Corpora listu]] | * různojazyčné korpusy - [[http://www.forum.santini.se/2014/04/corporasummary/|seznam na základě diskuze na Corpora listu]] |
* různojazyčné korpusy - [[http://comet.fflch.usp.br/corporaonline|portugalská stránka]] | * různojazyčné korpusy - [[http://comet.fflch.usp.br/corporaonline|portugalská stránka]] |
| * různojazyčné korpusy, řada skandinávských - [[http://spraakbanken.gu.se/eng/resources]] |
| |
O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. | O nových korpusech dále informuje e-mailový rozesílač Corpora list, k jehož odběru se můžete přihlásit [[http://www.hit.uib.no/corpora/|zde]]. |
| |
| Pokud nás budete chtít kontaktovat s tipy na nové korpusy, využijte prosíme poradnu, [[https://podpora.korpus.cz/projects/poradna/boards/14|subfórum týkající se této wiki]]. |
| ==== Související odkazy ==== |
| |
| <WRAP round box 50%> |
| [[cnk:struktura|Struktura Českého národního korpusu]] • [[http://nlp.fi.muni.cz/trac/noske|NoSketch Engine]] • [[pojmy:korpusovy_manazer|Korpusový manažer]] |
| </WRAP> |