Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze12 [2019/12/19 23:11] – [Poděkování] alexandrrosen | cnk:intercorp:verze12 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 137 059 021 | 116 673 027 | 373 873 819 | 1 549 570 665 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 137 059 021 | 116 673 027 | 373 873 819 | 1 549 570 665 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 110 588 784 | 89 819 765 | 310 914 295 | 1 222 868 666 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 110 588 784 | 89 819 765 | 310 914 295 | 1 222 868 666 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 619 | 30 | 3 806 | 281 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 619 | 30 | 3 806 | 281 | |
^ ::: ^ Počet textů | 1 619| 111 951 | 3 806 | 1 843 489 | | ^ ::: ^ Počet textů | 1 619| 111 951 | 3 806 | 1 843 489 | |
^ ::: ^ Počet vět | 9 518 229 | 13 606 183 | 23 076 128 | 143 165 959 | | ^ ::: ^ Počet vět | 9 518 229 | 13 606 183 | 23 076 128 | 143 165 959 | |
^ ::: ^ rok zveřejnění | 2019 ^^^^ | ^ ::: ^ rok zveřejnění | 2019 ^^^^ |
^ ::: ^ cizích jazyků | 40 ^^^^ | ^ ::: ^ cizích jazyků | 40 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 26 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 27 ^^^^ |
^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 25 ^^^^ | ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 25 ^^^^ |
====Přístup k textům==== | ====Přístup k textům==== |
Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: | Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: |
| |
ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 20. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/ | ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 12. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/ |
| |
</WRAP> | </WRAP> |
^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
| |
<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> | <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> |
| |text.volume|číslo svazku|číslo| | | |text.volume|číslo svazku|číslo| |
| |text.pages|počet stran|číslo| | | |text.pages|počet stran|číslo| |
| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS | | | |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS | |
| |text.wordcount|počet slov|číslo| | | |text.wordcount|počet slov|číslo| |
|div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | | |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | |
* [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu | * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu |
* [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu | * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu |
* [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu | * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] pro polštinu |
* [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky | * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky |
* [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) | * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi) |
* [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi) | * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi) |
* [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) | * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému) |
* [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu | * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) |
* [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu | * [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar]] pro čínštinu (s poděkováním Vlastimilu Dobečkovi) |
====== Viz též ====== | ====== Viz též ====== |
| |