Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze12 [2019/12/21 18:04] – [Jak citovat] adrianzasina | cnk:intercorp:verze12 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 137 059 021 | 116 673 027 | 373 873 819 | 1 549 570 665 | | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 137 059 021 | 116 673 027 | 373 873 819 | 1 549 570 665 | |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 110 588 784 | 89 819 765 | 310 914 295 | 1 222 868 666 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 110 588 784 | 89 819 765 | 310 914 295 | 1 222 868 666 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 1 619 | 30 | 3 806 | 281 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 1 619 | 30 | 3 806 | 281 | |
^ ::: ^ Počet textů | 1 619| 111 951 | 3 806 | 1 843 489 | | ^ ::: ^ Počet textů | 1 619| 111 951 | 3 806 | 1 843 489 | |
^ ::: ^ Počet vět | 9 518 229 | 13 606 183 | 23 076 128 | 143 165 959 | | ^ ::: ^ Počet vět | 9 518 229 | 13 606 183 | 23 076 128 | 143 165 959 | |
^ ::: ^ rok zveřejnění | 2019 ^^^^ | ^ ::: ^ rok zveřejnění | 2019 ^^^^ |
^ ::: ^ cizích jazyků | 40 ^^^^ | ^ ::: ^ cizích jazyků | 40 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 26 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 27 ^^^^ |
^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 25 ^^^^ | ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] | 25 ^^^^ |
====Přístup k textům==== | ====Přístup k textům==== |
^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | | ^ španělština | ✔ | ✔ | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]] | | [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]] | |
^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | | ^ švédština | ✔ | ✔ | [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]] | | [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]] | |
^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | | ^ ukrajinština | ✔ | ✔ | | [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%) | [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]] | |
| |
<wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> | <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> |