AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze12 [2019/12/19 22:44] – [Morfosyntaktická anotace] Alexandr Rosencnk:intercorp:verze12 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  137 059 021 |  116 673 027 |  373 873 819 |  1 549 570 665 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  137 059 021 |  116 673 027 |  373 873 819 |  1 549 570 665 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  110 588 784 |  89 819 765 |  310 914 295 |  1 222 868 666 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  110 588 784 |  89 819 765 |  310 914 295 |  1 222 868 666 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 619 |  30 |  3 806 |   281 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 619 |  30 |  3 806 |   281 |
 ^ ::: ^ Počet textů |  1 619|  111 951 |  3 806 |  1 843 489 | ^ ::: ^ Počet textů |  1 619|  111 951 |  3 806 |  1 843 489 |
 ^ ::: ^ Počet vět |  9 518 229 |  13 606 183 |  23 076 128 |  143 165 959 | ^ ::: ^ Počet vět |  9 518 229 |  13 606 183 |  23 076 128 |  143 165 959 |
Řádek 11: Řádek 11:
 ^ ::: ^ rok zveřejnění |  2019  ^^^^ ^ ::: ^ rok zveřejnění |  2019  ^^^^
 ^ ::: ^ cizích jazyků |  40  ^^^^ ^ ::: ^ cizích jazyků |  40  ^^^^
-^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  26  ^^^^+^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  27  ^^^^
 ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  25  ^^^^ ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  25  ^^^^
 ====Přístup k textům==== ====Přístup k textům====
Řádek 37: Řádek 37:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 20. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 12. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/
  
 </WRAP> </WRAP>
Řádek 142: Řádek 142:
 ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  | ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |
-^ ukrajinština |  ✔  |  ✔  |     |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |+^ ukrajinština |  ✔  |  ✔  |  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
  
 <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
Řádek 185: Řádek 185:
 | |text.volume|číslo svazku|číslo| | |text.volume|číslo svazku|číslo|
 | |text.pages|počet stran|číslo| | |text.pages|počet stran|číslo|
-| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS |+| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS |
 | |text.wordcount|počet slov|číslo| | |text.wordcount|počet slov|číslo|
 |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola |
Řádek 226: Řádek 226:
   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
   * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu   * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
-  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu+  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] pro polštinu
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
Řádek 237: Řádek 237:
   * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)   * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
-  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu+  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) 
 +  * [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar]] pro čínštinu (s poděkováním Vlastimilu Dobečkovi)
 ====== Viz též ====== ====== Viz též ======