AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze12 [2019/12/19 21:30] – [Morfosyntaktická anotace] alexandrrosencnk:intercorp:verze12 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  137 059 021 |  116 673 027 |  373 873 819 |  1 549 570 665 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  137 059 021 |  116 673 027 |  373 873 819 |  1 549 570 665 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  110 588 784 |  89 819 765 |  310 914 295 |  1 222 868 666 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  110 588 784 |  89 819 765 |  310 914 295 |  1 222 868 666 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 619 |  30 |  3 806 |   281 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 619 |  30 |  3 806 |   281 |
 ^ ::: ^ Počet textů |  1 619|  111 951 |  3 806 |  1 843 489 | ^ ::: ^ Počet textů |  1 619|  111 951 |  3 806 |  1 843 489 |
 ^ ::: ^ Počet vět |  9 518 229 |  13 606 183 |  23 076 128 |  143 165 959 | ^ ::: ^ Počet vět |  9 518 229 |  13 606 183 |  23 076 128 |  143 165 959 |
Řádek 11: Řádek 11:
 ^ ::: ^ rok zveřejnění |  2019  ^^^^ ^ ::: ^ rok zveřejnění |  2019  ^^^^
 ^ ::: ^ cizích jazyků |  40  ^^^^ ^ ::: ^ cizích jazyků |  40  ^^^^
-^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  26  ^^^^+^ ::: ^ [[pojmy:tag|tagovaných]] jazyků |  27  ^^^^
 ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  25  ^^^^ ^ ::: ^ jazyky s [[pojmy:lemma|lemmaty]] |  25  ^^^^
 ====Přístup k textům==== ====Přístup k textům====
Řádek 37: Řádek 37:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 20. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 12 z 12. 12. 2019//. Ústav Českého národního korpusu, FF UK, Praha 2019. Dostupné z WWW: https://kontext.korpus.cz/
  
 </WRAP> </WRAP>
Řádek 118: Řádek 118:
 ^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ angličtina |  ✔    ✔  |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/PennTreebankTags.pdf|anglicky]]  | [[http://utkl.ff.cuni.cz/%7Erosen/public/Penn-Treebank-Tagset.pdf|anglicky]] + [[http://utkl.ff.cuni.cz/%7Erosen/public/PennTagAdd.html|dodatky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ běloruština |  ✔  |   ✔        [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  | ^ běloruština |  ✔  |   ✔        [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
-^ bulharština |  ✔  |   ✔       |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |+^ bulharština |  ✔  |   ✔    [[https://www.sketchengine.eu/bulgarian-treebank-part-of-speech-tagset/|anglicky]]   |  [[http://utkl.ff.cuni.cz/~rosen/INTERCORP/TAGSETS/BTB-TR03_BulTreeBank_morphosyntactic_tag.pdf|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  | ^ čeština |  ✔  |  ✔  |  [[http://wiki.korpus.cz/doku.php/seznamy:tagy|česky]] a [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/hmptagqr.html|anglicky]] |  [[http://ufal.mff.cuni.cz/pdt/Morphology_and_Tagging/Doc/docc0pos.pdf|anglicky]]  |  [[http://ufal.mff.cuni.cz/morce/index.php|Morče]]  |
 ^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]]  | ^ čínština |  ✔  |    |  [[https://www.sketchengine.eu/chinese-penn-treebank-part-of-speech-tagset/|anglicky]]  |  [[https://repository.upenn.edu/cgi/viewcontent.cgi?article=1039&context=ircs_reports|anglicky]]  |  [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar v0.7.5]]  |
Řádek 130: Řádek 130:
 ^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ katalánština |  ✔  |  ✔  |  [[http://clic.ub.edu/corpus/webfm_send/18|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |      [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]]  | ^ lotyština |  ✔  |  ✔  |   [[http://www.semti-kamols.lv/doc_upl/TagSet.html|lotyšsky]]  |      [[https://peteris.rocks/blog/latvian-part-of-speech-tagging|LVTagger]]  |
-^ maďarština |  ✔  |     |      [[http://nl.ijs.si/ME/V4/msd/html/msd-hu.html|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |+^ maďarština |  ✔  |      [[https://kontext.korpus.cz/wordlist/result?wlnums=frq&wlpat=.*&blhash=&include_nonwords=0&wlsort=f&corpname=intercorp_v12_hu&wlattr=tag&usesubcorp=&wlminfreq=1&wlhash=|seznam]]  |  [[http://www.inf.u-szeged.hu/projectdirs/hlt/en/Szeged%20Treebank%202.0_en.html|anglicky]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
 ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  | ^ němčina |  ✔  |  ✔  |  [[https://www.sketchengine.co.uk/German-rftagger-part-of-speech-tagset/|anglicky]] %%**%%)  |  [[http://utkl.ff.cuni.cz/%7Erosen/public/stts_guide.pdf|německy]]  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/RFTagger/|RFTagger]]  |
 ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ nizozemština |  ✔  |  ✔    |   [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/dutch-tagset.txt|anglicky]]  |    [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
Řádek 137: Řádek 137:
 ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ portugalština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/Portuguese-Tagset.html|španělsky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ ruština |  ✔  |  ✔  |  [[http://corpus.leeds.ac.uk/mocky/ru-table.tab|anglicky]]  |  [[http://nl.ijs.si/ME/V4/msd/html/msd-ru.html|anglicky]] %%***%%)  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
-^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]]  |  [[http://korpus.sk/attachments/publications/2004-garabik-gianitsova-horak-simkova-tokenizacia.pdf|slovensky]]  |  [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] +^ slovenština |  ✔  |  ✔  |  [[http://korpus.sk/morpho.html/|slovensky]] [[https://korpus.sk/morpho_en.html/|anglicky]]  |  [[https://korpus.sk/attachments/morpho_en/tagset-www.pdf|slovensky]]  |  [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|Radovan Garabík, Morče]] 
-^ slovinština |  ✔  |  ✔  |     |  [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.html|anglicky]]  |  [[http://nl2.ijs.si/analyze/|ToTaLe]] +^ slovinština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/slovene-tagset-multext-east-v3/|anglicky]]   |  [[http://nl.ijs.si/ME/V4/msd/html/msd-sl.html|anglicky]]  |  [[http://nl2.ijs.si/analyze/|ToTaLe]] 
-^ srbština |  ✔  |  ✔  |    |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]    [[https://github.com/uzh/reldi|ReLDI Tagger]]   |+^ srbština |  ✔  |  ✔  |  [[https://www.sketchengine.eu/multext-east-serbian-part-of-speech-tagset/|anglicky]]  |   [[http://nl.ijs.si/ME/V4/msd/html/msd-sr.html|anglicky]]    [[https://github.com/uzh/reldi|ReLDI Tagger]]   |
 ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  | ^ španělština |  ✔  |  ✔  |  [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/spanish-tagset.txt|anglicky]]  |      [[http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/|TreeTagger]]  |
 ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  | ^ švédština |  ✔  |  ✔  |  [[http://spraakbanken.gu.se/korp/markup/msdtags.html|švédsky a anglicky]]        [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger]]  |
-^ ukrajinština |  ✔  |  ✔  |  [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)   |     |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |+^ ukrajinština |  ✔  |  ✔    [[http://universaldependencies.org/docs/u/pos/index.html|anglicky]]%%****%%)  |  [[https://web.archive.org/web/20170122231904/http://lindat.mff.cuni.cz/services/udpipe/api-reference.php|UDPipe]]  |
  
 <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap> <wrap lo>%%*%%) Morfologické značky jsou v korpusu uvedeny v kondenzované podobě, např. V:Sg:Nom:Act:PrfPrc:Pos odpovídá zápisu s atributy [POS=V] [NUM=SG] [CASE=NOM] [VOICE=ACT] [PCP=PRFPRC] [CMP=POS]. Podobně Pron:Pers:Sg:Ade:Up odpovídá zápisu [POS=PRON] [SUBCAT:PERS] [NUM:SG] [CASE=ADE] [CASECHANGE=UP].</wrap>
Řádek 185: Řádek 185:
 | |text.volume|číslo svazku|číslo| | |text.volume|číslo svazku|číslo|
 | |text.pages|počet stran|číslo| | |text.pages|počet stran|číslo|
-| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS |+| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-RS |
 | |text.wordcount|počet slov|číslo| | |text.wordcount|počet slov|číslo|
 |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola |
Řádek 226: Řádek 226:
   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu   * [[http://ufal.mff.cuni.cz/morfflex|MorfFlex]], [[http://ufal.mff.cuni.cz/morce/index.php|Morče]] a [[https://is.cuni.cz/webapps/zzp/download/140018093/?back_id=10|LanGr]] pro češtinu
   * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu   * [[http://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html|TreeTagger]] pro angličtinu, bulharštinu, estonštinu, francouzštinu, italštinu, katalánštinu, nizozemštinu, portugalštinu (s poděkováním Pablu Gamallovi), ruštinu a španělštinu
-  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[http://nlp.pwr.wroc.pl/takipi/|TaKIPI]] pro polštinu+  * [[http://sgjp.pl/morfeusz/|Morfeusz]] a [[https://github.com/kwrobel-nlp/krnnt|KRNNT]] pro polštinu
   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky   * [[http://code.google.com/p/hunpos/|HunPOS]] pro finštinu a další jazyky
   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)   * [[http://conference.ui.sav.sk/wikt2010/papers/01_garabik_f.pdf|tagger pro slovenštinu]] (s poděkováním Radovanu Garabíkovi)
Řádek 237: Řádek 237:
   * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)   * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
-  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu+  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu (s poděkováním Adamovi Nohejlovi) 
 +  * [[https://www.sutd.edu.sg/cmsresource/faculty/yuezhang/zpar.html|ZPar]] pro čínštinu (s poděkováním Vlastimilu Dobečkovi)
 ====== Viz též ====== ====== Viz též ======