AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze11 [2018/10/02 22:48] – [Strukturní atributy] Alexandr Rosencnk:intercorp:verze11 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 564 |  28 |  3 494 |   261 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 564 |  28 |  3 494 |   261 |
 ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 | ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 |
 ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 | ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 |
Řádek 37: Řádek 37:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 5. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http://www.korpus.cz+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 19. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http://www.korpus.cz
  
 </WRAP> </WRAP>
Řádek 56: Řádek 56:
 Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
-[{{:cnk:intercorp_wordcounts_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]+[{{:cnk:intercorp:intercorp_wordcounts_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]
  
-[{{:cnk:intercorp_wordcounts2_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]+[{{:cnk:intercorp:intercorp_wordcounts2_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]
  
-[{{:cnk: intercorp_wordcounts3_v11.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]+[{{:cnk:intercorp:intercorp_wordcounts3_v11.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]
  
 ====Velikost korpusu v tisících slov==== ====Velikost korpusu v tisících slov====
Řádek 112: Řádek 112:
 ==== Morfosyntaktická anotace ==== ==== Morfosyntaktická anotace ====
  
-Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL.+Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, přepnete-li na pokročilý dotaz.
  
 ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^ ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^
Řádek 159: Řádek 159:
  
 ^Struktura^Atribut^Popis^Možné hodnoty^ ^Struktura^Atribut^Popis^Možné hodnoty^
- 
 |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT |
 | |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha | | |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
Řádek 184: Řádek 183:
 | |text.volume|číslo svazku|číslo| | |text.volume|číslo svazku|číslo|
 | |text.pages|počet stran|číslo| | |text.pages|počet stran|číslo|
-| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS |+| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS |
 | |text.wordcount|počet slov|číslo| | |text.wordcount|počet slov|číslo|
 |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | |div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola |
Řádek 234: Řádek 233:
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
 +  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu
 ====== Viz též ====== ====== Viz též ======