AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:intercorp:verze11 [2018/10/02 19:13] – [Morfosyntaktická anotace] searching for UD tags Alexandr Rosencnk:intercorp:verze11 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC Václav Cvrček (admin)
Řádek 4: Řádek 4:
 ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] |  132 508 429 |  115 574 528 |  340 554 768 |  1 550 923 096 |
 ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] |  106 898 538 |  88 872 779 |  283 075 338 |  1 225 361 750 |
-^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] |  1 564 |  28 |  3 494 |   261 |+^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] |  1 564 |  28 |  3 494 |   261 |
 ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 | ^ ::: ^ Počet textů |  1 564 |  107 488 |  3 494 |  1 841 341 |
 ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 | ^ ::: ^ Počet vět |  9 193 433 |  13 556 382 |  21 000 997 |  142 734 659 |
Řádek 37: Řádek 37:
 Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.:
  
-ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 5. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http://www.korpus.cz+ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 19. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http://www.korpus.cz
  
 </WRAP> </WRAP>
Řádek 56: Řádek 56:
 Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov. Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk:intercorp:historie|historie verzí]]). Rozložení textů v rámci jádra a v jednotlivých kolekcích je znázorněno na následujících grafech. Čísla v grafech ukazují velikost v milionech slov.
  
-[{{:cnk:intercorp_wordcounts_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]+[{{:cnk:intercorp:intercorp_wordcounts_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro i kolekce}}]
  
-[{{:cnk:intercorp_wordcounts2_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]+[{{:cnk:intercorp:intercorp_wordcounts2_v11.png|Skladba korpusu podle jednotlivých jazyků – jádro}}]
  
-[{{:cnk: intercorp_wordcounts3_v11.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]+[{{:cnk:intercorp:intercorp_wordcounts3_v11.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}]
  
 ====Velikost korpusu v tisících slov==== ====Velikost korpusu v tisících slov====
Řádek 112: Řádek 112:
 ==== Morfosyntaktická anotace ==== ==== Morfosyntaktická anotace ====
  
-Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, když jako typ dotazu zvolíte CQL.+Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, přepnete-li na pokročilý dotaz.
  
 ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^ ^  Jazyk  ^  Značky  ^  Lemmata  ^  Stručný popis  ^  Podrobný popis  ^  Nástroj  ^
Řádek 148: Řádek 148:
 <wrap lo>%%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.</wrap> <wrap lo>%%***%%) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.</wrap>
  
-<wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag="NOUN.*Case=Gen\|Gender=Fem.*"]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag="Case=Gen" & tag="NOUN" & tag="Gender=Fem"]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap>+<wrap lo>%%****%%) Značka je uvedena ve formátu UD (Universal Dependencies), jednotlivé části značky jsou odděleny svislítkem (|), např. tvar школы v genitivu singuláru je značkován takto: ''NOUN|Animacy=Inan|Case=Gen|Gender=Fem|Number=Sing''. Dotaz lze formulovat tak jako u jiných jazyků, tedy na řetězec znaků, např. ''[tag=%%"NOUN.*Case=Gen\|Gender=Fem.*"%%]'' nebo lze specifikovat jednotlivé části značky zvlášť, tedy např. ''[tag=%%"Case=Gen"%% & tag=%%"NOUN"%% & tag=%%"Gender=Fem"%%]'' (na pořadí kategorií nezáleží). Výsledek je v obou případech stejný. </wrap>
  
 Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//. Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/Korpusová nastavení...** mezi **Pozičními atributy** volbu //tag// a v **Možnostech zobrazení** vyberte //pro každý token//.
Řádek 159: Řádek 159:
  
 ^Struktura^Atribut^Popis^Možné hodnoty^ ^Struktura^Atribut^Popis^Možné hodnoty^
-|doc|doc.id|unikátní identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT +|doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | 
-|text |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| +| |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE_ročník:název / _OT:kniha / _NT:kniha |
-| |text.version|verze textu|číslo| +
-| |text.wordcount|velikost dokumentu ve slovech|číslo+
-| |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu:0 / _ACQUIS:číslo / _EUROPARL:číslo / _PRESSEUROP:číslo / _SUBTITLES:číslo / _SYNDICATE:název / _OT:kapitola / _NT:kapitola | +
-| |text.group|rozdělení na:| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible| +
-| |text.wordcount|počet slov textu|číslo|+
 | |text.author|autor textu|příjmení, jméno| | |text.author|autor textu|příjmení, jméno|
 | |text.title|úplný název textu|text| | |text.title|úplný název textu|text|
 +| |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh|
 +| |text.version|verze textu|číslo|
 +| |text.group|jádro/kolekce| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible |
 | |text.publisher|vydavatel|text| | |text.publisher|vydavatel|text|
 | |text.pubplace|místo vydání|text| | |text.pubplace|místo vydání|text|
-| |text.pubyear|rok vydání|letopočet|+| |text.pubDateYear|rok vydání|číslo| 
 +| |text.pubDateMonth|měsíc vydání|číslo| 
 +| |text.origyear|rok vytvoření originálu|číslo| 
 +| |text.isbn|ISBN|číslo|
 | |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | | |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious |
-| |text.original|je text originálem?|Yes / No| +| |text.comment|poznámka|text
-| |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| +| |text.original|originální verze?|Yes / No| 
-| |text.translator|překladatel textu|příjmení, jméno|+| |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| 
 +| |text.translator|překladatel|příjmení, jméno|
 | |text.transsex|pohlaví překladatele|F / M| | |text.transsex|pohlaví překladatele|F / M|
-| |text.authsex|pohlaví autora:|F / M| +| |text.authsex|pohlaví autora|F / M| 
-|p|p.id|unikátní identifikátor odstavce|text| +| |text.transcomment|poznámka k překladu|text| 
-|s|s.id|unikátní identifikátor věty|text| +| |text.collectiontitle|název kolekce|text| 
-|div|div.id|identifikátor kapitoly v Bibli| _NT / _OT: kapitola:číslo +| |text.volume|číslo svazku|číslo| 
-| |div.type|kapitola v Bibli|chapter| +| |text.pages|počet stran|číslo| 
-|h|h.rend|řez písma|italic / bold / bold italic| +| |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS | 
- +| |text.wordcount|počet slov|číslo
- +|div|div.id|identifikátor oddílu (Bible)| _NT / _OT:kapitola | 
 +| |div.type|typ oddílu (kapitola)|chapter| 
 +|p|p.id|identifikátor odstavce|doc:text:div:par| 
 +|s|s.id|identifikátor věty|doc:text:div:par:sent| 
 +|hi|hi.rend|řez písma|italic / bold / bold italic| 
 +|lb|lb.id|identifikátor verše (Bible)|book:chapter:verse|
 ==== Poděkování ==== ==== Poděkování ====
  
Řádek 227: Řádek 233:
   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)   * [[http://www.ling.su.se/english/nlp/tools/stagger/stagger-the-stockholm-tagger-1.98986|Stagger a IceStagger]] pro švédštinu a islandštinu (s poděkováním Robertu Östlingovi)
   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)   *   [[https://github.com/uzh/reldi/tree/master/tools/tagger|RelDI tagger]] pro chorvatštinu a srbštinu (s poděkováním Nikolovi Ljubešićovi)
-  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Rocksovi a Michalu Škrabalovi)+  * [[https://peteris.rocks/blog/latvian-part-of-speech-tagging/|LVTagger]] pro lotyštinu (s poděkováním Pēterisu Paikensovi a Michalu Škrabalovi)
   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)   * [[http://ufal.mff.cuni.cz/udpipe|UD Pipe]] pro běloruštinu a ukrajinštinu (s poděkováním Bohdanu Moskalevskému)
-----+  * [[https://taku910.github.io/mecab/|MeCab]] a [[https://osdn.net/projects/unidic/|Unidic]] pro japonštinu 
 +====== Viz též ====== 
 + 
 +<WRAP round box 51%> 
 +[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze10|Verze 10]] • [[cnk:intercorp:verze9|Verze 9]] • [[cnk:intercorp:verze8|Verze 8]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze6|Verze 6]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] 
 + 
 +Původní stránky projektu InterCorp jsou stále [[http://ucnk.ff.cuni.cz/intercorp/|zde]]. 
 +</WRAP>