Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze | ||
cnk:intercorp:verze11 [2018/10/02 19:17] – [Morfosyntaktická anotace] alexandrrosen | cnk:intercorp:verze11 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek | ||
---|---|---|---|
Řádek 4: | Řádek 4: | ||
^ [[pojmy: | ^ [[pojmy: | ||
^ ::: ^ Počet [[pojmy: | ^ ::: ^ Počet [[pojmy: | ||
- | ^ [[pojmy: | + | ^ [[pojmy: |
^ ::: ^ Počet textů | 1 564 | 107 488 | 3 494 | 1 841 341 | | ^ ::: ^ Počet textů | 1 564 | 107 488 | 3 494 | 1 841 341 | | ||
^ ::: ^ Počet vět | 9 193 433 | 13 556 382 | 21 000 997 | 142 734 659 | | ^ ::: ^ Počet vět | 9 193 433 | 13 556 382 | 21 000 997 | 142 734 659 | | ||
Řádek 37: | Řádek 37: | ||
Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: | Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: | ||
- | ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 5. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http:// | + | ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 11 z 19. 10. 2018//. Ústav Českého národního korpusu, FF UK, Praha 2018. Dostupné z WWW: http:// |
</ | </ | ||
Řádek 56: | Řádek 56: | ||
Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk: | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 11 ze září 2018 činí 283 milionů slov v zarovnaných cizojazyčných textech v jádru a 1 225 milionů slov v zarovnaných cizojazyčných textech v kolekcích (viz [[cnk: | ||
- | [{{: | + | [{{:cnk:intercorp: |
- | [{{: | + | [{{:cnk:intercorp: |
- | [{{:cnk: intercorp_wordcounts3_v11.png|Skladba korpusu podle jednotlivých jazyků – kolekce}}] | + | [{{:cnk:intercorp: |
====Velikost korpusu v tisících slov==== | ====Velikost korpusu v tisících slov==== | ||
Řádek 112: | Řádek 112: | ||
==== Morfosyntaktická anotace ==== | ==== Morfosyntaktická anotace ==== | ||
- | Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, | + | Texty v níže uvedených jazycích jsou opatřeny morfologickou anotací. Formát a často i význam kategorií zakódovaných do morfologických značek se liší od češtiny. U každého jazyka proto uvádíme i odkaz na popis příslušné sady značek. Popis značek je dostupný i z vyhledávacího rozhraní KonText, |
^ Jazyk ^ Značky | ^ Jazyk ^ Značky | ||
Řádek 148: | Řádek 148: | ||
<wrap lo> | <wrap lo> | ||
- | <wrap lo> | + | <wrap lo> |
Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/ | Rozdíly mezi formátem značek v dokumentaci a v korpusu jsou i u některých jiných jazyků. Před zadáním dotazu na značku si formát značky prosím ověřte. Na stránce s výsledky libovolného dotazu zaškrtněte v menu **Zobrazení/ | ||
Řádek 159: | Řádek 159: | ||
^Struktura^Atribut^Popis^Možné hodnoty^ | ^Struktura^Atribut^Popis^Možné hodnoty^ | ||
- | |doc|doc.id|unikátní | + | |doc|doc.id|identifikátor dokumentu| příjmení_autora-zkrácený_název_textu / _ACQUIS / _EUROPARL / _PRESSEUROP_ročník / _SUBTITLES / _SYNDICATE_ročník / _OT / _NT | |
- | |text |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | + | | |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu: |
- | | |text.version|verze textu|číslo| | + | |
- | | |text.wordcount|velikost dokumentu ve slovech|číslo| | + | |
- | | |text.id|identifikace textu|příjmení_autora-zkrácený_název_textu: | + | |
- | | |text.group|rozdělení na:| Core / Acquis / Europarl / PressEurop / Subtitles / Syndicate / Bible| | + | |
- | | |text.wordcount|počet slov textu|číslo| | + | |
| |text.author|autor textu|příjmení, | | |text.author|autor textu|příjmení, | ||
| |text.title|úplný název textu|text| | | |text.title|úplný název textu|text| | ||
+ | | |text.lang|jazyk textu|ar / be / bg / ca / cs / da / de / el / en / es / et / fi / fr / he / hi / hr / hu / is / it / ja / lt / lv / mk / ms / mt / nb / nl / no / pl / pt / rn / ro / ru / sk / sl / sq / sr / sv / sy / tr / uk / vi / zh| | ||
+ | | |text.version|verze textu|číslo| | ||
+ | | |text.group|jádro/ | ||
| |text.publisher|vydavatel|text| | | |text.publisher|vydavatel|text| | ||
| |text.pubplace|místo vydání|text| | | |text.pubplace|místo vydání|text| | ||
- | | |text.pubyear|rok vydání|letopočet| | + | | |text.pubDateYear|rok vydání|číslo| |
+ | | |text.pubDateMonth|měsíc vydání|číslo| | ||
+ | | |text.origyear|rok vytvoření originálu|číslo| | ||
+ | | |text.isbn|ISBN|číslo| | ||
| |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | | | |text.txtype|typ textu|discussions - transcripts / drama / fiction / journalism - commentaries / journalism - news / legal texts / nonfiction / other / poetry / subtitles / religious | | ||
- | | |text.original|je text originálem?|Yes / No| | + | | |text.comment|poznámka|text| |
- | | |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / rn / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| | + | | |text.original|originální verze?|Yes / No| |
- | | |text.translator|překladatel | + | | |text.srclang|jazyk originálu|ar / as / az / be / bg / bl / bn / bo / bs / bt / ca / cr / cs / ct / cz / da / de / dk / eb / el / en / es / et / eu / fa / fi / fr / ga / gr / he / hi / hr / hu / hy / id / ie / is / it / ja / ka / ko / ku / lt / lv / mk / mn / ms / mt / my / ni / nl / no / pl / po / ps / pt / rm / rn / ro / ru / se / sk / sl / sq / sr / sv / ta / th / ti / tl / tr / tu / uk / un / ur / vi / zh| |
+ | | |text.translator|překladatel|příjmení, | ||
| |text.transsex|pohlaví překladatele|F / M| | | |text.transsex|pohlaví překladatele|F / M| | ||
- | | |text.authsex|pohlaví autora:|F / M| | + | | |text.authsex|pohlaví autora|F / M| |
- | |p|p.id|unikátní identifikátor odstavce|text| | + | | |text.transcomment|poznámka k překladu|text| |
- | |s|s.id|unikátní identifikátor věty|text| | + | | |text.collectiontitle|název kolekce|text| |
- | |div|div.id|identifikátor | + | | |text.volume|číslo svazku|číslo| |
- | | |div.type|kapitola | + | | |text.pages|počet stran|číslo| |
- | |h|h.rend|řez písma|italic / bold / bold italic| | + | | |text.lang_var|varieta jazyka|de-AT / de-CH / de-DE / en-AU / en-CA / en-GB / en-UM / en-US / es-ES / es-MX / es-PE / fr-BE / fr-FR / it-CH / it-IT / nl-BE / nl-NL / nn-NO / nb-NO / pt-BR / pt-PT / sr-Latn-RS / sy-Cyrl-RS | |
- | + | | |text.wordcount|počet slov|číslo| | |
- | + | |div|div.id|identifikátor | |
+ | | |div.type|typ oddílu (kapitola)|chapter| | ||
+ | |p|p.id|identifikátor odstavce|doc: | ||
+ | |s|s.id|identifikátor věty|doc: | ||
+ | |hi|hi.rend|řez písma|italic / bold / bold italic| | ||
+ | |lb|lb.id|identifikátor verše (Bible)|book: | ||
==== Poděkování ==== | ==== Poděkování ==== | ||
Řádek 227: | Řádek 233: | ||
* [[http:// | * [[http:// | ||
* | * | ||
- | * [[https:// | + | * [[https:// |
* [[http:// | * [[http:// | ||
- | ---- | + | * [[https:// |
+ | ====== Viz též ====== | ||
+ | |||
+ | <WRAP round box 51%> | ||
+ | [[cnk: | ||
+ | |||
+ | Původní stránky projektu InterCorp jsou stále [[http:// | ||
+ | </ |