Rozdíly
Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.
Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize | ||
cnk:intercorp:verze15 [2022/11/21 13:24] – [Přístup k textům] alexandrrosen | cnk:intercorp:verze15 [2022/11/22 22:40] – [Morfosyntaktická anotace] alexandrrosen | ||
---|---|---|---|
Řádek 1: | Řádek 1: | ||
=====Korpus InterCorp verze 15===== | =====Korpus InterCorp verze 15===== | ||
- | |||
- | TODO!!! | ||
^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ^ Název ^^ čeština jádro ^ čeština kolekce ^ cizí jazyky jádro ^ cizí jazyky kolekce ^ | ||
- | ^ [[pojmy: | + | ^ [[pojmy: |
- | ^ ::: ^ Počet [[pojmy: | + | ^ ::: ^ Počet [[pojmy: |
- | ^ [[pojmy: | + | ^ [[pojmy: |
- | ^ ::: ^ Počet textů | 1 708 | | + | ^ ::: ^ Počet textů | 1 743 | |
- | ^ ::: ^ Počet vět | 10 095 074 | | + | ^ ::: ^ Počet vět | 10 288 141 | |
^ Další informace ^ [[pojmy: | ^ Další informace ^ [[pojmy: | ||
^ ::: ^ [[pojmy: | ^ ::: ^ [[pojmy: | ||
Řádek 28: | Řádek 26: | ||
==== Obsah korpusu ==== | ==== Obsah korpusu ==== | ||
- | **Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 14 jsou k dispozici tyto kolekce: | + | **Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 15 jsou k dispozici tyto kolekce: |
* publistické články a zpravodajství z webových stránek [[http:// | * publistické články a zpravodajství z webových stránek [[http:// | ||
Řádek 39: | Řádek 37: | ||
Došlo rovněž k rozdělení // | Došlo rovněž k rozdělení // | ||
- | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 14 z ledna 2022 činí v zarovnaných cizojazyčných textech | + | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 15 z listopadu |
- | [{{: | + | [{{: |
- | [{{: | + | [{{: |
- | + | ||
- | + | ||
- | [{{: | + | |
- | + | ||
- | ==== Obsah korpusu ==== | + | |
- | + | ||
- | **Jádrem** korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. **kolekce**. Ve verzi 14 jsou k dispozici tyto kolekce: | + | |
- | + | ||
- | * publistické články a zpravodajství z webových stránek [[http:// | + | |
- | * právní texty Evropské unie z korpusu [[https:// | + | |
- | * zápisy jednání Evropského parlamentu z let 2007–2011 z korpusu [[http:// | + | |
- | * filmové titulky z databáze [[http:// | + | |
- | * překlady Bible | + | |
- | + | ||
- | Tyto texty jsou zarovnány jen automaticky, | + | |
- | Došlo rovněž k rozdělení // | + | |
- | + | ||
- | Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnána s jednou nebo více verzemi cizojazyčnými. Celkový rozsah zpřístupněné části korpusu ve verzi 14 z ledna 2022 činí v zarovnaných cizojazyčných textech 349 milionů slov v jádru a 1 223 milionů slov v kolekcích. V českých textech je v jádru 118 a v kolekcích 90 milionů slov (viz [[cnk: | + | |
- | [{{: | ||
+ | [{{: | ||
- | [{{: | + | ====Velikost |
+ | ^ Zkratka ^ Jazyk ^ Jádro ^ Syndicate ^ Presseurop ^ Acquis ^ Europarl ^ Subtitles ^ Bible ^ Celkem ^ | ||
+ | ^ ar ^ arabština | 34 | 384 | 0 | 0 | 0 | 0 | 0 | 418 | | ||
+ | ^ be ^ běloruština | 6 524 | 0 | 0 | 0 | 0 | 0 | 0 | 6 524 | | ||
+ | ^ bg ^ bulharština | 7 068 | 0 | 0 | 13 577 | 9 083 | 0 | 0 | 29 728 | | ||
+ | ^ ca ^ katalánština | 8 920 | 0 | 0 | 0 | 0 | 0 | 736 | 9 656 | | ||
+ | ^ da ^ dánština | 8 456 | 0 | 0 | 20 313 | 13 916 | 14 429 | 657 | 57 770 | | ||
+ | ^ de ^ němčina | 39 412 | 5 067 | 2 483 | 20 610 | 13 088 | 8 392 | 724 | 89 776 | | ||
+ | ^ el ^ řečtina | 0 | 0 | 0 | 23 853 | 15 404 | 23 709 | 0 | 62 966 | | ||
+ | ^ en ^ angličtina | 38 706 | 5 273 | 2 670 | 22 902 | 15 576 | 52 106 | 730 | 137 964 | | ||
+ | ^ es ^ španělština | 29 145 | 6 074 | 2 859 | 26 262 | 16 249 | 36 650 | 0 | 117 239 | | ||
+ | ^ et ^ estonština | 0 | 0 | 0 | 14 896 | 10 899 | 10 298 | 0 | 36 093 | | ||
+ | ^ fi ^ finština | 6 674 | 0 | 0 | 15 269 | 10 108 | 15 047 | 543 | 47 641 | | ||
+ | ^ fr ^ francouzština | 21 996 | 5 896 | 3 046 | 26 200 | 17 179 | 25 986 | 764 | 101 067 | | ||
+ | ^ he ^ hebrejština | 0 | 0 | 0 | 0 | 0 | 16 221 | 0 | 16 221 | | ||
+ | ^ hi ^ hindština | 409 | 0 | 0 | 0 | 0 | 0 | 0 | 409 | | ||
+ | ^ hr ^ chorvatština | 23 351 | 0 | 0 | 0 | 0 | 19 048 | 571 | 42 971 | | ||
+ | ^ hs ^ hornolužičtina | 128 | 0 | 0 | 0 | 0 | 0 | 0 | 128 | | ||
+ | ^ hu ^ maďarština | 6 922 | 8 | 0 | 17 852 | 12 198 | 21 115 | 0 | 58 095 | | ||
+ | ^ is ^ islandština | 0 | 0 | 0 | 0 | 0 | 1 581 | 0 | 1 581 | | ||
+ | ^ it ^ italština | 16 384 | 1 389 | 2 747 | 23 771 | 15 494 | 14 700 | 684 | 75 169 | | ||
+ | ^ ja ^ japonština | 3 491 | 2 | 0 | 0 | 0 | 477 | 0 | 3 970 | | ||
+ | ^ lt ^ litevština | 502 | 0 | 0 | 17 316 | 11 213 | 558 | 471 | 30 059 | | ||
+ | ^ lv ^ lotyština | 3 437 | 0 | 0 | 17 522 | 11 682 | 280 | 537 | 33 458 | | ||
+ | ^ mk ^ makedonština | 8 881 | 0 | 0 | 0 | 0 | 1 877 | 0 | 10 758 | | ||
+ | ^ ms ^ malajština | 0 | 0 | 0 | 0 | 0 | 3 521 | 0 | 3 521 | | ||
+ | ^ mt ^ maltština | 0 | 0 | 0 | 13 935 | 0 | 0 | 0 | 13 935 | | ||
+ | ^ nl ^ nizozemština | 17 769 | 812 | 2 953 | 23 416 | 15 558 | 29 373 | 717 | 90 598 | | ||
+ | ^ no ^ norština | 7 851 | 0 | 0 | 0 | 0 | 0 | 724 | 8 575 | | ||
+ | ^ pl ^ polština | 28 112 | 0 | 2 380 | 19 604 | 12 817 | 26 576 | 583 | 90 072 | | ||
+ | ^ pt ^ portugalština | 6 943 | 739 | 2 782 | 24 598 | 15 193 | 41 468 | 706 | 92 429 | | ||
+ | ^ rn ^ romština | 14 | 0 | 0 | 0 | 0 | 0 | 0 | 14 | | ||
+ | ^ ro ^ rumunština | 4 219 | 0 | 2 738 | 8 092 | 9 446 | 34 128 | 0 | 58 622 | | ||
+ | ^ ru ^ ruština | 10 549 | 4 302 | 0 | 0 | 0 | 6 887 | 565 | 22 303 | | ||
+ | ^ sk ^ slovenština | 8 596 | 0 | 0 | 18 399 | 12 727 | 5 133 | 561 | 45 416 | | ||
+ | ^ sl ^ slovinština | 4 354 | 0 | 0 | 18 515 | 12 241 | 17 035 | 0 | 52 144 | | ||
+ | ^ sq ^ albánština | 0 | 0 | 0 | 0 | 0 | 2 003 | 0 | 2 003 | | ||
+ | ^ sr ^ srbština | 12 356 | 0 | 0 | 0 | 0 | 20 727 | 0 | 33 082 | | ||
+ | ^ sv ^ švédština | 17 877 | 0 | 0 | 19 542 | 13 784 | 14 666 | 638 | 66 507 | | ||
+ | ^ tr ^ turečtina | 0 | 0 | 0 | 0 | 0 | 21 190 | 0 | 21 190 | | ||
+ | ^ uk ^ ukrajinština | 12 712 | 0 | 0 | 0 | 0 | 244 | 596 | 13 551 | | ||
+ | ^ vi ^ vietnamština | 0 | 0 | 0 | 0 | 0 | 1 474 | 0 | 1 474 | | ||
+ | ^ zh ^ čínština | 202 | 604 | 0 | 0 | 0 | 2 247 | 0 | 3 054 | | ||
+ | ^ **celkem** | ||
+ | ^ cs ^ čeština | 119 933 | 4 712 | 2 310 | 19 085 | 12 908 | 50 604 | 562 | 210 114 | | ||
+ | ^ **CELKEM** | ||
- | [{{: | + | Pozn.: U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků. |
==== Morfosyntaktická anotace ==== | ==== Morfosyntaktická anotace ==== | ||
Řádek 103: | Řádek 128: | ||
^ španělština | ✔ | ✔ | [[http:// | ^ španělština | ✔ | ✔ | [[http:// | ||
^ švédština | ✔ | ✔ | [[http:// | ^ švédština | ✔ | ✔ | [[http:// | ||
- | ^ ukrajinština | ✔ | ✔ | + | ^ ukrajinština | ✔ | ✔ | [[http:// |
<wrap lo> | <wrap lo> | ||
Řádek 192: | Řádek 217: | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
- | * [[http:// | ||
* [[http:// | * [[http:// | ||
* [[http:// | * [[http:// | ||
Řádek 217: | Řádek 241: | ||
Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: | Při citaci konkrétní části InterCorpu uveďte jako citaci údaj, který je zobrazen v popisu korpusu v rozhraní KonText, např.: | ||
- | ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 14 ze 31. 1. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https:// | + | ROSEN, A. – VAVŘÍN, M. – ZASINA, A. J. //Korpus InterCorp – čeština ((Vložte konkrétní jazyky.)), verze 15 ze 11. 11. 2022//. Ústav Českého národního korpusu, FF UK, Praha 2022. Dostupné z WWW: https:// |
</ | </ |