Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:intercorp:verze6 [2015/06/09 10:05] – vaclavcvrcek | cnk:intercorp:verze6 [2022/08/29 18:18] (aktuální) – BatchEdit: pojmy>seznamy dokumenty IC cvrcek |
---|
^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 76 861 107 | 46 880 365 | 167 141 155 | 890 129 077| | ^ [[pojmy:atributy_pozicni|Pozice]] ^ Počet [[pojmy:token|tokenů]] | 76 861 107 | 46 880 365 | 167 141 155 | 890 129 077| |
^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 61 962 499 | 37 584 764 | 138 762 949 | 728 507 959 | | ^ ::: ^ Počet [[pojmy:word|slovních tvarů]] | 61 962 499 | 37 584 764 | 138 762 949 | 728 507 959 | |
^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[pojmy:atributy_strukturni|dokumentů]] | 996 | 4 | 1 939 | 56 | | ^ [[pojmy:atributy_strukturni|Struktury]] ^ Počet [[seznamy:strukturni_atributy_intercorp|dokumentů]] | 996 | 4 | 1 939 | 56 | |
^ ::: ^ Počet div | 996 | 96 988 | 1 939 | 1 728 492 | | ^ ::: ^ Počet div | 996 | 96 988 | 1 939 | 1 728 492 | |
^ ::: ^ Počet vět | 5 254 361 | 2 392 808 | 10 283 732 | 44 113 753 | | ^ ::: ^ Počet vět | 5 254 361 | 2 392 808 | 10 283 732 | 44 113 753 | |
^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ | ^ Další informace ^ [[pojmy:referencni|referenční]] | ANO ^^^^ |
^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ | ^ ::: ^ [[pojmy:reprezentativnost|reprezentativní]] | NE ([[seznamy:txtype|různé textové typy]]) ^^^^ |
^ ::: ^ rok zveřejnění | 2008 ^^^^ | ^ ::: ^ rok zveřejnění | 2013 ^^^^ |
^ ::: ^ cizích jazyků | 31 ^^^^ | ^ ::: ^ cizích jazyků | 31 ^^^^ |
^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 17 ^^^^ | ^ ::: ^ [[pojmy:tag|tagovaných]] jazyků | 17 ^^^^ |
| |
| |
<p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="http://langtech.jrc.it/JRC-Acquis.html" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> | <p><b>Jádrem</b> korpusu InterCorp jsou ručně zarovnané, převážně beletristické texty. Kromě toho korpus obsahuje také nabídku automaticky zpracovaných textů, tzv. <b>kolekce</b>. Aktuálně jsou k dispozici publistické články a zpravodajství z webových stránek <a href="http://www.project-syndicate.org/" target="_blank">Project Syndicate</a> a <a href="http://www.presseurop.eu/" target="_blank">Presseurop</a>, právní texty Evropské Unie z korpusu <a href="https://ec.europa.eu/jrc/en/language-technologies/jrc-acquis" target="_blank">Acquis Communautaire</a> a zápisy jednání Evropského Parlamentu z let 2007–2011 z korpusu <a href="http://www.statmt.org/europarl/" target="_blank">Europarl</a>. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají. Některé texty z korpusů Acquis Communautaire a Europarl byly částečně opraveny nebo vytříděny, takže se mohou ve srovnání s původním zdrojem lišit podobou i rozsahem. Jen automatické zarovnání bez ruční kontroly mají ve verzi 6 dočasně i některé texty z jádra, a to část textů převzatých z korpusu <a href="http://www.uva.nl/over-de-uva/organisatie/medewerkers/content/b/a/a.a.barentsen/a.a.barentsen.html#tab_3" target="_blank">ASPAC – Amsterdam Slavic Parallel Aligned Corpus</a>. Zarovnání těchto textů bude opraveno v další verzi. </p> |
| |
<p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je | <p>Každý cizojazyčný text má v korpusu svou českou verzi. Čeština je |
|s|s.id|unikátní identifikátor věty|text| | |s|s.id|unikátní identifikátor věty|text| |
| |
====Dotazy, připomínky a podněty==== | |
<HTML> | |
| |
<p> | |
... k obsahu korpusu a podobě vyhledávacích rozhraní uvítáme na adrese | |
</p> | |
<p><img src="http://ucnk.ff.cuni.cz/intercorp/img/adresy/mava_a.gif"></p> | |
| |
| |
</HTML> | |
====Poděkování==== | ====Poděkování==== |
<HTML> | <HTML> |
==== Související odkazy ==== | ==== Související odkazy ==== |
| |
<WRAP round box 51%> | <WRAP round box 50%> |
[[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] | [[cnk:intercorp|InterCorp]] • [[cnk:intercorp:verze7|Verze 7]] • [[cnk:intercorp:verze5|Verze 5]] • [[cnk:intercorp:verze4|Verze 4]] • [[cnk:intercorp:verze3|Verze 3]] • [[cnk:intercorp:historie|Historie verzí]] |
</WRAP> | </WRAP> |