cnk:intercorp:verze13ud

Název	čeština jádro	čeština kolekce	cizí jazyky jádro	cizí jazyky kolekce
Pozice	Počet tokenů	141 124 127	117 877 960	391 209 482	1 518 645 852
Počet slovních tvarů	113 934 806	89 973 959	327 497 843	1 219 622 437
Struktury	Počet dokumentů	1 657	30	3 994	282
Počet textů	1 657	111 951	3 994	1 843 528
Počet vět	9 782 002	13 606 198	24 318 736	143 196 252
Další informace	referenční	ANO
reprezentativní	NE (různé textové typy)
rok zveřejnění	2021
cizích jazyků	40
tagovaných jazyků	35
jazyky s lemmaty	35
jazyky se syntaktickou anotací	35

Zkratka	Jazyk	Jádro	Syndicate	Presseurop	Acquis	Europarl	Subtitles	Bible	Celkem
ar	arabština	34	0	0	0	0	0	0	34
be	běloruština	5 713	0	0	0	0	0	0	5 713
bg	bulharština	7 067	0	0	13 582	9 082	0	0	29 732
ca	katalánština	8 006	0	0	0	0	0	728	8 735
da	dánština	7 122	0	0	20 012	13 800	14 372	656	55 962
de	němčina	37 680	4 735	2 506	20 710	13 153	8 388	725	87 897
el	řečtina	0	0	0	23 684	15 382	23 562	0	62 628
en	angličtina	33 585	4 901	2 685	23 138	15 643	51 589	730	132 270
es	španělština	26 553	5 609	2 858	26 270	16 249	36 625	0	114 164
et	estonština	0	0	0	14 885	10 899	10 290	0	36 073
fi	finština	5 655	0	0	15 260	10 108	15 047	542	46 613
fr	francouzština	19 734	5 594	3 041	26 294	17 196	25 996	764	98 619
he	hebrejština	0	0	0	0	0	16 050	0	16 050
hi	hindština	403	0	0	0	0	0	0	403
hr	chorvatština	21 924	0	0	0	0	19 022	570	41 515
hu	maďarština	6 441	0	0	17 851	12 188	21 091	0	57 572
is	islandština	0	0	0	0	0	1 581	0	1 581
it	italština	14 416	1 225	2 709	23 648	15 502	14 765	685	72 949
ja	japonština	2 279	0	0	0	0	452	0	2 731
lt	litevština	419	0	0	17 175	11 198	555	471	29 819
lv	lotyština	2 646	0	0	17 518	11 682	280	537	32 662
mk	makedonština	8 881	0	0	0	0	1 877	0	10 758
ms	malajština	0	0	0	0	0	3 521	0	3 521
mt	maltština	0	0	0	13 805	0	0	0	13 805
nl	nizozemština	16 214	812	2 953	23 401	15 556	29 355	717	89 008
no	norština	7 753	0	0	0	0	0	724	8 477
pl	polština	25 738	0	2 367	19 483	12 663	25 801	576	86 628
pt	portugalština	4 981	554	2 782	24 260	15 186	41 452	712	89 927
rn	romština	14	0	0	0	0	0	0	14
ro	rumunština	4 198	0	2 726	8 044	9 428	33 955	0	58 352
ru	ruština	8 662	3 993	0	0	0	6 898	566	20 119
sk	slovenština	8 543	0	0	18 397	12 727	5 132	561	45 361
sl	slovinština	3 871	0	0	18 513	12 249	17 054	0	51 688
sq	albánština	0	0	0	0	0	2 003	0	2 003
sr	srbština	11 580	0	0	0	0	20 679	0	32 259
sv	švédština	15 790	0	0	19 459	13 778	14 652	638	64 316
tr	turečtina	0	0	0	0	0	20 895	0	20 895
uk	ukrajinština	11 461	0	0	0	0	244	596	12 301
vi	vietnamština	0	0	0	0	0	1 269	0	1 269
zh	čínština	135	269	0	0	0	2 292	0	2 696
celkem		327 498	27 692	24 627	405 390	263 669	486 747	11 498	1 547 120
cs	čeština	113 935	4 356	2 313	19 189	12 919	50 634	562	203 909
CELKEM		441 433	32 048	26 941	424 579	276 587	537 382	12 060	1 751 029

¹⁾

Nástroj využívá všechna data pro daný jazyk, tj. všechny treebanky uvedené na stránce https://lindat.mff.cuni.cz/services/udpipe/IUDPipe. Při zpracování lze i tak zadat parametr, který pro některá rozhodnutí, např. pro tokenizaci, preferuje určitý model. Při anotaci toho korpusu byly zadány tyto modely: arabic-padt-ud-2.6-200830, belarusian-hse-ud-2.6-200830, bulgarian-btb-ud-2.6-200830, catalan-ancora-ud-2.6-200830, chinese-gsdsimp-ud-2.6-200830, croatian-set-ud-2.6-200830, czech-fictree-ud-2.6-200830, danish-ddt-ud-2.6-200830, dutch-alpino-ud-2.6-200830, english-partut-ud-2.6-200830, estonian-edt-ud-2.6-200830, finnish-tdt-ud-2.6-200830, french-gsd-ud-2.6-200830, german-gsd-ud-2.6-200830, greek-gdt-ud-2.6-200830, hebrew-htb-ud-2.6-200830, hindi-hdtb-ud-2.6-200830, hungarian-szeged-ud-2.6-200830, italian-postwita-ud-2.6-200830, japanese-gsd-ud-2.6-200830, latvian-lvtb-ud-2.6-200830, lithuanian-alksnis-ud-2.6-200830, maltese-mudt-ud-2.6-200830, norwegian-nynorsk-ud-2.6-200830, polish-pdb-ud-2.6-200830, portuguese-gsd-ud-2.6-200830, romanian-rrt-ud-2.6-200830, russian-syntagrus-ud-2.6-200830, serbian-set-ud-2.6-200830, slovak-snk-ud-2.6-200830, slovenian-ssj-ud-2.6-200830, spanish-ancora-ud-2.6-200830, swedish-talbanken-ud-2.6-200830, turkish-imst-ud-2.6-200830, ukrainian-iu-ud-2.6-200830, vietnamese-vtb-ud-2.6-200830.

²⁾

Vložte konkrétní jazyky.

Obsah

Korpus InterCorp verze 13ud – Universal Dependencies

Přístup k textům

Hlavní rozdíly mezi verzemi 13 a 13ud

Obsah korpusu

Poděkování

Texty:

Předzpracování:

Nástroj na lingvistické značkování:

Jak citovat

Viz též