Obsah
Korpus InterCorp verze 3
Přístup k textům
InterCorp má v řadě korpusů budovaných v ÚČNK zvláštní postavení hned v několika ohledech:
- je přístupný přes rozhraní KonText pomocí speciálního dotazovacího formuláře
- specifikem InterCorpu je také jeho inkrementální povaha: zatímco většina ostatních korpusů ČNK jsou neměnné referenční entity, objem textů i počet jazyků zpřístupněných v korpusu InterCorp se postupně zvyšuje (verze jsou ovšem od roku 2014 zpětně dostupné)
Obsah korpusu
InterCorp obsahuje převážně manuálně zarovnané beletristické texty v češtině a dalších jazycích a výběr publistických článků z webových stránek Project Syndicate, zatím jde o české, anglické, francouzské, německé, ruské a španělské texty z let 2000 až 2008. Tyto texty jsou zarovnané jen automaticky, v konkordancích tedy může být více vět, které si navzájem neodpovídají.
Každý cizojazyčný textu má v korpusu svou českou verzi. Čeština je tedy tzv. pivot, česká verze textu (originál nebo překlad) je zarovnaná s jednou nebo více verzemi cizojazyčnými. V níže uvedené tabulce jsou data popisující rozsah zpřístupněné části korpusu, Project Syndicate představuje zhruba 1,5 až 2 milióny slov, která jsou již započtena v celkovém počtu slov pro daný jazyk (stav z února 2011 ve verzi 3, historii verzí najdete zde).
Velikost korpusu v tisících slov
jazyk | počet slov (v tisících) | počet textů |
---|---|---|
angličtina | 5 695 | Syndicate + 49 |
bulharština | 1 135 | 15 |
dánština | 190 | 5 |
finština | 1 247 | 19 |
francouzština | 3 141 | Syndicate+ 21 |
chorvatština | 6 735 | 96 |
italština | 2 817 | 28 |
litevština | 353 | 17 |
lotyština | 1 085 | 33 |
maďarština | 1 123 | 17 |
němčina | 8 846 | Syndicate + 100 |
nizozemština | 3 914 | 58 |
norština | 2 158 | 21 |
polština | 4 716 | 80 |
portugalština | 1 312 | 18 |
rumunština | 671 | 5 |
ruština | 2 951 | Syndicate + 25 |
slovenština | 6 899 | 138 |
slovinština | 992 | 16 |
srbština | 1 724 | 27 |
španělština | 10 905 | Syndicate + 108 |
švédština | 3 673 | 47 |
CELKEM | 72 280 | 943 |
čeština*) | 41 340 | Syndicate + 652 |
*) U českých textů se počítají slova jen jednou za každý text, i když má více cizojazyčných protějšků.
Morfosyntaktická anotace
Texty v těchto jazycích jsou opatřeny morfologickou anotací.
jazyk | značky | lemmata | stručný popis | podrobný popis | nástroj |
---|---|---|---|---|---|
angličtina | ✔ | ✔ | anglicky | anglicky + dodatky | TreeTagger |
bulharština | ✔ | anglicky | TreeTagger | ||
čeština | ✔ | ✔ | česky anglicky *) | anglicky | Morče |
francouzština | ✔ | ✔ | anglicky | TreeTagger | |
italština | ✔ | ✔ | anglicky | TreeTagger | |
litevština | ✔ | ✔ | česky a anglicky | Vidas Daudaravičius | |
maďarština | ✔ | anglicky | HunPos | ||
němčina | ✔ | ✔ | německy | německy | TreeTagger |
nizozemština | ✔ | TreeTagger | |||
norština | ✔ | ✔ | analyzátor, tagger | ||
polština | ✔ | ✔ | anglicky polsky | anglicky | Morfeusz, TaKIPI |
ruština | ✔ | ✔ | anglicky | anglicky **) | TreeTagger |
slovenština | ✔ | ✔ | slovensky | slovensky | Radovan Garabík, Morče |
španělština | ✔ | ✔ | anglicky | TreeTagger |
*) Formulaci dotazu, který obsahuje české morfologické značky, usnadní klikátko.
**) Značky v korpusu někdy neodpovídají značkám uvedeným v podrobném popisu. V korpusu se zanedbávají některé morfologické kategorie, např. zájmena jsou vždy označkována jen jako "P-". Všechny značky, tak jak se užívají v korpusu, jsou uvedeny ve stručném popisu.
Jak používat značky při hledání v korpusu se dozvíte v návodu k Parku.
Poděkování
Děkujeme za možnost využívat následující software a data:
Předzpracování
- větný segmentátor pro češtinu (autor Pavel Květoň)
- větný segmentátor pro norštinu (autoři Jarle Ebeling a Pavel Vondřička)
- větný segmentátor Punkt pro všechny ostatní jazyky ze sady Natural Language Toolkit
- zarovnávač Hunalign
Značkovače / lematizátory:
- Morče pro češtinu
- TreeTagger pro angličtinu, bulharštinu, francouzštinu, italštinu, němčinu, nizozemštinu, ruštinu a španělštinu
- Morfeusz a TaKIPI pro polštinu
- HunPOS pro maďarštinu
- tagger pro slovenštinu
- tagger pro litevštinu
- analyzátor a tagger pro norštinu
Korpusový manažer:
Data:
- publicistické texty ve více jazycích z webových stránek Project Syndicate
- slovensko-české konkordance ze Slovenského národního korpusu
- povídky ve více jazycích z projektu Můj rok 1989 z Goethe Institutu
- více textů v česko-litevské části korpusu od Patricka Cornesse
- román George Orwella 1984 ve více jazycích z korpusu Multext-East
- ukrajinské a polské texty z korpusu PolUkr (připravuje se)
- texty ve více jazycích z korpusu ParaSol (připravuje se)
- publicistické texty ve více jazycích ze serveru PressEurope (připravuje se)
- právnické texty v jazycích EU z korpusu JRC-ACQUIS (připravuje se)
- norské texty z nakladatelství Aschehoug & co., Cappelen Forlag a Forlaget Oktober
Poslední aktualizace: 24. února 2011