AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

Korpus Formát OOo Calc Formát MS Excel
SYN2000 ods xls
SYN2005 ods xls
SYN2006PUB ods xls
SYN2009PUB ods xls
SYN2010 ods xls
SYN ods xls

Metainformace v korpusech řady ORAL

Některé metainformace připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Společné všem korpusům řady ORAL:

Struktura Atribut Popis Možné hodnoty
doc id jednoznačný identifikátor sondy <řetězec čísel a velkých písmen>
temp rok nahrání sondy např. 2008
pocet počet mluvčích v sondě <číslo>
promluva typ promluvy N (neformální)
sp num číselné označení mluvčího v rámci sondy (doc) od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y
pohlavi pohlaví mluvčího {M(muž),Z(žena)} nebo Y
vek věková kategorie mluvčího {I(iunior, mladší: ca 20–35 let),V(vetus, starší: 35 let a více)} nebo Y
veknum věk mluvčího (číselně) <číslo>
vzdelani vzdělání mluvčího (hrubé rozlišení) {A(altus, vysokoškolské včetně pouze započatého),B(basis, základní a středoškolské)} nebo Y
vzdelanityp vzdělání mluvčího (jemnější rozlišení) {SŠ,VŠ,ZŠ} nebo Y
oblast nářeční oblast, kde se mluvčí narodil {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y

Dostupné pouze v korpusu ORAL2013:

Struktura Atribut Popis Možné hodnoty
doc vztah vztah mezi mluvčími {přátelskost,známost}
situace typ situace, v níž byla nahrávka pořízena {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}
sp oznacenishody jednoznačné označení mluvčího v rámci celého korpusu <řetězec malých písmen>
prekryv nachází se tato promluva daného mluvčího v překryvu? {ano,ne}

Pravidla pro přepis mluvených korpusů

Další pravidla

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005 a SYN2010 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.


1)
Údaje v tabulce se od počtů, které udává korpusový manažer, můžou v drobnostech lišit.