Toto je starší verze dokumentu!
Obsah
Seznamy zdrojů a zkratek
V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.
Zkratky a kódy
Zdrojové texty psaných korpusů
Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:
- id - jednoznačný identifikátor textu
- autor - autor nebo autoři textu (je-li to informace zjistitelná)
- nazev - název díla, příp. číslo časopisu/novin
- rokvyd - rok vydání díla (nemusí být nutně první vydání)
- srclang - zdrojový jazyk
- txtype_group - textová skupina
- txtype - textový typ (seznam zkratek)
- genre - žánr/odborná oblast (seznam zkratek)
- med - medium textu (seznam zkratek)
- Korpus - původní zařazení textu do jednoho z referenčních korpusů SYN2000, SYN2005, SYN2006PUB, SYN2009PUB nebo SYN2010
Metainformace v korpusech řady ORAL
Některé metainformace připouštějí hodnotu Y
, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).
Společné všem korpusům řady ORAL:
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | id | jednoznačný identifikátor sondy | <řetězec čísel a velkých písmen> |
temp | rok nahrání sondy | např. 2008 |
|
pocet | počet mluvčích v sondě | <číslo> |
|
promluva | typ promluvy | N (neformální) |
|
sp | num | číselné označení mluvčího v rámci sondy (doc) | od 00 výš (podle počtu mluvčích, přičemž 00 označuje mluvčího, který rozhovor nahrával); možné je i Y |
pohlavi | pohlaví mluvčího | {M (muž),Z (žena)} nebo Y |
|
vek | věková kategorie mluvčího | {I (iunior, mladší: ca 20–35 let),V (vetus, starší: 35 let a více)} nebo Y |
|
veknum | věk mluvčího (číselně) | <číslo> |
|
vzdelani | vzdělání mluvčího (hrubé rozlišení) | {A (altus, vysokoškolské včetně pouze započatého),B (basis, základní a středoškolské)} nebo Y |
|
vzdelanityp | vzdělání mluvčího (jemnější rozlišení) | {SŠ,VŠ,ZŠ} nebo Y |
|
oblast | nářeční oblast, kde se mluvčí narodil | {česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská} nebo Y |
Dostupné pouze v korpusu ORAL2013:
Struktura | Atribut | Popis | Možné hodnoty |
---|---|---|---|
doc | vztah | vztah mezi mluvčími | {přátelskost,známost} |
situace | typ situace, v níž byla nahrávka pořízena | {hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet} |
|
sp | oznacenishody | jednoznačné označení mluvčího v rámci celého korpusu | <řetězec malých písmen> |
prekryv | nachází se tato promluva daného mluvčího v překryvu? | {ano,ne} |
Pravidla pro přepis mluvených korpusů
: ztabulkovat
Další pravidla
Abecední a retrográdní slovníky
Z korpusů SYN2000, SYN2005 a SYN2010 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.
Srovnávací frekvenční seznamy
Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.
Nástroje pro tagování a lemmatizaci
Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.