Seznamy zdrojů a zkratek

V této sekci jsou k dispozici různé seznamy pro práci s korpusy ČNK.

Zkratky a kódy

Zdrojové texty psaných korpusů

Seznamy ve formátu OpenOffice.org a MS Excel obsahují kompletní výčet opusů ve všech korpusech. Ke každému textu v korpusu jsou v tabulce uvedeny následující údaje:

id - jednoznačný identifikátor textu
autor - autor nebo autoři textu (je-li to informace zjistitelná)
nazev - název díla, příp. číslo časopisu/novin
rokvyd - rok vydání díla (nemusí být nutně první vydání)
srclang - zdrojový jazyk
txtype_group - textová skupina
txtype - textový typ (seznam zkratek)
genre - žánr/odborná oblast (seznam zkratek)
med - medium textu (seznam zkratek)
Korpus - původní zařazení textu do jednoho z referenčních korpusů SYN2000, SYN2005, SYN2006PUB, SYN2009PUB nebo SYN2010
Délka - celkový počet pozic v daném textu¹⁾

Korpus	Formát OOo Calc	Formát MS Excel
SYN2000	ods	xls
SYN2005	ods	xls
SYN2006PUB	ods	xls
SYN2009PUB	ods	xls
SYN2010	ods	xls
SYN	ods	xls

Metainformace v korpusech řady ORAL

Některé metainformace připouštějí hodnotu Y, která značí, že údaj není znám. Bývá uveden u mluvčích, kteří se v rozhovoru objevují krátce (např. servírka v rozhovoru vedeném v restauraci).

Společné všem korpusům řady ORAL:

Struktura	Atribut	Popis	Možné hodnoty
doc	id	jednoznačný identifikátor sondy	`<řetězec čísel a velkých písmen>`
	temp	rok nahrání sondy	např. `2008`
	pocet	počet mluvčích v sondě	`<číslo>`
	promluva	typ promluvy	`N` (neformální)
sp	num	číselné označení mluvčího v rámci sondy (doc)	od `00` výš (podle počtu mluvčích, přičemž `00` označuje mluvčího, který rozhovor nahrával); možné je i `Y`
	pohlavi	pohlaví mluvčího	`{M`(muž)`,Z`(žena)`}` nebo `Y`
	vek	věková kategorie mluvčího	`{I`(iunior, mladší: ca 20–35 let)`,V`(vetus, starší: 35 let a více)`}` nebo `Y`
	veknum	věk mluvčího (číselně)	`<číslo>`
	vzdelani	vzdělání mluvčího (hrubé rozlišení)	`{A`(altus, vysokoškolské včetně pouze započatého)`,B`(basis, základní a středoškolské)`}` nebo `Y`
	vzdelanityp	vzdělání mluvčího (jemnější rozlišení)	`{SŠ,VŠ,ZŠ}` nebo `Y`
	oblast	nářeční oblast, kde se mluvčí narodil	`{česko-moravská,jihozápadočeská,pohraničí české,pohraničí moravské,severovýchodočeská,slezská,středočeská,středomoravská,východomoravská}` nebo `Y`

Dostupné pouze v korpusu ORAL2013:

Struktura	Atribut	Popis	Možné hodnoty
doc	vztah	vztah mezi mluvčími	`{přátelskost,známost}`
	situace	typ situace, v níž byla nahrávka pořízena	`{hovor při jídle doma,hovor při společné činnosti,hovor v práci,jiné,jízda dopravním prostředkem,na chatě,na zastávce,návštěva,oslava,posezení na zahradě,procházka,restaurace,rozhovor doma,společenská hra,ve škole mimo vyučování,výlet}`
sp	oznacenishody	jednoznačné označení mluvčího v rámci celého korpusu	`<řetězec malých písmen>`
	prekryv	nachází se tato promluva daného mluvčího v překryvu?	`{ano,ne}`

Pravidla pro přepis mluvených korpusů

: ztabulkovat

Další pravidla

Sběr a přepis dopisů - KSK

Abecední a retrográdní slovníky

Z korpusů SYN2000, SYN2005 a SYN2010 jsme vytvořili seznamy slovních tvarů a lemmat setříděné podle abecedy.

Srovnávací frekvenční seznamy

Reprezentativní korpusy řady SYN představují každý sondu do jazyka své doby. Aby bylo možné vývoj jazyka v jednotlivých obdobích analyzovat, je třeba vzít v úvahu to, že tyto korpusy byly zpracovávány různými nástroji a jejich složení se liší. Pro snazší analýzu jazykového vývoje na základě těchto dat jsme pro vás připravili srovnávací seznamy.

Nástroje pro tagování a lemmatizaci

Nástroje pro tagování a lemmatizaci různých jazyků, které se užívají mj. v rámci paralelního korpusu InterCorp, shrnuje následující přehled.

Korpusy ČNK • Kurz práce s korpusem • Manuál korpusového rozhraní • Základní pojmy korpusové lingvistiky

¹⁾

Údaje v tabulce se od počtů, které udává korpusový manažer, můžou v drobnostech lišit.

Historie: • index

Obsah

Seznamy zdrojů a zkratek

Zkratky a kódy

Zdrojové texty psaných korpusů

Metainformace v korpusech řady ORAL

Pravidla pro přepis mluvených korpusů

Další pravidla

Abecední a retrográdní slovníky

Srovnávací frekvenční seznamy

Nástroje pro tagování a lemmatizaci

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence