AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Brněnský mluvený korpus

Brněnský mluvený korpus (BMK) je v rámci ČNK prvním korpusem mluvené češtiny z oblasti Moravy. Zaznamenává autentickou tematicky nespecializovanou mluvu města Brna. BMK je elektronickým přepisem 250 anonymních magnetofonových nahrávek (tj. 596 009 pozic) z let 1994-1999 zachycujících 294 mluvčích.

Název BMK
Počet pozic (tokenů) 596 009
Počet pozic (tokenů) bez interpunkce a dalších značek - slov 500 4601)
Počet slovních tvarů (wordů) 39 615
Počet nahrávek rozhovorů 250
Počet promluv 27 921
Počet mluvčích 294
Délka nahrávek v min. není znám

Značná pestrost brněnské mluvené češtiny odráží složitost sociální struktury velkoměsta, ústřední postavení Brna v rámci Moravy (dochází zde k míšení obyvatel z celého dosud nářečně diferencovaného regionu) a dále teritoriální blízkost k jazykovému území vlastních Čech. V běžné mluvě Brňanů se prolíná zejména středomoravský interdialekt s pronikající obecnou češtinou (s níž se v řadě rysů tradiční dialekt okolí města shoduje), v oblasti slovní zásoby jsou patrny relikty někdejšího soužití brněnské češtiny s německým jazykem a vliv brněnského slangu (hantecu). Mluvený jazyk v Brně reflektuje také celomoravskou tendenci širšího funkčního využití češtiny spisovné.

BMK byl pořizován v souladu se zásadami PMK, to znamená tak, aby ve vyvážených proporcích obsáhl čtyři sociolingvistické proměnné: pohlaví mluvčího, jeho věk, vzdělání a typ promluvy. Nahrávky usilovaly o reprezentativní zastoupení všech kombinací. Pohlaví označují zkratky M-Z (Muž-Žena), věk zkratky I-V (Iunior-Vetus), tj. mladší a starší, přičemž spodní hranicí bylo cca 20 let a předělem mezi oběma hodnotami byl věk cca 35 let. Vzdělání označují zkratky B-A (Basis-Altus), tj. nižší, zahrnující vzdělání základní, případně maturitní, a vyšší, vztahující se ke vzdělání vysokoškolskému (touto zkratkou jsou označeni i studenti VŠ). Poslední proměnná, signalizovaná zkratkami F-N, rozlišuje promluvu formální a neformální. BMK obsahuje 135 nahrávek formálních a 115 nahrávek neformálních. Formální promluvu tvoří monolog vytvářený sledem odpovědí na otázky kladené podle jednotného dotazníku. Otázky se týkaly širokých témat jako škola, mládež, zaměstnání, rodina. Byly kladeny ve spisovném kódu (na rozdíl od PMK) a nebyly nahrávány ani přepisovány (přepsány jsou pouze ojedinělé upřesňující vstupy explorátorů, označované jednotnou zkratkou T - tazatel). Neformální promluvy tvoří dialogy dvou, případně i více mluvčích, kteří se dobře znají. Téma hovoru si volili sami. Jeden z účastníků dialogu byl zpravidla i respondentem ve formální promluvě, což umožňuje sledovat rozdíly češtiny užité v neoficiálních a polooficiálních situacích. V řadě případů byly nahrávky neformálních promluv pořízeny skrytým mikrofonem (jejich zveřejnění bylo mluvčími schváleno dodatečně), takže zaručují velkou míru autenticity a spontánnosti užitého jazyka.

Každá nahrávka je dále doplněna zpřesňujícími informacemi o mluvčích, o roku svého vzniku, případně relevantními údaji o situaci promluvy.

Způsob přepisu nahrávek je patrný z textu. Snažil se o co nejvěrnější, ale zároveň i nejsrozumitelnější zachycení mluveného jazyka. Přizpůsoboval se též požadavkům softwarových nástrojů pro automatickou analýzu textu. Nebyl proto užit přepis dialektologický (fonetický), nýbrž účelová kombinace fonetického zápisu a standardních pravopisných norem. V jednotlivých textech se pochopitelně objevuje kolísání, odrážející mj. individuální přístupy přepisovatelů (zčásti studentů). Pravidla přepisu v základních obrysech odpovídají pravidlům užívaným v PMK, diference spočívají především v pokusu o nahrazení tradiční interpunkce interpunkcí „pauzovou“ a v zachycení simultánnosti dialogických promluv (viz Zásady přepisu).

V současné době probíhá na Fakultě informatiky MU a na Filozofické fakultě MU v Brně gramatické značkování BMK. Využívána je metoda poloautomatické analýzy, práci však komplikuje velká hlásková, tvarová i lexikální variabilita brněnské mluvy (prolínání dialektických, interdialektických, obecněčeských i spisovných podob). V ČNK lze proto s BMK pracovat zatím pouze jako s čistými texty, tj. především vyhledávat zadané konkordance s určitým tvarem nebo kombinací tvarů slova.

Na Fakultě informatiky MU a na Filozofické fakultě MU v Brně proběhlo zkušební morfologické značkování BMK (viz např. Hlaváčková, D.: Korpus mluvené češtiny z brněnského prostředí a jeho morfologické značkování. SaS, 62, 2001, s. 62-70). V ČNK je však BMK uložen bez morfologických značek.

Na tvorbě BMK se v různých proporcích podíleli: Zdeňka Hladká, Dana Hlaváčková, Daniel Jedlička a Táňa Vykypělová z Filozofické fakulty Masarykovy univerzity v Brně; s pořizováním nahrávek pomáhala řada studentů FF MU a FSS MU. Pod manažer Bonito uložil korpus Pavel Rychlý z Fakulty informatiky MU.

Zdeňka Hladká, garant BMK

1)
[manual:chvala_korpusu?&#hledame_veskerou_interpunkci_v_mluvenem_korpusu_pocet_pozic_obsazenych_slovy|Jak spočítat počet slov v korpusu?