Pražský mluvený korpus (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy v rámci celé země tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Více než tři sta magnetofonových nahrávek, které jsou plně anonymní a byly postupně přepisovány, pochází z let 1988–1996 a odráží tedy jak jazyk konce předchozího společenského období tak jazyk počínajícího období nového.
Název | PMK |
---|---|
Počet pozic (tokenů) | 819 267 |
Počet pozic (tokenů) bez interpunkce a dalších značek – slov | 674 992 |
Počet slovních tvarů (wordů) | 49 089 |
Počet nahrávek rozhovorů | 304 |
Počet promluv | 15 710 |
Počet mluvčích | N/A |
Délka nahrávek v min. | N/A |
PMK byl pořizován tak, aby ve vyvážených proporcích obsáhl čtyři sociolingvistické proměnné, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty):
Kategorie | zkratky |
---|---|
Pohlaví | M (muž) a Z (žena) |
Věk | I (iunior, mladší: ca 20–35 let) a V (vetus, starší: 35 let a více) |
Vzdělání | B (basis, základní a středoškolské) a A (altus, vysokoškolské včetně pouze započatého) |
Typ promluvy | F (formální) a N (neformální) |
Spodní hranicí bylo cca 20 let (jazyk dospívající mládeže totiž není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. Formální promluva je v pojetí PMK monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka.
Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější, ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů.
Rozsáhlé manuální kódování a tagování PMK není dokončené a lze v něm proto zatím pracovat jen s čistými texty, bez lemmatizace a morfologických značek; základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova.
Promluvou se v PMK označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc.
Autory PMK jsou v různých proporcích především Anna Adamovičová, František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů.
Čermák, F. – Adamovičová, A. – Pešička, J.: PMK (Pražský mluvený korpus): přepisy nahrávek pražské mluvy z 90. let 20. století. Ústav Českého národního korpusu FF UK, Praha 2001. Dostupný z WWW: http://www.korpus.cz
— František Čermák, vedoucí projektu