AplikaceAplikace
Nastavení

Toto je starší verze dokumentu!


Pražský mluvený korpus

Pražský mluvený korpus (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Magnetofonové nahrávky (v počtu 304), které jsou plně anonymní a byly postupně přepisovány do počítače, pocházejí z let 1988-1996 a odrážejí tedy jazyk jak konce předchozího společenského období tak začátek nového.

Název PMK
Počet pozic (tokenů) 819 267
Počet pozic (tokenů) bez interpunkce a dalších značek – slov 674 992
Počet slovních tvarů (wordů) 49 089
Počet nahrávek rozhovorů 304
Počet promluv 15 710
Počet mluvčích není znám
Délka nahrávek v min. není známa

PMK byl pořizován tak, aby ve vyvážených proporcích zachycoval čtyři sociolingvistické proměnné, pohlaví mluvčího, věk, vzdělání a typ promluvy, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty). Tyto informace o mluvčím je možné v rozhraní XX zobrazit pomocí menu Zobrazení > Zdroje. Pohlaví označují zkratky M-Z (Muž-Žena). Věk naznačují zkratky I-V (Iunior-Vetus), tj. mladší a starší, přičemž spodní hranicí bylo cca 20 let (jazyk dospívající mládeže není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. Vzdělání signalizují zkratky B-A (Basis-Altus), tj. nižší, zahrnující jak základní školu tak vzdělání maturitní, a vyšší, vztahující se ke vzdělání vysokoškolskému. Konečně poslední proměnná, zastoupená zkratkami F-N, označuje promluvu formální proti neformální. Formální promluva je monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka.

Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější, ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů.

FIXME: většina tohoto popisu je v tabulce

V současné době se dosud dokončuje rozsáhlé manuální kódování a taggovaní PMK a lze tu proto zatím pracovat jen s jeho texty čistými. Co tedy lze z PMK zjistit a jak rozsáhlý je jeho materiál? Hledat lze v něm, jako v jiných korpusech, avšak bez lemmatizace a taggování; základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. Korpusový manažer (viz menu Korpus > Souhrnné informace) uvádí pro PMK počet pozic 819 267, což je počet všech jeho slovních tvarů a interpunkčních znamének; z toho je 674 992 slov. Poziční atribut word uvádí číslo 49089, což je počet zaznamenaných různých slovních tvarů (tj. bez jejich opakování). Dále se lze dovědět i celkový počet souborů (304) a celkový počet promluv v PMK (15710). Promluvou se zde označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc.

Autory PMK jsou v různých proporcích především Anna Adamovičová, František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů.

František Čermák, vedoucí projektu, Praha 2001