Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:pmk [2013/12/05 02:18] – olgarichterova | cnk:pmk [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy cvrcek |
---|
====== Pražský mluvený korpus ====== | ====== Pražský mluvený korpus ====== |
| |
**Pražský mluvený korpus** (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Magnetofonové nahrávky (v počtu 304), které jsou plně anonymní a byly postupně přepisovány do počítače, pocházejí z let 1988-1996 a odrážejí tedy jazyk jak konce předchozího společenského období tak začátek nového. | **Pražský mluvený korpus** (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky nespecializovanou, resp. neomezovanou, z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy v rámci celé země tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. Více než tři sta magnetofonových nahrávek, které jsou plně anonymní a byly postupně přepisovány, pochází z let 1988--1996 a odráží tedy jak jazyk konce předchozího společenského období tak jazyk počínajícího období nového. |
| |
<WRAP right 35%> | <WRAP right 35%> |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek -- slov | 674 992 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek -- slov | 674 992 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 49 089 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 49 089 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] | 304 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 304 | |
^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] | 15 710 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 15 710 | |
^ Počet mluvčích | <fc #FF0000>není znám</fc> | | ^ Počet mluvčích | <fc #FF0000>N/A</fc> | |
^ Délka nahrávek v min. | není známa | | ^ Délka nahrávek v min. | <fc #FF0000>N/A</fc> | |
</WRAP> | </WRAP> |
| |
PMK byl pořizován tak, aby ve vyvážených proporcích zachycoval čtyři sociolingvistické proměnné, pohlaví mluvčího, věk, vzdělání a typ promluvy, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty). Tyto informace o mluvčím je možné v rozhraní XX zobrazit pomocí menu **Zobrazení > Zdroje**. Pohlaví označují zkratky **M-Z (Muž-Žena)**. Věk naznačují zkratky **I-V (Iunior-Vetus)**, tj. mladší a starší, přičemž spodní hranicí bylo cca 20 let (jazyk dospívající mládeže není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. Vzdělání signalizují zkratky **B-A (Basis-Altus)**, tj. nižší, zahrnující jak základní školu tak vzdělání maturitní, a vyšší, vztahující se ke vzdělání vysokoškolskému. Konečně poslední proměnná, zastoupená zkratkami **F-N**, označuje promluvu **formální** proti **neformální**. Formální promluva je monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka. | ===== Přepis nahrávek a další informace ===== |
| |
| PMK byl pořizován tak, aby ve vyvážených proporcích obsáhl čtyři sociolingvistické proměnné, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty): |
| |
| ^ Kategorie ^ zkratky ^ |
| ^ Pohlaví | M (muž) a Z (žena) | |
| ^ Věk | I (iunior, mladší: ca 20--35 let) a V (vetus, starší: 35 let a více) | |
| ^ Vzdělání | B (basis, základní a středoškolské) a A (altus, vysokoškolské včetně pouze započatého) | |
| ^ Typ promluvy | F (formální) a N (neformální) | |
| |
| Spodní hranicí bylo cca 20 let (jazyk dospívající mládeže totiž není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. **Formální promluva** je v pojetí PMK monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným, měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka. |
| |
Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější, ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů. | Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější, ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů. |
| |
FIXME: <fc #FF0000>většina tohoto popisu je v tabulce</fc> | Rozsáhlé manuální kódování a [[pojmy:tag|tagování]] PMK není dokončené a lze v něm proto zatím pracovat jen s čistými texty, bez [[pojmy:lemma|lemmatizace]] a [[pojmy:tag|morfologických značek]]; základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. |
| |
V současné době se dosud dokončuje rozsáhlé manuální kódování a taggovaní PMK a lze tu proto zatím pracovat jen s jeho texty čistými. Co tedy lze z PMK zjistit a jak rozsáhlý je jeho materiál? Hledat lze v něm, jako v jiných korpusech, avšak bez lemmatizace a taggování; základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. Korpusový manažer (viz menu Korpus > Souhrnné informace) uvádí pro PMK počet pozic 819 267, což je počet všech jeho slovních tvarů a interpunkčních znamének; z toho je 674 992 slov. Poziční atribut word uvádí číslo 49089, což je počet zaznamenaných různých slovních tvarů (tj. bez jejich opakování). Dále se lze dovědět i celkový počet souborů (304) a celkový počet promluv v PMK (15710). Promluvou se zde označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc. | **Promluvou** se v PMK označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc. |
| |
| ==== Poděkování ==== |
| |
Autory PMK jsou v různých proporcích především Anna Adamovičová, František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů. | Autory PMK jsou v různých proporcích především Anna Adamovičová, František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů. |
| |
--- //František Čermák//, vedoucí projektu, Praha 2001 | |
| |
| ===== Jak citovat PMK ===== |
| |
| <WRAP round tip 70%> |
| Čermák, F. – Adamovičová, A. – Pešička, J.: //PMK (Pražský mluvený korpus): přepisy nahrávek pražské mluvy z 90. let 20//. století. Ústav Českého národního korpusu FF UK, Praha 2001. Dostupný z WWW: http://www.korpus.cz |
| </WRAP> |
| |
| --- //František Čermák//, vedoucí projektu |
| |
| ===== Související odkazy ===== |
| |
| <WRAP round box 49%> |
| [[seznamy:index#pravidla_pro_prepis|Pravidla pro přepis nahrávek]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[BMK]] • [[SCHOLA2010]] • [[pojmy:mluveny|Korpus mluveného jazyka]] |
| </WRAP> |