Skrýt
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revize Předchozí verze
Následující verze
Předchozí verze
cnk:pmk [2013/11/06 10:50]
lukasjanicik [Pražský mluvený korpus]
cnk:pmk [2018/08/13 15:09] (aktuální)
Václav Cvrček [Související odkazy]
Řádek 2: Řádek 2:
 ====== Pražský mluvený korpus ====== ====== Pražský mluvený korpus ======
  
- +**Pražský mluvený korpus** (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tematicky ​nespecializovanou,​ resp. neomezovanou,​ z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy v rámci celé země tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. ​Více než tři sta magnetofonových nahrávek, které jsou plně anonymní a byly postupně přepisovány, ​pochází ​z let 1988--1996 a odráží tedy jak jazyk konce předchozího společenského období tak jazyk počínajícího období ​nového.
-**Pražský mluvený korpus** (PMK) je prvním korpusem mluvené češtiny a zachycuje autentickou mluvenou češtinu, hlavně obecnou a tématicky ​nespecializovanou,​ resp. neomezovanou,​ z oblasti Prahy a jejího okolí. Vzhledem k centrálnímu a jedinečnému postavení Prahy tu jazykově dochází k velkému míšení lidí ze všech oblastí ČR a obraz jejího jazyka má tudíž do značné míry celonárodní povahu; z Prahy vychází také nejvýznamnější mediální ovlivnění celé země. ​Magnetofonové nahrávky (v počtu 304), které jsou plně anonymní a byly postupně přepisovány ​do počítačepocházejí ​z let 1988-1996 a odrážejí tedy jazyk jak konce předchozího společenského období tak začátek nového.+
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>​Název</​fs> ​<fs medium>​[[cnk:​pmk|PMK]]</​fs>​ |+^ <fs medium>​Název</​fs> ​<fs medium>​[[cnk:​pmk|PMK]]</​fs>​ |
 ^ Počet [[pojmy:​token|pozic (tokenů)]] |  819 267 |  ​ ^ Počet [[pojmy:​token|pozic (tokenů)]] |  819 267 |  ​
-^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek - slov |  674 992 |+^ Počet [[pojmy:​token|pozic (tokenů)]] bez interpunkce a dalších značek ​-- slov |  674 992 |
 ^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  49 089 |  ​ ^ Počet [[pojmy:​word| slovních tvarů (wordů)]] |  49 089 |  ​
 ^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  304 | ^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|nahrávek rozhovorů]] |  304 |
 ^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  15 710 | ^ Počet [[pojmy:​atributy_strukturni#​struktura_korpusu_mluvene_cestiny|promluv]] |  15 710 |
-^ Počet mluvčích |  <fc #FF0000>není znám</fc> |   +^ Počet mluvčích |  <fc #FF0000>N/A</fc> |   
-^ Délka nahrávek v min. |  ​není znám|  ​+^ Délka nahrávek v min. |  ​<fc #​FF0000>​N/​A</​fc> ​|  ​
 </​WRAP>​ </​WRAP>​
  
-PMK byl pořizován tak, aby ve vyvážených proporcích ​zachycoval ​čtyři sociolingvistické proměnné, pohlaví mluvčího, věk, vzdělání a typ promluvy, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty). Tyto informace o mluvčím je možné v rozhraní XX zobrazit pomocí menu **Zobrazení > Zdroje**. ​Pohlaví ​označují zkratky **M-Z (Mužena)**. Věk naznačují zkratky **I-V (Iunior-Vetus)**tj. mladší a starší, ​přičemž spodní ​hranicí bylo cca 20 let (jazyk dospívající mládeže není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. Vzdělání signalizují zkratky ​**B-A (Basis-Altus)**, tj. nižší, zahrnující jak základní školu tak vzdělání maturitní, a vyšší, vztahující se ke vzdělání vysokoškolskému. Konečně poslední proměnná, zastoupená zkratkami **F-N**, označuje ​ promluvu **formální** proti **neformální**. Formální promluva ​je monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným,​ měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka.+===== Přepis nahrávek a další informace ===== 
 + 
 +PMK byl pořizován tak, aby ve vyvážených proporcích ​obsáhl ​čtyři sociolingvistické proměnné, všechny pro jednoduchost dělené pouze binárně (na dvě hodnoty):  
 + 
 +^ Kategorie ^ zkratky ^ 
 +Pohlaví ​(muž) a Z (žena) ​
 +Věk I (iunior, mladší: ca 20--35 let) V (vetus, ​starší: 35 let a více) | 
 +^ Vzdělání | B (basiszákladní a středoškolské) a A (altus, vysokoškolské včetně pouze započatého) | 
 +^ Typ promluvy | F (formální) a N (neformální) | 
 + 
 +Spodní ​hranicí bylo cca 20 let (jazyk dospívající mládeže ​totiž ​není plně stabilizovaný) a předělem mezi nimi byl věk cca 35 let. **Formální promluva** je v pojetí PMK monolog vytvářený sledem odpovědí na otázky kladené nahrávajícím (pro zamezení ovlivnění odpovědí, ať už kódem spisovným či nespisovným,​ měly otázky smíšenou povahu nespisovně-spisovnou). Týkaly se takových širokých témat jako škola, mládež, zaměstnání ap. a nahrávány ani přepisovány nebyly (byly ve všech případech stejné). Neformální promluva je vlastně dialogický soubor promluv dvou mluvčích, kteří se znají; téma jejich rozhovoru nebylo nijak předem určováno, volili ho sami. Nahrávky usilovaly o proporční vyváženost desítek sociolingvistických kombinací (typu MIBF, MIAF, MIAN apod.) takto vzniklých a jsou tedy v tomto smyslu reprezentativní pro všechny proměnné. Nepřipravenost odpovědí a dialogů zaručuje maximální možnou spontánnost užitého jazyka.
  
 Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější,​ ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů. Způsob přepisu nahrávek je vidět z textu, snažil se o širší zachycení mluveného jazyka co nejvěrnější a nejsrozumitelnější,​ ne však způsobem dialektologickým. Proto je v něm pochopitelně také více kolísání odrážející přirozenou variabilitu a někdy i individuální přístupy přepisovatelů.
  
-FIXME<fc #FF0000>tšina tohoto popisu ​je v tabulce</​fc>​+Rozsáhlé manuální kódování a [[pojmy:tag|tagování]] PMK není dokončené a lze něm proto zatím pracovat jen s čistými texty, bez [[pojmy:​lemma|lemmatizace]] a [[pojmy:​tag|morfologických značek]]; základním výstupem k dalšímu studiu ​je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. ​
  
-V současné době se dosud dokončuje rozsáhlé manuální kódování a taggovaní PMK a lze tu proto zatím pracovat jen s jeho texty čistými. Co tedy lze z PMK zjistit a jak rozsáhlý je jeho materiál? Hledat lze něm, jako v jiných korpusech, avšak bez lemmatizace a taggování;​ základním výstupem k dalšímu studiu je především zadaná konkordance s hledaným tvarem nebo kombinací tvarů slova. Korpusový manažer (viz menu Korpus > Souhrnné informace) uvádí pro PMK počet pozic 819 267, což je počet všech jeho slovních tvarů a interpunkčních znamének; z toho je 674 992 slov. Poziční atribut word uvádí číslo 49089, což je počet zaznamenaných různých slovních tvarů (tj. bez jejich opakování). Dále se lze dovědět i celkový počet souborů (304) a celkový počet promluv v PMK (15710). Promluvou se zde označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc.+**Promluvou** ​se v PMK označuje souvislý projev jednoho mluvčího (nepřerušovaný jiným mluvčím); v dialogu (označený jako N na posledním místě čtyřmístného kódu) je takto pojatých promluv vztahujících se k jednomu mluvčímu pochopitelně vždy víc. 
 + 
 +==== Poděkování ====
  
 Autory PMK jsou v různých proporcích především Anna Adamovičová,​ František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů. Autory PMK jsou v různých proporcích především Anna Adamovičová,​ František Čermák, Jiří Pešička, Josef Šimandl, Jitka Šonková, Petr Savický a Zdena Smetanová z UK FF; s nahrávkami pomáhala ovšem i řada studentů.
  
- --- //​František Čermák//, vedoucí projektu, Praha 2001 
  
 +===== Jak citovat PMK =====
 +
 +<WRAP round tip 70%>
 +Čermák, F. – Adamovičová,​ A. – Pešička, J.: //PMK (Pražský mluvený korpus): přepisy nahrávek pražské mluvy z 90. let 20//. století. Ústav Českého národního korpusu FF UK, Praha 2001. Dostupný z WWW: http://​www.korpus.cz
 +</​WRAP>​
 +
 + --- //​František Čermák//, vedoucí projektu
 +
 +===== Související odkazy =====
 +
 +<WRAP round box 49%>
 +[[seznamy:​index#​pravidla_pro_prepis|Pravidla pro přepis nahrávek]] • [[ORAL2006]] • [[ORAL2008]] • [[ORAL2013]] • [[BMK]] • [[SCHOLA2010]] • [[pojmy:​mluveny|Korpus mluveného jazyka]]
 + </​WRAP>​