AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:dialekt [2020/11/04 10:13] – [Korpus DIALEKT] martinawaclawicovacnk:dialekt [2022/08/29 17:25] (aktuální) – BatchEdit: pojmy>seznamy promluvy cvrcek
Řádek 1: Řádek 1:
 ~~NOTOC~~ ~~NOTOC~~
 +
 +<WRAP right 35%>
 +^ <fs medium>Název korpusu</fs> | <fs medium>**Dialekt_dial•v2**</fs>| <fs medium>**Dialekt_ort•v2**</fs>|
 +^ Počet [[pojmy:token|pozic (tokenů)]] |  310 200|  298 539|
 +^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  223 281|  223 327|
 +^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  33 715|  25 360|
 +^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek]] |  972||
 +^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  43 628||
 +^ Počet mluvčích |  291||
 +^ Délka nahrávek (hh:mm:ss.ms) |  27:43:21.423||
 +^ Datum zveřejnění |  23. 12. 2021||
 +</WRAP>
 +
 ====== Korpus DIALEKT ====== ====== Korpus DIALEKT ======
  
 Korpus **DIALEKT** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Nářeční materiál byl získán přepisem zvukových nahrávek pocházejících ze všech nářečních oblastí České republiky. Kromě toho byly některé nářeční promluvy nahrány na území Polska. Korpus je budován ve dvou vrstvách. Starší nářeční vrstva obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. V případě obou vrstev máme k dispozici jazyková data, v nichž jsou zachyceny archaické nářeční prvky, které se už dnes v běžném úzu většinou nevyskytují.  Korpus **DIALEKT** prezentuje tradiční teritoriální dialekty zachycené na území celé České republiky. Nářeční materiál byl získán přepisem zvukových nahrávek pocházejících ze všech nářečních oblastí České republiky. Kromě toho byly některé nářeční promluvy nahrány na území Polska. Korpus je budován ve dvou vrstvách. Starší nářeční vrstva obsahuje nahrávky, které byly pořízeny v období od konce 50. let až do 80. let 20. století. Do nové vrstvy jsou zařazeny nářeční sondy pocházející z období od 90. let 20. století až do současnosti. V případě obou vrstev máme k dispozici jazyková data, v nichž jsou zachyceny archaické nářeční prvky, které se už dnes v běžném úzu většinou nevyskytují. 
  
-Nářeční korpus ve své první verzi obsahuje cca 100 000 slov a bude se postupně rozšiřovat. Předpokládáme, že bude sloužit nejen pro odbornou veřejnost (dialektology, ostatní lingvisty a badatele z příbuzných oborů), ale například i jako praktická pomůcka při výuce na středních nebo vysokých školách. +Nářeční korpus obsahuje ve své druhé verzi víc než 220 000 slov a měl by se i nadále rozšiřovat. Předpokládáme, že bude sloužit nejen pro odbornou veřejnost (dialektology, ostatní lingvisty a badatele z příbuzných oborů), ale například i jako praktická pomůcka při výuce na středních nebo vysokých školách. 
  
-Doplňkem ke korpusu DIALEKT je aplikace [[https://korpus.cz/mapka/|Mapka]], která nabízí interaktivní mapu České republiky. V ní si lze zobrazit lokality mající vztah ke korpusu DIALEKT, např. síť obcí, ve kte­rých pro­bí­ha­lo na­hrá­vá­ní ná­řeč­ních pro­je­vů za­čle­ně­ných do kor­pu­su DIALEKT, nebo síť všech lokalit, z nichž pochází materiál zpracovaný i teprve zpracovávaný pro dal­ší ver­zi kor­pu­su. Aplikace umožňuje zobrazit si i nářeční a administrativní členění území ČR a údaje o nářečních rysech jednotlivých nářečních oblastí. Jako názorné příklady jsou do ní začleněny zvukové ukázky projevů nářečních mluvčích spolu s jejich přepisy a rozbory. Pro každou nářečního oblast jsou uvedeny dvě ukázky, jedna ze sta­ré ča­so­vé vrst­vy sbě­ru (od 50. let do 80. let 20. stol.) a jed­na z nové ča­so­vé vrst­vy sbě­ru (od 90. let 20. stol. do sou­čas­nos­ti). V apli­ka­ci je také mož­né vy­hle­dá­vat obce včetně jejich zařazení do sys­té­mu ná­řeč­ní­ho územ­ní­ho čle­ně­ní a vyznačovat je v mapě.+Doplňkem ke korpusu DIALEKT je aplikace [[https://korpus.cz/mapka/|Mapka]], která představuje interaktivní mapu České republiky. Lze si v ní zobrazit lokality mající vztah ke korpusu DIALEKT, např. síť obcí, ve kte­rých pro­bí­ha­lo na­hrá­vá­ní ná­řeč­ních pro­je­vů za­čle­ně­ných do kor­pu­su DIALEKT, nebo síť všech lokalit, z nichž pochází materiál zpracovaný i teprve zpracovávaný pro dal­ší ver­zi kor­pu­su. Aplikace nabízí administrativní a nářeční členění území ČR a jako doplněk je zahrnuto i historické členění, díky němuž můžeme na mapě zobrazit moravskou a slezskou zemskou hranici a německé jazykové ostrovy v ČR. Uživatel aplikace si také může zobrazit údaje o nářečních rysech jednotlivých nářečních oblastí. Jako názorné příklady jsou do ní začleněny zvukové ukázky projevů nářečních mluvčích spolu s jejich přepisy a rozbory nářečních rysů. Pro každou nářečního oblast, kromě pohraničí, jsou uvedeny dvě ukázky, jedna ze sta­ré ča­so­vé vrst­vy sbě­ru (od 50. let do 80. let 20. stol.) a jed­na z nové (od 90. let 20. stol. do sou­čas­nos­ti). V apli­ka­ci je také mož­né vy­hle­dá­vat obce včetně jejich zařazení do sys­té­mu ná­řeč­ní­ho územ­ní­ho čle­ně­ní, následně si je lze v mapě vyznačit a tvořit tak vlastní mapu
  
 <WRAP right 35%> <WRAP right 35%>
-^ <fs medium>Název korpusu</fs> | <fs medium>**Dialekt_dial**</fs>| <fs medium>**Dialekt_ort**</fs>|+^ <fs medium>Název korpusu</fs> | <fs medium>**Dialekt_dial•v1**</fs>| <fs medium>**Dialekt_ort•v1**</fs>|
 ^ Počet [[pojmy:token|pozic (tokenů)]] |  128 289|  126 131| ^ Počet [[pojmy:token|pozic (tokenů)]] |  128 289|  126 131|
 ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  99 552|  99 581| ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce a dalších značek |  99 552|  99 581|
 ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  19 189|  15 061| ^ Počet [[pojmy:word| slovních tvarů (wordů)]] |  19 189|  15 061|
 ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek]] |  324|| ^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|nahrávek]] |  324||
-^ Počet [[pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|promluv]] |  9 745||+^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] |  9 745||
 ^ Počet mluvčích |  178|| ^ Počet mluvčích |  178||
 ^ Délka nahrávek (hh:mm:ss.ms) |  12:40:24.771|| ^ Délka nahrávek (hh:mm:ss.ms) |  12:40:24.771||
 +^ Datum zveřejnění |  2. 6. 2017||
 </WRAP> </WRAP>
  
Řádek 50: Řádek 64:
 ===== Jak citovat ===== ===== Jak citovat =====
 <WRAP round tip 70%> <WRAP round tip 70%>
 +
 +Goláňová, H. – Waclawičová, M. – Lukeš, D.: //DIALEKT: nářeční korpus, verze 2 z 23. 12. 2021//. Ústav Českého národního korpusu FF UK, Praha 2021. Dostupný z WWW: http://www.korpus.cz\\
 +
 Goláňová, H. – Waclawičová, M. – Komrsková, Z. – Lukeš, D. – Kopřivová, M. – Poukarová, P.: //DIALEKT: nářeční korpus, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz\\ Goláňová, H. – Waclawičová, M. – Komrsková, Z. – Lukeš, D. – Kopřivová, M. – Poukarová, P.: //DIALEKT: nářeční korpus, verze 1 z 2. 6. 2017//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz\\
  
-Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.+Goláňová, H. – Waclawičová, M. (2019): The DIALEKT corpus and its possibilities. //Jazykovedný časopis//, 70(2), 336-344. ISSN 0021-5597.\\ 
 + 
 +Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.\\
  
 Goláňová, H. (2015): A new dialect corpus: DIALEKT. In Katarína Gajdošová - Adriana Žáková (eds.): //Proceedings of the Eight International Conference Slovko 2015 (Natural Language Processing, Corpus Linguistics, Lexicography)//. Lüdenscheid: RAM-Verlag, 36-44. ISBN 978-3-942303-32-3.\\ Goláňová, H. (2015): A new dialect corpus: DIALEKT. In Katarína Gajdošová - Adriana Žáková (eds.): //Proceedings of the Eight International Conference Slovko 2015 (Natural Language Processing, Corpus Linguistics, Lexicography)//. Lüdenscheid: RAM-Verlag, 36-44. ISBN 978-3-942303-32-3.\\
  
-Goláňová, H. – Kopřivová, M. – Lukeš, D. – Štěpán, M. (2015): Kartografické a geografické zpracování dat z mluvených korpusů. In //Korpus – gramatika – axiologie//, 11, 42-54. ISSN: 1804-137X 
 </WRAP> </WRAP>
- 
-Budováním korpusu a koordinací projektu se zabývala //Hana Goláňová//, přípravou korpusu a kontrolou transkripce //Martina Waclawičová//, transkripcí na ortografické úrovni //Zuzana Komrsková//, technickou tvorbou korpusu //David Lukeš// a lemmatizaci a morfologické značkování připravili //Zuzana Komrsková//, //Marie Kopřivová//, //David Lukeš// a //Petra Poukarová//. 
  
 ===== Související odkazy ===== ===== Související odkazy =====