Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:jazyky-v-migraci [2023/02/20 14:09] – lukes | cnk:jazyky-v-migraci [2023/07/10 15:24] (aktuální) – [Značkování] lukes |
---|
===== Popis korpusu ===== | ===== Popis korpusu ===== |
| |
Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v České republice a v Německu. Ta část rozhovoru, která je vztažena k České republice, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině. | Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v Československu, respektive v jeho českojazyčné části, a ve Spolkové republice Německo. Ta část rozhovoru, která je vztažena k Československu, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině. |
| |
| |**počet mluvčích**|**délka nahrávek v češtině**|**délka nahrávek v němčině**| | ^ ^**počet mluvčích**^**délka nahrávek v češtině**^**délka nahrávek v němčině**^ |
|**pozdní vysídlenci**|10 |06:10:43 |06:35:28 | | |**pozdní vysídlenci**|10 |06:10:43 |06:35:28 | |
|**migranti** |10 |07:52:15 |06:53:28 | | |**migranti** |10 |07:52:15 |06:53:28 | |
^ ^**čeština**^ ^**němčina**^ ^ | ^ ^**čeština**^ ^**němčina**^ ^ |
|**počet slov** |**celkem** |**mluvčí**|**celkem** |**mluvčí**| | |**počet slov** |**celkem** |**mluvčí**|**celkem** |**mluvčí**| |
|**pozdní vysídlenci**|77 272 |61 977 |65 215 |56 137 | | |**pozdní vysídlenci**|81 006 |61 977 |66 159 |56 137 | |
|**migranti** |78 364 |70 752 |65 652 |61 503 | | |**migranti** |80 345 |70 752 |66 322 |61 503 | |
|**celkem** |166 625 |140 858 |134 396 |121 015 | | |**celkem** |161 351 |132 729 |132 481 |117 640 | |
| |
====== Vznik korpusu ====== | Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]]. |
| |
| ===== Vznik korpusu ===== |
| |
Korpus vznikl v rámci česko-německé části projektu //Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech// financovaného v programu BEETHOVEN 2 německou Vědeckou společností (//Deutsche Forschungsgemeinschaft//, DFG – číslo projektu HA 2659/9-1) a polským Národním centrem vědy (//Narodowe Centrum Nauki//, NCN – číslo projektu 2016/23/G/HS2/04369). | Korpus vznikl v rámci česko-německé části projektu //Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech// financovaného v programu BEETHOVEN 2 německou Vědeckou společností (//Deutsche Forschungsgemeinschaft//, DFG – číslo projektu HA 2659/9-1) a polským Národním centrem vědy (//Narodowe Centrum Nauki//, NCN – číslo projektu 2016/23/G/HS2/04369). |
===== Mluvčí ===== | ===== Mluvčí ===== |
| |
Korpus se skládá z rozhovorů s dvaceti osobami narozenými kolem roku 1955, které v letech 1964 až 1986 – po dosažení tzv. kritického věku, tedy (v průměru 12 let) – emigrovaly z Československa do Spolkové republiky Německo. Tyto osoby se dělí na dvě skupiny. První skupinou jsou tzv. pozdní vysídlenci, tj. příslušníci německé menšiny, kteří po druhé světové válce nebyli násilně vysídleni, ale zemi opustili se svými rodinami nebo z vlastního rozhodnutí až v 60. letech 20. století. Druhou skupinou jsou tzv. migranti, tj. osoby bez německého původu, které emigrovaly z politických nebo ekonomických důvodů po potlačení Pražského jara. | Korpus se skládá z rozhovorů s dvaceti osobami narozenými kolem roku 1955, které v letech 1964 až 1986 – tedy po dosažení tzv. kritického věku (v průměru 12 let) – emigrovaly z Československa do Spolkové republiky Německo. Tyto osoby se dělí na dvě skupiny. První skupinou jsou tzv. pozdní vysídlenci, tj. příslušníci německé menšiny, kteří po druhé světové válce nebyli násilně vysídleni, ale zemi opustili se svými rodinami nebo z vlastního rozhodnutí až v 60. letech 20. století. Druhou skupinou jsou tzv. migranti, tj. osoby bez německého původu, které emigrovaly z politických nebo ekonomických důvodů po potlačení Pražského jara. |
| |
===== Sociolingvistické údaje ===== | ===== Sociolingvistické údaje ===== |
===== Transkripce ===== | ===== Transkripce ===== |
| |
Transkripce zachovává většinu transkripčních zásad platných pro mluvené korpusy v ČNK, a to včetně speciálních symbolů (např. @ pro hezitační zvuky). V němčině bylo navíc v souladu s ortografickou normou zachováno psaní substantiv s velkým počátečním písmenem (např. //in der **S**chule//). | Transkripce zachovává většinu [[cnk:ortofon:pravidla|transkripčních zásad platných pro mluvené korpusy v ČNK]], a to včetně speciálních symbolů (např. @ pro hezitační zvuky). V němčině bylo navíc v souladu s ortografickou normou zachováno psaní substantiv s velkým počátečním písmenem (např. //in der **S**chule//). |
| |
Nahrávky byly segmentovány na jednotky obsahující slovesný tvar určitý, včetně například pauz a hezitace: //wir hatten vier Semester @ .. Matfyz gehabt//. | Nahrávky byly segmentovány na jednotky obsahující slovesný tvar určitý, včetně například pauz a hezitace: //wir hatten vier Semester @ .. Matfyz gehabt//. |
| |
Metatextové informace jsou zaznamenány v jazyce dokumentu, tzn. například jako //Störgeräusche// v německojazyčné a jako //rušivé zvuky// v českojazyčné části korpusu. U záznamu smíchu na rozdíl od jiných mluvených korpusů v ČNK vědomě rozlišujeme mezi údaji //mluvčí se směje// / //der/die Interviewte lacht//, //výzkumnice se směje// / //die Interviewerin lacht// a //všichni se smějí// / //alle lachen//. Tyto a další záznamy lze cíleně vyhledávat jak souhrnně (například zadáním jednoduchého dotazu (Störgeräusche), tak v jednotlivých jazycích (například zadáním pokročilého dotazu [lemma_cs="\(rušivé zvuky\)"] a omezením hledání na jazyk cs). | Metatextové informace jsou na základní vrstvě přepisu ([[pojmy:atributy_pozicni|poziční atribut]] ''word'') zaznamenány v jazyce dokumentu, tzn. například jako //Störgeräusche// v německojazyčné a jako //rušivé zvuky// v českojazyčné části korpusu, zatímco lemmatizace těchto informací je uvedena v obou jazycích zároveň: německy v atributu ''lemma_de'', česky v atributu ''lemma_cs'' (více k lemmatizaci viz oddíl [[#znackovani|Značkování]]). U záznamu smíchu na rozdíl od jiných mluvených korpusů v ČNK vědomě rozlišujeme mezi údaji //mluvčí se směje// / //der/die Interviewte lacht//, //výzkumnice se směje// / //die Interviewerin lacht// a //všichni se smějí// / //alle lachen//. |
| |
| Tyto a další záznamy lze cíleně vyhledávat jak souhrnně (například zadáním pokročilého dotazu ''[lemma_de=%%"\(Störgeräusche\)"%%]'' či ''[lemma_cs=%%"\(rušivé zvuky\)"%%]'', protože lemmata těchto položek jsou napříč korpusem stejná bez ohledu na hlavní jazyk daného dokumentu), tak v jednotlivých jazycích (například zadáním pokročilého dotazu ''[word=%%"\(rušivé zvuky\)"%%]''). Celou paletu použitých anotací lze dohledat pomocí dotazu ''[word=%%"\(.*\)"%%]''. |
| |
| Při práci s těmito anotacemi mějte prosím na paměti, že režim jednoduchého dotazu neumožňuje vyhledat [[pojmy:token|tokeny]], které obsahují mezery. Zadáte-li tedy jednoduchý dotaz ''(Störgeräusche)'', najdou se všechny výskyty, německé i české, protože jednoduchý dotaz implicitně prohledává atributy ''word'', ''lemma_cs'' a ''lemma_de'' zároveň. Ovšem jednoduchý dotaz ''(rušivé zvuky)'' nenalezne nic, neboť v této podobě hledá sekvenci dvou tokenů //(rušivé// a //zvuky)//, ne jeden token //(rušivé zvuky)//. |
| |
===== Značkování ===== | ===== Značkování ===== |
| |
Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá stejný typ morfologických značek jako současné mluvené korpusy (viz https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv). V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (lemma_CS), nebo německojazyčnou část (lemma_DE). Značky pro shodné kategorie se z tohoto důvodu od sebe liší podle užité sady. | Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá [[cnk:lemtag_mluv|stejný typ morfologických značek jako současné mluvené korpusy]]. V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady. |
| |
V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe: | V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe (pomocí hodnot [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|strukturního atributu]] ''sp.langgener_category''): |
| |
^Pattern replication / replika abstraktního vzoru^PAT^ | |Pattern replication / replika abstraktního vzoru|PAT| |
|Matter replication / materiální výpůjčka |MAT| | |Matter replication / materiální výpůjčka |MAT| |
|Andere Abweichung / jiná odchylka |AA | | |Andere Abweichung / jiná odchylka |AA | |
|Self-correction / sebeoprava |SC | | |Self-correction / sebeoprava |SC | |
| |
Kromě označení daného jevu je specifikován také syntaktický rámec, v němž je označený jazykový jev situován: | Kromě označení daného jevu je specifikován také syntaktický rámec, v němž je označený jazykový jev situován (pomocí hodnot strukturního atributu ''sp.syntactic_phrase''): |
| |
|nominální fráze |NP | | |nominální fráze |NP | |
|věta |S | | |věta |S | |
| |
V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//. | V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze. Zaklikáme-li v rozbalovacím menu //Omezit hledání// u atributů ''sp.langgener_category'' a ''sp.syntactic_phrase'' všechny položky, které obsahují hodnoty CS a PP, najdeme např. následující výskyt: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//. |
| |
===== Tipy k vyhledávání v korpusu ===== | ===== Tipy k vyhledávání v korpusu ===== |
| |
Vzhledem k užitému typu segmentace (viz sekci Transkripce) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP: | Vzhledem k užitému typu segmentace (viz oddíl [[cnk:jazyky-v-migraci#transkripce|Transkripce]]) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP: |
| |
<sp langgener_category="AA\??" & langgener_category="VP"/> | ''<sp langgener_category=%%"AA"%% & syntactic_phrase=%%"VP"%%/>'' |
| |
Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít výraz //containing//. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//: | Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor ''containing''. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//: |
| |
<sp langgener_category="AA\??"/> containing [word="a"] | ''<sp langgener_category=%%"AA"%%/> containing [word=%%"a"%%]'' |
| |
===== ===== | Každý segment může takových jevů obsahovat více, pak jsou jejich hodnoty oddělené svistlítkem. Například pokud budou jevy v rámci segmentu dva, ''sp.langgener_category'' může obsahovat ''AA|CS'' a ''sp.syntactic_phrase'' třeba ''VP|NP''. Jedná se o tzv. multihodnoty a ty se při vyhledávání chovají následovně: |
| |
===== Depozitář ===== | * Pokud dotaz na atribut neobsahuje oddělovací znak (v tomto případě svislítko), tak dohledá všechny výskyty, kde alespoň jedna z dílčích hodnot odpovídá dotazu. Jinými slovy, první výše uvedený dotaz dohledá i segmenty, kde ''sp.langgener_category'' je ''AA|CS'' (i když dotaz uvádí jen ''AA'') a ''sp.syntactic_phrase'' je ''VP|NP'' (i když dotaz uvádí jen ''VP''). |
| * Pokud dotaz na atribut svislítko obsahuje, tak dohledá pouze výskyty, které se přesně shodují s uvedenými hodnotami v daném pořadí. Například dotaz ''<sp langgener_category=%%"AA\|CS"%%/>'' dohledá jen segmenty, kde ''sp.langgener_category'' je přímo a doslova ''AA|CS'' (povšimněte si, že svislítko je v dotazu zapsané jako ''\|'', protože [[kurz:regularni_vyrazy#dalsi_specialni_symboly|svislítko samo o sobě má v regulárních výrazech speciální význam]]). Segmenty, kde má tento atribut hodnotu např. ''AA'', ''CS'', ''CS|AA'' nebo ''AA|CS|AA'', ve výsledcích nebudou. |
| ===== Dostupnost dat přes repozitář LINDAT ===== |
| |
Registrovaní uživatelé mohou v rámci svého výzkumu pracovat také s kompletními transkripty. Ty jsou dostupné na platformě Lindat pro názvem //Languages in Migration//, viz https://lindat.mff.cuni.cz/. | Registrovaní uživatelé mohou v rámci svého výzkumu pracovat také s kompletními transkripty. Ty jsou dostupné na platformě Lindat pod názvem //Languages in Migration//, viz https://lindat.mff.cuni.cz/. |
| |
| ===== Poděkování ===== |
| |
| Autorky a autoři korpusu děkují těm, kteří se v různých fázích jeho vzniku podíleli na jeho koncepci, tvorbě a kontrole (v abecedním pořadí): Carolin Centner, Björn Hansen, Marie Kopřivová, Iga Kościołek, Iveta Patáková, Korbinian Slavik, Maria Svojanovská a Vladimír Svojanovský. |
| |
===== Literatura vzniklá na základě korpusu ===== | ===== Literatura vzniklá na základě korpusu ===== |
| |
</WRAP> | </WRAP> |
| |
===== Poděkování ===== | |
| |
Autorky a autoři korpusu děkují těm, kteří se v různých fázích jeho vzniku podíleli na jeho koncepci, tvorbě a kontrole (v abecedním pořadí): Carolin Centner, Björn Hansen, Marie Kopřivová, Iga Kościołek, Iveta Patáková, Korbinian Slavik, Maria Svojanovská a Vladimír Svojanovský. | |
| |