Jazyky v migraci

Popis korpusu

Korpus Jazyky v migraci tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v České republice a v Německu. Ta část rozhovoru, která je vztažena k České republice, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině.

	počet mluvčích	délka nahrávek v češtině	délka nahrávek v němčině
pozdní vysídlenci	10	06:10:43	06:35:28
migranti	10	07:52:15	06:53:28
celkem	20	14:02:58	13:28:56

	čeština		němčina
počet slov	celkem	mluvčí	celkem	mluvčí
pozdní vysídlenci	77 272	61 977	65 215	56 137
migranti	78 364	70 752	65 652	61 503
celkem	166 625	140 858	134 396	121 015

Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány na samostatné stránce.

Vznik korpusu

Korpus vznikl v rámci česko-německé části projektu Language across generations: contact induced change in morphosyntax in German-Polish bilingual speech financovaného v programu BEETHOVEN 2 německou Vědeckou společností (Deutsche Forschungsgemeinschaft, DFG – číslo projektu HA 2659/9-1) a polským Národním centrem vědy (Narodowe Centrum Nauki, NCN – číslo projektu 2016/23/G/HS2/04369).

Hlavním cílem projektu bylo integrovat gramatický a sociolingvistický výzkum jazykového kontaktu. Toho bylo dosaženo zkoumáním souvislostí mezi jazykovými biografiemi a morfosyntaxí jazykové produkce dotazovaných bilingvních mluvčích.

Mluvčí

Korpus se skládá z rozhovorů s dvaceti osobami narozenými kolem roku 1955, které v letech 1964 až 1986 – tedy po dosažení tzv. kritického věku (v průměru 12 let) – emigrovaly z Československa do Spolkové republiky Německo. Tyto osoby se dělí na dvě skupiny. První skupinou jsou tzv. pozdní vysídlenci, tj. příslušníci německé menšiny, kteří po druhé světové válce nebyli násilně vysídleni, ale zemi opustili se svými rodinami nebo z vlastního rozhodnutí až v 60. letech 20. století. Druhou skupinou jsou tzv. migranti, tj. osoby bez německého původu, které emigrovaly z politických nebo ekonomických důvodů po potlačení Pražského jara.

Sociolingvistické údaje

Hledání v korpusu lze kromě jazyka omezit na základě sociolingvisticky nebo jinak relevantních údajů v metadatech přepisů jednotlivých záznamů: počtu mluvčích v jednom interview, genderu, roku narození a migrace, regionu původu a současného bydliště, typu lokality (město versus venkov), dosaženého vzdělání a prostředí, ve kterém byla pořízena nahrávka. V korpusu lze vyhledávat také pomocí témat probíraných v daném úseku nahrávky.

Anonymizace

Anonymizována jsou v metadatech i v textu osobní jména aktérů a jejich blízkých i místa jejich narození či pobytu, která by mohla přispět k jejich identifikaci.

Transkripce

Transkripce zachovává většinu transkripčních zásad platných pro mluvené korpusy v ČNK, a to včetně speciálních symbolů (např. @ pro hezitační zvuky). V němčině bylo navíc v souladu s ortografickou normou zachováno psaní substantiv s velkým počátečním písmenem (např. in der Schule).

Nahrávky byly segmentovány na jednotky obsahující slovesný tvar určitý, včetně například pauz a hezitace: wir hatten vier Semester @ .. Matfyz gehabt.

Metatextové informace jsou na základní vrstvě přepisu (poziční atribut word) zaznamenány v jazyce dokumentu, tzn. například jako Störgeräusche v německojazyčné a jako rušivé zvuky v českojazyčné části korpusu. Lemmatizace je v korpusu pro každý jazyk zvlášť (viz oddíl Značkování), takže na této úrovni jsou tyto informace převedeny do jazyka lemmatizace: německy v atributu lemma_de, česky v atributu lemma_cs. U záznamu smíchu na rozdíl od jiných mluvených korpusů v ČNK vědomě rozlišujeme mezi údaji mluvčí se směje / der/die Interviewte lacht, výzkumnice se směje / die Interviewerin lacht a všichni se smějí / alle lachen.

Tyto a další záznamy lze cíleně vyhledávat jak souhrnně (například zadáním pokoročilého dotazu [lemma_de="\(Störgeräusche\)"] či [lemma_cs="\(rušivé zvuky\)"], protože lemmata těchto položek jsou napříč korpusem stejná bez ohledu na hlavní jazyk daného dokumentu), tak v jednotlivých jazycích (například zadáním pokročilého dotazu [word="\(rušivé zvuky\)"]). Celou paletu použitých anotací lze dohledat pomocí dotazu [word="\(.*\)"].

Při práci s těmito anotacemi mějte prosím na paměti, že režim jednoduchého dotazu neumožňuje vyhledat tokeny, které obsahují mezery. Zadáte-li tedy jednoduchý dotaz (Störgeräusche), najdou se všechny výskyty, německé i české, protože jednoduchý dotaz implicitně prohledává atributy word, lemma_cs a lemma_de zároveň. Ovšem jednoduchý dotaz (rušivé zvuky) nenalezne nic, neboť v této podobě hledá sekvenci dvou tokenů (rušivé a zvuky), ne jeden token (rušivé zvuky).

Značkování

Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá stejný typ morfologických značek jako současné mluvené korpusy (viz https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv). V německojazyčné části je využit Stuttgart-Tübingen-Tagset (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (lemma_cs), nebo německojazyčnou část (lemma_de). Značky pro shodné kategorie se z tohoto důvodu od sebe liší podle užité sady.

V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe:

Pattern replication / replika abstraktního vzoru	PAT
Matter replication / materiální výpůjčka	MAT
Andere Abweichung / jiná odchylka	AA
Code-switching / přepínání jazykového kódu	CS
Word order / slovosled	WO
Self-correction / sebeoprava	SC

Kromě označení daného jevu je specifikován také syntaktický rámec, v němž je označený jazykový jev situován:

nominální fráze	NP
předložková fráze	PP
slovesná fráze	VP
adjektivní fráze	AP
adverbiální fráze	AdvP
věta	S

V korpusu je tak přes funkci Omezit hledání možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze: in Juli gabs dann in in Prag in in ve Fučíkárně.

Tipy k vyhledávání v korpusu

Vzhledem k užitému typu segmentace (viz oddíl Transkripce) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP:

<sp langgener_category="AA\??" & langgener_category="VP"/>

Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor containing. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo a:

<sp langgener_category="AA\??"/> containing [word="a"]

Dostupnost dat přes repozitář LINDAT

Registrovaní uživatelé mohou v rámci svého výzkumu pracovat také s kompletními transkripty. Ty jsou dostupné na platformě Lindat pod názvem Languages in Migration, viz https://lindat.mff.cuni.cz/.

Poděkování

Autorky a autoři korpusu děkují těm, kteří se v různých fázích jeho vzniku podíleli na jeho koncepci, tvorbě a kontrole (v abecedním pořadí): Carolin Centner, Björn Hansen, Marie Kopřivová, Iga Kościołek, Iveta Patáková, Korbinian Slavik, Maria Svojanovská a Vladimír Svojanovský.

Literatura vzniklá na základě korpusu

Bučková, Aneta (v přípravě). Syntaktische Musterentlehnungen bei deutsch-tschechischen Bilingualen. Dizertace, Univerzita Řezno.

Bučková, Aneta (2021). Jazykový management a jazykové ideologie česko-německých dvojjazyčných mluvčích. Naše řeč 104(5), s. 374–390. Dostupný z: https://www.ceeol.com/search/journal-detail?id=626, cit. 21.12.2021.

Bučková, Aneta (2022). Syntaktische Musterreplikationen bei deutsch-tschechischen Bilingualen. Ein gebrauchsbasierter Ansatz. Brücken – Zeitschrift für Sprach-, Literatur- und Kulturwissenschaft 28(2), s. 83–109. Dostupný z: https://bruecken.ff.cuni.cz/magazin/2-28-2021/, cit. 16.12.2021.

Bučková, Aneta, Centner, Carolin, Księżyk, Felicja & Irena Prawdzic (2022). Sprachstrukturelle Annotation der LangGener-Korpora: Typologie und Abgrenzungsprobleme. In Hansen, Björn, Zielińska, Anna (eds.). Soziolinguistik trifft Korpuslinguistik: Deutsch-polnische und deutsch-tschechische Zweisprachigkeit. Heidelberg: Winter Universitätsverlag s. 53–90. Dostupný z: https://www.winter-verlag.de/de/person/120559/Anna_Zieliska/

Bučková, Aneta & Marek Nekula (2022). Immigrantinnen und Immigranten aus der Tschechoslowakei in Deutschland: Musterentlehnungen in ihren sprachbiographischen Interviews. In Hansen, Björn, Zielińska, Anna (eds.). Soziolinguistik trifft Korpuslinguistik: Deutsch-polnische und deutsch-tschechische Zweisprachigkeit. Heidelberg: Winter Universitätsverlag, s. 173–189 a 265–266. Dostupný z: https://www.winter-verlag.de/de/person/120559/Anna_Zieliska/

Bučková, Aneta & Irena Prawdzic (2022). Transkriptionskonventionen. In Hansen, Björn, Zielińska, Anna (eds.). Soziolinguistik trifft Korpuslinguistik: Deutsch-polnische und deutsch-tschechische Zweisprachigkeit. Heidelberg: Winter Universitätsverlag s. 105–113. Dostupný z: https://www.winter-verlag.de/de/person/120559/Anna_Zieliska/

Hansen, Björn – Nekula, Marek (2022). Die LangGener-Korpora als Ressourcen der Mehrsprachigkeitsforschung zwischen Sozio- und Korpuslinguistik. In Hansen, Björn, Zielińska, Anna (eds.). Soziolinguistik trifft Korpuslinguistik: Deutsch-polnische und deutsch-tschechische Zweisprachigkeit. Heidelberg: Winter Universitätsverlag, s. 173–189. Dostupný z: https://www.winter-verlag.de/de/person/120559/Anna_Zieliska/

Jak citovat korpus

Bučková, A. – Nekula, M. – Lukeš, D. – Wozniak, M. – Wastl, M. – Polowy, L.: JAZYKY V MIGRACI: Dvojjazyčný jazykověbiografický korpus neformální mluvené češtiny a němčiny / SPRACHEN IN MIGRATION: Bilinguales sprachbiographisches Korpus – gesprochenes, informelles Deutsch und Tschechisch. Ústav Českého národního korpusu FF UK, Praha 2022. Dostupný z WWW: http://www.korpus.cz

Historie: • lemtag_mluv • oral2006 • struktura_ortofon • oral • jazyky-v-migraci