Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:jazyky-v-migraci [2023/02/26 10:26] – [Tipy k vyhledávání v korpusu] lukes | cnk:jazyky-v-migraci [2023/07/10 15:24] (aktuální) – [Značkování] lukes |
---|
===== Popis korpusu ===== | ===== Popis korpusu ===== |
| |
Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v České republice a v Německu. Ta část rozhovoru, která je vztažena k České republice, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině. | Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v Československu, respektive v jeho českojazyčné části, a ve Spolkové republice Německo. Ta část rozhovoru, která je vztažena k Československu, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině. |
| |
| |**počet mluvčích**|**délka nahrávek v češtině**|**délka nahrávek v němčině**| | ^ ^**počet mluvčích**^**délka nahrávek v češtině**^**délka nahrávek v němčině**^ |
|**pozdní vysídlenci**|10 |06:10:43 |06:35:28 | | |**pozdní vysídlenci**|10 |06:10:43 |06:35:28 | |
|**migranti** |10 |07:52:15 |06:53:28 | | |**migranti** |10 |07:52:15 |06:53:28 | |
^ ^**čeština**^ ^**němčina**^ ^ | ^ ^**čeština**^ ^**němčina**^ ^ |
|**počet slov** |**celkem** |**mluvčí**|**celkem** |**mluvčí**| | |**počet slov** |**celkem** |**mluvčí**|**celkem** |**mluvčí**| |
|**pozdní vysídlenci**|77 272 |61 977 |65 215 |56 137 | | |**pozdní vysídlenci**|81 006 |61 977 |66 159 |56 137 | |
|**migranti** |78 364 |70 752 |65 652 |61 503 | | |**migranti** |80 345 |70 752 |66 322 |61 503 | |
|**celkem** |166 625 |140 858 |134 396 |121 015 | | |**celkem** |161 351 |132 729 |132 481 |117 640 | |
| |
Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]]. | Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]]. |
===== Značkování ===== | ===== Značkování ===== |
| |
Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá stejný typ morfologických značek jako současné mluvené korpusy (viz https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv). V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady. | Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá [[cnk:lemtag_mluv|stejný typ morfologických značek jako současné mluvené korpusy]]. V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady. |
| |
V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe (pomocí hodnot [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|strukturního atributu]] ''sp.langgener_category''): | V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe (pomocí hodnot [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|strukturního atributu]] ''sp.langgener_category''): |
|věta |S | | |věta |S | |
| |
V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//. | V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze. Zaklikáme-li v rozbalovacím menu //Omezit hledání// u atributů ''sp.langgener_category'' a ''sp.syntactic_phrase'' všechny položky, které obsahují hodnoty CS a PP, najdeme např. následující výskyt: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//. |
| |
===== Tipy k vyhledávání v korpusu ===== | ===== Tipy k vyhledávání v korpusu ===== |
Vzhledem k užitému typu segmentace (viz oddíl [[cnk:jazyky-v-migraci#transkripce|Transkripce]]) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP: | Vzhledem k užitému typu segmentace (viz oddíl [[cnk:jazyky-v-migraci#transkripce|Transkripce]]) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP: |
| |
''<sp langgener_category=%%"AA\??"%% & syntactic_phrase=%%"VP"%%/>'' | ''<sp langgener_category=%%"AA"%% & syntactic_phrase=%%"VP"%%/>'' |
| |
Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor ''containing''. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//: | Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor ''containing''. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//: |
| |
''<sp langgener_category=%%"AA\??"%%/> containing [word=%%"a"%%]'' | ''<sp langgener_category=%%"AA"%%/> containing [word=%%"a"%%]'' |
| |
| Každý segment může takových jevů obsahovat více, pak jsou jejich hodnoty oddělené svistlítkem. Například pokud budou jevy v rámci segmentu dva, ''sp.langgener_category'' může obsahovat ''AA|CS'' a ''sp.syntactic_phrase'' třeba ''VP|NP''. Jedná se o tzv. multihodnoty a ty se při vyhledávání chovají následovně: |
| |
| * Pokud dotaz na atribut neobsahuje oddělovací znak (v tomto případě svislítko), tak dohledá všechny výskyty, kde alespoň jedna z dílčích hodnot odpovídá dotazu. Jinými slovy, první výše uvedený dotaz dohledá i segmenty, kde ''sp.langgener_category'' je ''AA|CS'' (i když dotaz uvádí jen ''AA'') a ''sp.syntactic_phrase'' je ''VP|NP'' (i když dotaz uvádí jen ''VP''). |
| * Pokud dotaz na atribut svislítko obsahuje, tak dohledá pouze výskyty, které se přesně shodují s uvedenými hodnotami v daném pořadí. Například dotaz ''<sp langgener_category=%%"AA\|CS"%%/>'' dohledá jen segmenty, kde ''sp.langgener_category'' je přímo a doslova ''AA|CS'' (povšimněte si, že svislítko je v dotazu zapsané jako ''\|'', protože [[kurz:regularni_vyrazy#dalsi_specialni_symboly|svislítko samo o sobě má v regulárních výrazech speciální význam]]). Segmenty, kde má tento atribut hodnotu např. ''AA'', ''CS'', ''CS|AA'' nebo ''AA|CS|AA'', ve výsledcích nebudou. |
===== Dostupnost dat přes repozitář LINDAT ===== | ===== Dostupnost dat přes repozitář LINDAT ===== |
| |