Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

--- cnk:jazyky-v-migraci [2023/02/26 10:48] – [Tipy k vyhledávání v korpusu] lukes
+++ cnk:jazyky-v-migraci [2023/07/10 15:24] (aktuální) – [Značkování] lukes
@@ Řádek 3: / Řádek 3: @@
 ===== Popis korpusu =====
-Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v České republice a v Německu. Ta část rozhovoru, která je vztažena k České republice, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině.
+Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií v Československu, respektive v jeho českojazyčné části, a ve Spolkové republice Německo. Ta část rozhovoru, která je vztažena k Československu, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině.
-|                     |**počet mluvčích**|**délka nahrávek v češtině**|**délka nahrávek v němčině**|
+^                     ^**počet mluvčích**^**délka nahrávek v češtině**^**délka nahrávek v němčině**^
 |**pozdní vysídlenci**|10                |06:10:43                    |06:35:28                    |
 |**migranti**         |10                |07:52:15                    |06:53:28                    |
@@ Řádek 12: / Řádek 12: @@
 ^                     ^**čeština**^          ^**němčina**^          ^
 |**počet slov**       |**celkem** |**mluvčí**|**celkem** |**mluvčí**|
-|**pozdní vysídlenci**|77 272     |61 977    |65 215     |56 137    |
+|**pozdní vysídlenci**|81 006     |61 977    |66 159     |56 137    |
-|**migranti**         |78 364     |70 752    |65 652     |61 503    |
+|**migranti**         |80 345     |70 752    |66 322     |61 503    |
-|**celkem**           |166 625    |140 858   |134 396    |121 015   |
+|**celkem**           |161 351    |132 729   |132 481    |117 640   |
 Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]].
@@ Řádek 50: / Řádek 50: @@
 ===== Značkování =====
-Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá stejný typ morfologických značek jako současné mluvené korpusy (viz https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv). V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady.
+Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá [[cnk:lemtag_mluv|stejný typ morfologických značek jako současné mluvené korpusy]]. V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady.
 V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe (pomocí hodnot [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|strukturního atributu]] ''sp.langgener_category''):
@@ Řádek 70: / Řádek 70: @@
 |věta             |S   |
-V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//.
+V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze. Zaklikáme-li v rozbalovacím menu //Omezit hledání// u atributů ''sp.langgener_category'' a ''sp.syntactic_phrase'' všechny položky, které obsahují hodnoty CS a PP, najdeme např. následující výskyt: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//.
 ===== Tipy k vyhledávání v korpusu =====

Historie: • konkordance • koditex • index • vaclavcvrcek • net • frekvence • filtr • novy_dotaz • kwords • dialekt

Rozdíly

Hledat

Navigace

Tisk/export

Nástroje

Jazyky

Licence