AplikaceAplikace
Nastavení

Rozdíly

Zde můžete vidět rozdíly mezi vybranou verzí a aktuální verzí dané stránky.

Odkaz na výstup diff

Obě strany předchozí revizePředchozí verze
Následující verze
Předchozí verze
cnk:jazyky-v-migraci [2023/02/24 17:34] jankrivancnk:jazyky-v-migraci [2023/07/10 15:24] (aktuální) – [Značkování] lukes
Řádek 3: Řádek 3:
 ===== Popis korpusu ===== ===== Popis korpusu =====
  
-Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií České republice a v Německu. Ta část rozhovoru, která je vztažena k České republice, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině.+Korpus //Jazyky v migraci// tvoří záznam spontánní jazykové produkce mluvčích užívajících neformální mluvenou češtinu a němčinu. Mluvčí, s nimiž byly vedeny rozhovory v letech 2018, 2019 a 2020, se ve svých vyprávěních ohlížejí za svou jazykovou biografií Československu, respektive v jeho českojazyčné části, a ve Spolkové republice Německo. Ta část rozhovoru, která je vztažena k Československu, je z důvodu elicitace morfosyntaktických jevů spojených s jazykovým kontaktem a jazykovou izolací vedena v němčině. Naopak ta část rozhovoru, která je vztažena k Německu, je ze stejných důvodů vedena v češtině.
  
-                    |**počet mluvčích**|**délka nahrávek v češtině**|**délka nahrávek v němčině**|+                    ^**počet mluvčích**^**délka nahrávek v češtině**^**délka nahrávek v němčině**^
 |**pozdní vysídlenci**|10                |06:10:43                    |06:35:28                    | |**pozdní vysídlenci**|10                |06:10:43                    |06:35:28                    |
 |**migranti**         |10                |07:52:15                    |06:53:28                    | |**migranti**         |10                |07:52:15                    |06:53:28                    |
Řádek 12: Řádek 12:
 ^                     ^**čeština**^          ^**němčina**^          ^ ^                     ^**čeština**^          ^**němčina**^          ^
 |**počet slov**       |**celkem** |**mluvčí**|**celkem** |**mluvčí**| |**počet slov**       |**celkem** |**mluvčí**|**celkem** |**mluvčí**|
-|**pozdní vysídlenci**|77 272     |61 977    |65 215     |56 137    | +|**pozdní vysídlenci**|81 006     |61 977    |66 159     |56 137    | 
-|**migranti**         |78 364     |70 752    |65 652     |61 503    | +|**migranti**         |80 345     |70 752    |66 322     |61 503    | 
-|**celkem**           |166 625    |140 858   |134 396    |121 015   |+|**celkem**           |161 351    |132 729   |132 481    |117 640   |
  
 Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]]. Struktury a strukturní atributy korpusu Jazyky v migraci jsou popsány [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|na samostatné stránce]].
Řádek 38: Řádek 38:
 ===== Transkripce ===== ===== Transkripce =====
  
-Transkripce zachovává většinu transkripčních zásad platných pro mluvené korpusy v ČNK, a to včetně speciálních symbolů (např. @ pro hezitační zvuky). V němčině bylo navíc v souladu s ortografickou normou zachováno psaní substantiv s velkým počátečním písmenem (např. //in der **S**chule//).+Transkripce zachovává většinu [[cnk:ortofon:pravidla|transkripčních zásad platných pro mluvené korpusy v ČNK]], a to včetně speciálních symbolů (např. @ pro hezitační zvuky). V němčině bylo navíc v souladu s ortografickou normou zachováno psaní substantiv s velkým počátečním písmenem (např. //in der **S**chule//).
  
 Nahrávky byly segmentovány na jednotky obsahující slovesný tvar určitý, včetně například pauz a hezitace: //wir hatten vier Semester @ .. Matfyz gehabt//. Nahrávky byly segmentovány na jednotky obsahující slovesný tvar určitý, včetně například pauz a hezitace: //wir hatten vier Semester @ .. Matfyz gehabt//.
  
-Metatextové informace jsou na základní vrstvě přepisu ([[pojmy:atributy_pozicni|poziční atribut]] ''word'') zaznamenány v jazyce dokumentu, tzn. například jako //Störgeräusche// v německojazyčné a jako //rušivé zvuky// v českojazyčné části korpusu. Lemmatizace je v korpusu pro každý jazyk zvlášť (viz oddíl [[#znackovani|Značkování]])takže na této úrovni jsou tyto informace převedeny do jazyka lemmatizace: německy v atributu ''lemma_de'', česky v atributu ''lemma_cs''. U záznamu smíchu na rozdíl od jiných mluvených korpusů v ČNK vědomě rozlišujeme mezi údaji //mluvčí se směje// / //der/die Interviewte lacht//, //výzkumnice se směje// / //die Interviewerin lacht// a //všichni se smějí// / //alle lachen//.+Metatextové informace jsou na základní vrstvě přepisu ([[pojmy:atributy_pozicni|poziční atribut]] ''word'') zaznamenány v jazyce dokumentu, tzn. například jako //Störgeräusche// v německojazyčné a jako //rušivé zvuky// v českojazyčné části korpusu, zatímco lemmatizace těchto informací je uvedena v obou jazycích zároveň: německy v atributu ''lemma_de'', česky v atributu ''lemma_cs'' (více k lemmatizaci viz oddíl [[#znackovani|Značkování]]). U záznamu smíchu na rozdíl od jiných mluvených korpusů v ČNK vědomě rozlišujeme mezi údaji //mluvčí se směje// / //der/die Interviewte lacht//, //výzkumnice se směje// / //die Interviewerin lacht// a //všichni se smějí// / //alle lachen//.
  
-Tyto a další záznamy lze cíleně vyhledávat jak souhrnně (například zadáním pokoročilého dotazu ''[lemma_de=%%"\(Störgeräusche\)"%%]'' či ''[lemma_cs=%%"\(rušivé zvuky\)"%%]'', protože lemmata těchto položek jsou napříč korpusem stejná bez ohledu na hlavní jazyk daného dokumentu), tak v jednotlivých jazycích (například zadáním pokročilého dotazu ''[word=%%"\(rušivé zvuky\)"%%]''). Celou paletu použitých anotací lze dohledat pomocí dotazu ''[word=%%"\(.*\)"%%]''.+Tyto a další záznamy lze cíleně vyhledávat jak souhrnně (například zadáním pokročilého dotazu ''[lemma_de=%%"\(Störgeräusche\)"%%]'' či ''[lemma_cs=%%"\(rušivé zvuky\)"%%]'', protože lemmata těchto položek jsou napříč korpusem stejná bez ohledu na hlavní jazyk daného dokumentu), tak v jednotlivých jazycích (například zadáním pokročilého dotazu ''[word=%%"\(rušivé zvuky\)"%%]''). Celou paletu použitých anotací lze dohledat pomocí dotazu ''[word=%%"\(.*\)"%%]''.
  
 Při práci s těmito anotacemi mějte prosím na paměti, že režim jednoduchého dotazu neumožňuje vyhledat [[pojmy:token|tokeny]], které obsahují mezery. Zadáte-li tedy jednoduchý dotaz ''(Störgeräusche)'', najdou se všechny výskyty, německé i české, protože jednoduchý dotaz implicitně prohledává atributy ''word'', ''lemma_cs'' a ''lemma_de'' zároveň. Ovšem jednoduchý dotaz ''(rušivé zvuky)'' nenalezne nic, neboť v této podobě hledá sekvenci dvou tokenů //(rušivé// a //zvuky)//, ne jeden token //(rušivé zvuky)//. Při práci s těmito anotacemi mějte prosím na paměti, že režim jednoduchého dotazu neumožňuje vyhledat [[pojmy:token|tokeny]], které obsahují mezery. Zadáte-li tedy jednoduchý dotaz ''(Störgeräusche)'', najdou se všechny výskyty, německé i české, protože jednoduchý dotaz implicitně prohledává atributy ''word'', ''lemma_cs'' a ''lemma_de'' zároveň. Ovšem jednoduchý dotaz ''(rušivé zvuky)'' nenalezne nic, neboť v této podobě hledá sekvenci dvou tokenů //(rušivé// a //zvuky)//, ne jeden token //(rušivé zvuky)//.
Řádek 50: Řádek 50:
 ===== Značkování ===== ===== Značkování =====
  
-Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá stejný typ morfologických značek jako současné mluvené korpusy (viz https://wiki.korpus.cz/doku.php/cnk:lemtag_mluv). V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**''), nebo německojazyčnou část (''lemma_**de**''). Značky pro shodné kategorie se z tohoto důvodu od sebe liší podle užité sady.+Korpus je lemmatizován a morfologicky označkován. V českojazyčné části používá [[cnk:lemtag_mluv|stejný typ morfologických značek jako současné mluvené korpusy]]. V německojazyčné části je využit //Stuttgart-Tübingen-Tagset// (viz http://www.sfs.uni-tuebingen.de/resources/stts-1999.pdf nebo https://homepage.ruhr-uni-bochum.de/stephen.berman/Korpuslinguistik/Tagsets-STTS.html). Z tohoto důvodu nelze pomocí morfologických značek (tagů) prohledávat celý korpus najednou, ale vždy cíleně českojazyčnou (''lemma_**cs**'', ''tag_**cs**''), nebo německojazyčnou část (''lemma_**de**'', ''tag_**de**''). Značky pro shodné mluvnické kategorie se z tohoto důvodu od sebe liší podle užité sady.
  
-V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe:+V přepisech jsou nadto identifikovány a označeny jazykové fenomény, jež jsou interpretovány jako výsledky jazykového kontaktu a jazykové izolace v oblasti morfosyntaxe (pomocí hodnot [[seznamy:strukturni_atributy_mluvene#strukturni_atributy_korpusu_jazyky_v_migraci|strukturního atributu]] ''sp.langgener_category''):
  
 |Pattern replication / replika abstraktního vzoru|PAT| |Pattern replication / replika abstraktního vzoru|PAT|
Řádek 61: Řádek 61:
 |Self-correction / sebeoprava                    |SC | |Self-correction / sebeoprava                    |SC |
  
-Kromě označení daného jevu je specifikován také syntaktický rámec, v němž je označený jazykový jev situován:+Kromě označení daného jevu je specifikován také syntaktický rámec, v němž je označený jazykový jev situován (pomocí hodnot strukturního atributu ''sp.syntactic_phrase''):
  
 |nominální fráze  |NP  | |nominální fráze  |NP  |
Řádek 70: Řádek 70:
 |věta             |S   | |věta             |S   |
  
-V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//.+V korpusu je tak přes funkci //Omezit hledání// možné cíleně vyhledat například přepínání z češtiny do němčiny na úrovni předložkové fráze. Zaklikáme-li v rozbalovacím menu //Omezit hledání// u atributů ''sp.langgener_category'' a ''sp.syntactic_phrase'' všechny položky, které obsahují hodnoty CS a PP, najdeme např. následující výskyt: //in Juli gabs dann in in Prag in in **ve Fučíkárně**//.
  
 ===== Tipy k vyhledávání v korpusu ===== ===== Tipy k vyhledávání v korpusu =====
Řádek 76: Řádek 76:
 Vzhledem k užitému typu segmentace (viz oddíl [[cnk:jazyky-v-migraci#transkripce|Transkripce]]) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP: Vzhledem k užitému typu segmentace (viz oddíl [[cnk:jazyky-v-migraci#transkripce|Transkripce]]) lze na základě anotačních značek vyhledávat celé syntaktické segmenty. Výsledkem následujícího dotazu je zobrazení segmentů, které obsahují anotaci AA v syntaktickém rámci VP:
  
-''<sp langgener_category=%%"AA\??"%% & langgener_category=%%"VP"%%/>''+''<sp langgener_category=%%"AA"%% & syntactic_phrase=%%"VP"%%/>''
  
 Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor ''containing''. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//: Při vyhledávání konkrétních slov v syntakticky anotovaných segmentech lze použít operátor ''containing''. Tímto způsobem lze například vyhledat segmenty anotované jako AA, které obsahují slovo //a//:
  
-''<sp langgener_category=%%"AA\??"%%/> containing [word=%%"a"%%]''+''<sp langgener_category=%%"AA"%%/> containing [word=%%"a"%%]''
  
 +Každý segment může takových jevů obsahovat více, pak jsou jejich hodnoty oddělené svistlítkem. Například pokud budou jevy v rámci segmentu dva, ''sp.langgener_category'' může obsahovat ''AA|CS'' a ''sp.syntactic_phrase'' třeba ''VP|NP''. Jedná se o tzv. multihodnoty a ty se při vyhledávání chovají následovně:
 +
 +  * Pokud dotaz na atribut neobsahuje oddělovací znak (v tomto případě svislítko), tak dohledá všechny výskyty, kde alespoň jedna z dílčích hodnot odpovídá dotazu. Jinými slovy, první výše uvedený dotaz dohledá i segmenty, kde ''sp.langgener_category'' je ''AA|CS'' (i když dotaz uvádí jen ''AA'') a ''sp.syntactic_phrase'' je ''VP|NP'' (i když dotaz uvádí jen ''VP'').
 +  * Pokud dotaz na atribut svislítko obsahuje, tak dohledá pouze výskyty, které se přesně shodují s uvedenými hodnotami v daném pořadí. Například dotaz ''<sp langgener_category=%%"AA\|CS"%%/>'' dohledá jen segmenty, kde  ''sp.langgener_category'' je přímo a doslova ''AA|CS'' (povšimněte si, že svislítko je v dotazu zapsané jako ''\|'', protože [[kurz:regularni_vyrazy#dalsi_specialni_symboly|svislítko samo o sobě má v regulárních výrazech speciální význam]]). Segmenty, kde má tento atribut hodnotu např. ''AA'', ''CS'', ''CS|AA'' nebo ''AA|CS|AA'', ve výsledcích nebudou.
 ===== Dostupnost dat přes repozitář LINDAT ===== ===== Dostupnost dat přes repozitář LINDAT =====