Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verzeNásledující verzeObě strany příští revize |
pojmy:atributy_strukturni [2017/09/26 11:19] – [Strukturní atributy mluvených korpusů] terminologie "promluva" → segment davidlukes | pojmy:atributy_strukturni [2017/09/26 14:26] – [Struktura korpusů psané češtiny] vaclavcvrcek |
---|
| ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | | | ''[word=<nowiki>"</nowiki>život<nowiki>"</nowiki>][word=<nowiki>"</nowiki>\.<nowiki>"</nowiki>]</doc>'' | výskyty sekvence slov //život// a "." na konci (libovolného) dokumentu | |
| ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | | | ''<doc> [lemma=<nowiki>"</nowiki>kdepak<nowiki>"</nowiki>]'' | výskyty lemmatu //kdepak// na začátku (libovolného) dokumentu | |
| ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty ((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | | | ''[word=<nowiki>"</nowiki>jak<nowiki>"</nowiki>][]*[word=<nowiki>"</nowiki>tak<nowiki>"</nowiki>] within <s />'' | výskyty slov //jak// a //tak// v proměnlivé vzdálenosti v rámci jakékoli jedné věty((Vyhodnocení dotazu s touto podmínkou může trvat delší dobu.)) | |
==== Struktura korpusů mluvené češtiny ==== | ==== Struktura korpusů mluvené češtiny ==== |
| |
V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: | V korpusech **[[pojmy:mluveny|mluvené]] češtiny** je vnitřní struktura jiná, strukturní jednotky zde užívané mají proto následující podobu: |
* **doc** - dokument; v případě dialogických mluvených korpusů řady ORAL ([[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]]) se jedná o jednu sondu (ucelený rozhovor) | * **doc** - dokument; v případě dialogických mluvených korpusů se jedná o jednu sondu (ucelený rozhovor) |
* **sp** - mluvčí (//speaker//), resp. jedna jeho promluva | * **sp** - vyšší technická jednotka členění mluveného textu, vázaná na identitu mluvčího a nesoucí jeho metadata |
* **seg** - technické (tj. nijak lingvisticky motivované) členění promluv **sp** na kratší úseky | * **seg** - nižší technická jednotka členění mluveného textu, v rámci jednotek **sp** |
| |
| Struktuře **sp** se tradičně v textech o mluvených korpusech ČNK říká **promluva**, nicméně s [[http://sas.ujc.cas.cz/archiv.php?art=203|lingvistickým konceptem téhož jména]] nemá nic společného: pokyn členit projev na promluvy v tomto smyslu nebyl nikdy součástí pravidel pro přepis. V korpusech [[cnk:oral2006|ORAL2006]] a [[cnk:oral2008|ORAL2008]] lze do velké míry hovořit o tom, že hranice jednotek **sp** odpovídají hranicím **replik**, přičemž replikou zde míníme souvislý projev jednoho mluvčího bez delších pauz. V novějších korpusech je pak korelace hranic jednotek **sp** s jakýmikoli lingvisticky relevantními předěly nesoustavná a nelze na ni spoléhat. |
| |
^ Dotaz ^ Vyhodnocení ^ | ^ Dotaz ^ Vyhodnocení ^ |