Obě strany předchozí revizePředchozí verzeNásledující verze | Předchozí verze |
cnk:ortofon [2024/06/11 08:39] – [Korpus neformální mluvené češtiny s víceúrovňovým přepisem: ORTOFON] martinawaclawicova | cnk:ortofon [2024/08/05 10:22] (aktuální) – [ORTOFON v3 (2024)] v3 není vyvážená vhorky |
---|
<WRAP 45%> | <WRAP 45%> |
^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | | ^ <fs medium>Název</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | |
^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | 2 560 590 | 2 976 740 | | ^ Počet [[pojmy:token|pozic (tokenů)]] | 1 236 508 | 2 560 590 | 2 976 742 | |
^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | 2 101 214 | 2 388 972 | | ^ Počet [[pojmy:token|pozic (tokenů)]] bez interpunkce, hezitačních a citoslovečných zvuků a komentářů | 1 014 786 | 2 101 214 | 2 445 793 | |
^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | 101 502 | 110 127 | | ^ Počet [[pojmy:word| slovních tvarů (wordů)]] | 65 294 | 101 500 | 110 127 | |
^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | 615 | 697 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|nahrávek rozhovorů]] | 332 | 615 | 697 | |
^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 172 736 | 360 248 | 419 533 | | ^ Počet [[seznamy:strukturni_atributy_mluvene|promluv]] | 172 736 | 360 248 | 419 533 | |
^ Počet unikátních (různých) mluvčích | 624 | 960 | 1 121 | | ^ Počet unikátních (různých) mluvčích | 625 | 1020 | 1 121 | |
^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | 210:09:35.155 | 243:00:07.23 | | ^ Délka nahrávek [hh:mm:ss.ms] | 102:41:14.247 | 210:09:35.155 | 243:00:07.232 | |
</WRAP> | </WRAP> |
| |
===== ORTOFON v3 (2024) ===== | ===== ORTOFON v3 (2024) ===== |
| |
V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Zahrnuje v sobě data i z obou předchozích verzí. Obsahuje xxx slov a na xxx nahrávkách, pořízených v letech 2012-2020 a čítajících xxx minut, zachycuje xxx mluvčích pocházejících z celé České republiky. | V roce 2024 byla zveřejněna 3. verze korpusu ORTOFON. Obsahuje 110 127 slov a na 697 nahrávkách, pořízených v letech 2012–2020 a čítajících 243 hodin, zachycuje 1 121 mluvčích pocházejících z celé České republiky. Zahrnuje v sobě data i z obou předchozích verzí korpusu. Stejně jako druhá verze není ani tato vyvážená. V korpusovém rozhraní KonText je zpřístupněn přepis na ortografické a fonetické rovině i odpovídající zvukový záznam. Pro tuto verzi byla odstraněna řada nekonzistencí v traskripci a provedeno množství oprav. |
| |
| Korpus ORTOFON v3 je automaticky **anotován podle standardu SYN2020**, více viz [[cnk:ortofon#morfologicke_znackovani_korpusu_ortofon|výš]]. |
| |
===== Poděkování ===== | ===== Poděkování ===== |
| |
<WRAP round tip 70%> | <WRAP round tip 70%> |
| Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.: //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Dostupný z WWW: http://www.korpus.cz |
| |
Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Dostupný z WWW: http://www.korpus.cz |
| |
Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz | Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Dostupný z WWW: http://www.korpus.cz |
| |
Komrsková, Z. - Kopřivová, M. - Lukeš, D. - Poukarová, P. - Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. | Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897. |
| |
Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. | Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. |
| |
Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382. | Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D. (2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382. |
</WRAP> | </WRAP> |
| |