AplikaceAplikace
Nastavení

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revisionPrevious revision
Next revision
Previous revision
en:cnk:ortofon [2024/06/11 09:28] – [ORTOFON v3 (2024)] martinawaclawicovaen:cnk:ortofon [2024/08/05 10:27] (current) – [ORTOFON v3 (2024)] v3 is not balanced vhorky
Line 9: Line 9:
 <WRAP 45%> <WRAP 45%>
 ^ <fs medium>Name</fs> | <fs medium>[[en:cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> | ^ <fs medium>Name</fs> | <fs medium>[[en:cnk:ortofon|ORTOFON]]•v1</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v2</fs> | <fs medium>[[cnk:ortofon|ORTOFON]]•v3</fs> |
-^ Number of [[en:pojmy:token|positions (tokens)]] |  1 236 508 |  2 560 590 |  XXX +^ Number of [[en:pojmy:token|positions (tokens)]] |  1 236 508 |  2 560 590 |  2 976 742 
-^ Number of [[en:pojmy:token|positions (tokens)]] without puctuation, hesitations and interjections |  1 014 786 |  2 101 214 |  XXX +^ Number of [[en:pojmy:token|positions (tokens)]] without puctuation, hesitations and interjections |  1 014 786 |  2 101 214 |  2 445 793 
-^ Number of [[en:pojmy:word|word forms (words)]] |  65 294 |  101 502 |  XXX |   +^ Number of [[en:pojmy:word|word forms (words)]] |  65 294 |  101 500 |  110 127 |   
-^ Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|conversations recorded]] |  332 |  615 |  XXX +^ Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|conversations recorded]] |  332 |  615 |  697 
-^ Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|utterances]] |  172 736 |  360 248 |  XXX +^ Number of [[en:pojmy:atributy_strukturni#struktura_korpusu_mluvene_cestiny|utterances]] |  172 736 |  360 248 |  419 533 
-^ Number of unique (different) speakers |  624 |  960 |  XXX |   +^ Number of unique (different) speakers |  625 |  1020 |  1 121 |   
-^ Length of recordings [hh:mm:ss.ms] |  102:41:14.247 |  210:09:35.155 |  XXX:XX:XX.XXX |  +^ Length of recordings [hh:mm:ss.ms] |  102:41:14.247 |  210:09:35.155 |  243:00:07.232 |  
 </WRAP> </WRAP>
  
Line 79: Line 79:
 ===== ORTOFON v3 (2024) ===== ===== ORTOFON v3 (2024) =====
  
-The 3rd version of the ORTOFON corpus was published in 2024. It contains 110 127 words and captures 1 121 speakers from all over the Czech Republic in 697 recordings, made between 2012 and 2020, totaling 243 hours. It also includes data from both previous versions of the corpus. The transcription at the orthographic and phonetic level as well as the corresponding audio recording are available in the KonText corpus interface. For this version, a number of inconsistencies in the transcription have been removed and a number of corrections have been made.+The 3rd version of the ORTOFON corpus was published in 2024. It contains 110 127 words and captures 1 121 speakers from all over the Czech Republic in 697 recordings, made between 2012 and 2020, totaling 243 hours. It also includes data from both previous versions of the corpus. Like the second version, this one too is not balanced. The transcription at the orthographic and phonetic level as well as the corresponding audio recording are available in the KonText corpus interface. For this version, a number of inconsistencies in the transcription have been removed and a number of corrections have been made.
  
-The ORTOFON v3 corpus is automatically annotated according to the SYN2020 standard, see [[en:cnk:ortofon#morphological_tagging_of_the_ortofon_corpus|above]] for more details.+The ORTOFON v3 corpus is automatically **annotated according to the SYN2020 standard**, see [[en:cnk:ortofon#morphological_tagging_of_the_ortofon_corpus|above]] for more details.
 ===== Acknowledgments ===== ===== Acknowledgments =====
  
Line 91: Line 91:
  
 <WRAP round tip 70%> <WRAP round tip 70%>
 +Lukeš, D. – Kopřivová, M. – Laubeová, Z. – Poukarová, P. – Horký, V. – Jelínek, T. – Křivan, J. – Waclawičová, M. – Benešová, L. – Škarpová, M.:  //ORTOFON v3: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2024. Retrieved from: http://www.korpus.cz
 +
 Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Retrieved from: http://www.korpus.cz Kopřivová, M. – Laubeová, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v2: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2020. Retrieved from: http://www.korpus.cz
  
 Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz Kopřivová, M. – Komrsková, Z. – Lukeš, D. – Poukarová, P. – Škarpová, M.: //ORTOFON v1: Korpus neformální mluvené češtiny s víceúrovňovým přepisem//. Ústav Českého národního korpusu FF UK, Praha 2017. Retrieved from: http://www.korpus.cz
  
-Komrsková, Z. Kopřivová, M. Lukeš, D. Poukarová, P. Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.+Komrsková, Z. – Kopřivová, M. – Lukeš, D. – Poukarová, P. – Goláňová, H. (2017): New Spoken Corpora of Czech: ORTOFON and DIALEKT. //Jazykovedný časopis//, 68(2), 219-228. ISSN 0021-8897.
  
 Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544. Kopřivová M. – Goláňová H. – Klimešová P. – Komrsková Z. – Lukeš D. (2014): Multi-tier Transcription of Informal Spoken Czech: The ORTOFON Corpus Approach. In //Complex Visibles Out There//. Olomouc: Univerzita Palackého v Olomouci, 529-544.
  
-Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D.(2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.+Kopřivová M. – Goláňová H. – Klimešová P. – Lukeš D. (2014): Mapping Diatopic and Diachronic Variation in Spoken Czech: the ORTOFON and DIALEKT Corpora. In //Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014)//. Reykjavík, Iceland, European Language Resources Association, 376-382.
 </WRAP> </WRAP>