ACQUISITION CORPORA OF CZECH

Acquisition corpora record the use of a particular language by speakers who have not (yet) acquired it at the level of an adult native speaker. Acquisition corpora have a wide range of applications in basic research on language acquisition as well as in teaching or therapy.

The corpora associated with the AKCES network capture the production of speakers of Czech as their first, second or foreign language. The network may be expanded in the future to include corpora oriented towards Czech as a heritage language. The specific context of acquisition can be very diverse. More detailed information is available below for each corpus.

An alphabetically ordered list of the corpora can be found below.


CzeSL-SGT

transcripts

second/foreign language

school children and adults

multilingual

The corpus is an upgraded version of the previous corpus CzeSL-plain (ciz) – it is larger and includes automatic morphological and error annotation. In the CzeSL-man version, a smaller part of the data is manually annotated.

Cite the database CzeSL-SGT

Šebesta, K., Bedřichová, Z., Šormová, K., Štindlová, B., Hrdlička, M., Hrdličková, T., Hana, J., Petkevič, V., Jelínek, T., Škodová, S., Poláčková, M., Janeš, P., Lundáková, K., Skoumalová, H., Sládek, Š., Pierscieniak, P., Toufarová, D., Richter, M., Straka, M., Rosen, A.: CzeSL-SGT: korpus češtiny nerodilých mluvčích s automaticky provedenou anotací, verze 2 z 28. 7. 2014. Ústav Českého národního korpusu FF UK, Praha 2014. Available from: http://www.korpus.cz

Find out more about CzeSL-SGT

Cite the database CzeSL-man

Bedřichová, Z. – Hana, J. – Hrdlička, M. – Hrdličková, T. – Janeš, P. – Jelínek, T. – Lundáková, K. – Petkevič, V. – Pierscieniak, P. – Poláčková, M. – Rosen, A. – Skoumalová, H. – Sládek, Š. – Šebesta, K. – Škodová, S. – Šormová, K. – Štindlová, B. – Toufarová, D. : CzeSL-man: korpus češtiny nerodilých mluvčích s ruční chybovou anotací podle zjednodušeného chybového schématu, verze v1 searchable z 18. 11. 2020. Ústav Českého národního korpusu FF UK, Praha 2020. Available from: http://www.korpus.cz

Find out more about CzeSL-man

CHROMA

records and transcripts

first language

small children

monolingual

Cite the database

Chromá, A., Sláma, J., Matiasovitsová, K., & Treichelová, J. (2023).Chromá Czech Corpus. CHILDES [www.childes.talkbank.org]. Available from: https://doi.org/10.21415/3ZNE-HX03

Cite the article

Chromá, A., Sláma, J., Matiasovitsová, K., & Treichelová, J. (2024). A morphologically annotated longitudinal corpus of spoken Czech child-adult interactions. Language Resources and Evaluation. Available from: https://doi.org/10.1007/s10579-023-09710-y

Find out more

CHROMAT

records and transcripts

first language

small children

monolingual

The corpus is in the process of being created. Probable publication in 2025.

Find out more

LABELS2018

records and transcripts

first language

small children

monolingual

Cite the article

Matiasovitsová, K., Čechová, P., Sláma, J., Homolková, K., & Smolík, F. (2024). Mean length of utterance in Czech toddlers: Validity estimates and comparison of words, morphemes, and syllables. Journal of Speech, Language, and Hearing Research, 67(3), 837-852.

Find out more

ROMi spoken

records and transcripts

first language

second/foreign language

school children

monolingual

multilingual

Cite the database

Šebesta, K., Bedřichová, Z., Šormová, K., Straňák, P., & Peterek, N. (2014). ROMi 1.0. LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Available from: http://hdl.handle.net/11234/1-160.

Find out more

ROMi written

texts

first language

second/foreign language

school children

monolingual

multilingual

The corpus is available only in the restricted search in the ČNK KonText search engine. See instructions.

Cite the database

Šebesta, K, Bedřichová, Z., Hana, J., Hlaváčková, E., Hnátková, M., Hrdlička, M., Janeš, P., Jelínek, T., Křen, M., Lábus, V., Lundáková, K., Petkevič, V., Pierscieniak, P., Procházka, P., Rosen, A., Skoumalová, H., Škodová, S., Šormová, K. & Štindlová, B. CZESL-PLAIN: akviziční korpus psané češtiny, zvl. přepisů písemných projevů nerodilých mluvčích, verze 2 z 22. 1. 2014. Ústav Českého národního korpusu FF UK, Praha 2012. Available from: http://www.korpus.cz.

Find out more

SCHOLA2010

records and transcripts

first language

second/foreign language

school children

monolingual

multilingual

Cite the database

Šebesta, K., Goláňová, H., Křen, M., Procházka, P.: SCHOLA2010: korpus mluvené češtiny ve škole – přepisy nahrávek vyučovacích hodin na českých základních a středních školách. Ústav Českého národního korpusu FF UK, Praha 2010. Available from: http://www.korpus.cz

Find out more

SKRIPT2012

texts

first language

second/foreign language

school children

monolingual

multilingual

Cite the database

Šebesta, K., Goláňová, H., Jelínek, T., Jelínková, B., Křen, M., Letafková, J., Procházka, P. & Skoumalová, H. SKRIPT2012: akviziční korpus psané češtiny – přepisy písemných prací žáků základních a středních škol v ČR. Ústav Českého národního korpusu FF UK, Praha 2013. Available from: http://www.korpus.cz

Find out more