AKCES

Akviziční korpusy českého jazyka

Aktuality

05/12/2014

Korpus ROMi 1.0, obsahující jazyková data z mluvené produkce romských dětí a mládeže, byl zveřejněn pro on-line prohledávání na serveru LINDAT. Materiál byl získán v rámci budování korpusu CzeSL, jeho přepis byl proveden s podporou projektu LINDAT.

30/05/2014

Korpus CzeSL-SGT (Czech as a Second Language with Spelling, Grammar and Tags) obsahuje přepisy písemných prací nerodilých mluvčích češtiny. Navazuje tak na část "ciz" korpusu CzeSL-plain: obsahuje její jazyková data, obsahuje však navíc další texty sebrané v roce 2013. Slovní tvary jsou označeny slovním druhem, morfologickými kategoriemi a základním tvarem (lemmatem). Některé tvary jsou opraveny a výsledná podoba textu znovu slovnědruhově a morfologicky označena. Na základě porovnání původní a opravené podoby tvarů je stanoven druh chyby. Všechny tyto údaje jsou určeny automaticky. Většina textů je opatřena údaji (metadaty) o autorovi a typu textu. Korpus lze prohledávat on-line přes vyhledávací rozhraní Českého národního korpusu nebo ho lze získat celý jako data ze serveru LINDAT...

01/05/2012

V roce 2012 byl veřejnosti zpřístupněn v rámci Českého národního korpusu CZESL-PLAIN, první korpus zpřístupňující mj. češtinu jako cizí jazyk (psané projevy nerodilých mluvčích v celkovém rozsahu více než 1 milion pozic).