Korpusy

AKVIZIČNÍ KORPUSY - AKVIZIČNÍ KORPUSY ČESKÉHO JAZYKA

Zveřejněné a aktuálně připravované korpusy

Akviziční korpusy jsou jedním z typů speciálních korpusů. Jde o korpusy zaznamenávající užívání konkrétního jazyka mluvčími, kteří si ho (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího, a sloužící primárně studiu procesů akvizice jazyka, resp. studiu užívání jazyka mluvčími ve fázi jazykové akvizice a pozdějšího jazykového vývoje nebo ve spojení s ní (např. při vyučování). Sekundárně se jich hojně využívá v pedagogické oblasti – při plánování jazykové výuky, přípravě učebních materiálů, vytváření slovníků, mluvnic, přípravě testů i při vlastní výuce.

Podle zaměření můžeme rozlišovat akviziční korpusy prvního jazyka (L1) a jazyka druhého či cizího, souhrnně cílového (L2); podle povahy sběru akviziční korpusy longitudinální, průřezové, pseudolongitudinální a smíšené.

Podstatným rysem akvizičních korpusů je důsledné zaznamenávání údajů o mluvčím (věk, pohlaví, první jazyk, úroveň ovládání jazyka, způsob jeho osvojování apod.), o vlastním textu (rozsah, žánr, téma) a o podmínkách a způsobu jeho získání (podrobněji in K. Šebesta; S. Škodová, 2012).

Charakteristickým rysem projevů zaznamenaných v akvizičních korpusech jsou odchylky od jazykové normy, tradičně označované jako chyby. Tyto odchylky bývají často předmětem zájmu badatelů a jsou důležité i bezprostředně pro jazykovou výuku. V některých jazykových korpusech jsou tyto odchylky systematicky značkovány (srov. tamtéž).

Akviziční korpusy češtiny AKCES je projekt vedený při Ústavu českého jazyka a teorie komunikace FF Univerzity Karlovy v Praze, na němž se podílí řada univerzitních i mimouniverzitních institucí i jednotlivých spolupracovníků sběrem materiálu, jeho dalším zpracováním apod.

AKCES je plánován jako komplex volně propojených akvizičních korpusů zachycujících psanou i mluvenou češtinu:

dětí v předškolním věku,
dětí a mládeže ve věku od 5 do cca 24 let,
nerodilých mluvčích češtiny (cizinců učících se česky),
sociokulturně či jinak znevýhodněných skupin (zvláště romských žáků z komunit ohrožených sociálním vyloučením).

Součástí AKCES jsou či budou i korpusy zachycující užívání:

češtiny ve vzdělávacím kontextu (korpusy nahrávek vyučovacích hodin a jejich přepisů, zvláště hodin jazykových, korpus češtiny jazykových učebnic),
češtiny u osob ohrožených rozpadem jazyka,
cizích jazyků českou mládeží (dovolující studovat vliv češtiny jako jazyka prvního na osvojování jazyka cílového).

Původní získaná data a metadata (pravidla sběru viz NÁSTROJE) jsou uložena v databázi AMES FF UK a nejsou veřejnosti ani badatelům přístupná. Po přepisu a anonymizaci (pravidla přepisu viz NÁSTROJE), která zaručí, že nebude možné identifikovat zúčastněné mluvčí ani instituce, které data poskytly, resp. umožnily přístup k nim, jsou tato data zčásti zveřejňována v rámci systému LINDAT s názvem AKCES 1, AKCES 2 atd.; po dalším zpracování jsou zveřejňována zpravidla v ČNK jako veřejně přístupné korpusy, ev. na jiných veřejně dostupných stránkách (UFAL MFF UK). Některé z korpusů jsou vybavovány chybovou anotací (pravidla chybové anotace viz NÁSTROJE) s využitím programu FEAT vyvinutým pro tyto potřeby a připravuje se jejich prohledávání speciálně vyvinutým manažerem SeLaQue (viz NÁSTROJE).

Budování AKCES bylo a je umožněno díky finanční podpoře několika projektů, především výzkumného záměru Jazyk jako lidská činnost, jeho produkt a faktor (MSM 0021620825, řešeno v letech 2005–2011), projektu OPVK podporovaného ESF Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0119, příjemce TUL, UK a AUČCJ partneři, řešeno v letech 2009–2012) a nyní programu PRVOUK P10 – Lingvistika, modul Osvojování a vývoj jazykové a komunikační kompetence u populace ČR, řešeno od r. 2012).

Hlavní řešitelskou institucí je Ústav českého jazyka a teorie komunikace; spolupracujícími institucemi jsou další katedry a ústavy FF UK, především Ústav bohemistických studií, Ústav teoretické a komputační lingvistiky, Ústav Českého národního korpusu, Ústav translatologie, Jazykové centrum; z dalších univerzitních pracovišť pak zejména Ústav jazykové a odborné přípravy UK, Ústav formální a aplikované lingvistiky MFF UK; z jiných vysokých škol Technická univerzita v Liberci a Západočeská univerzita v Plzni; dále velká řada základních a středních škol různých typů a zaměření, občanská sdružení a mnoho individuálních spolupracovníků (viz PODPORA).

DOSUD ZPRACOVANÉ A AKTUÁLNĚ PŘIPRAVOVANÉ KORPUSY AKCES:

OSVOJOVÁNÍ GRAMATICKÝCH SLOV A TVARŮ V ČEŠTINĚ
Datový soubor zachycující produktivní znalost gramatických slov a tvarů v češtině u dětí od 18 do 48 měsíců. Data byla sesbírána metodou rodičovských dotazníků. „Tento datový soubor byl publikován s finanční podporou grantu poskytovaného GA UK č.203715, s názvem Pořadí osvojování gramatických slov a tvarů u dětí, řešeného na Filozofické fakultě Univerzity Karlovy.“
PŘEPISY NAHRÁVEK VYUČOVACÍCH HODIN ZŠ a SŠ
SCHOLA 2010 - korpus nahrávek vyučovacích hodin umístěný na stránkách Českého národního korpusu, bližší informace zde, k prohledávání on-line přes vyhledávací rozhraní KonText ČNK
AKCES 2 ver. 2 - úplná sada neredukovaných přepisů nahrávek vyučovacích hodin, které byly základem korpusu SCHOLA 2010, umístěnou ke stažení na serveru LINDAT

PŘEPISY PÍSEMNÝCH PRACÍ ŽÁKŮ ZŠ a SŠ
SKRIPT 2012 - korpus přepisů písemných prací žáků základních a středních škol v ČR, umístění k prohledávání on-line přes vyhledávací rozhraní KonText ČNK

PŘEPISY PÍSEMNÝCH A MLUVENÝCH PROJEVŮ ŽÁKŮ Z OBLASTÍ OHROŽENÝCH SOCIÁLNÍM VYLOUČENÍM
ROMi 2014 - korpus písemných projevů romských žáků se srovnávacími projevy žáků neromských (zveřejnění se připravuje)
AKCES 4 - úplná sada přepsaných textů žáků z oblastí ohrožených sociálním vyloučením, materiálově odpovídá části "rom" korpusu CZESL-PLAIN, je umístěn ke stažení na serveru LINDAT, Creative Commons license (Attribution-NonCommercial-NoDerivs 3.0 Unported – CC BY-NC-ND 3.0)
ROMi-1.0 - korpus mluvených projevů romských dětí a mládeže, podrobnější informace zde.

PŘEPISY PÍSEMNÝCH PROJEVŮ NERODILÝCH MLUVČÍCH, RODILÝCH MLUVČÍCH A ŽÁKŮ Z OBLASTÍ OHROŽENÝCH SOCIÁLNÍM VYLOUČENÍM
CZESL-PLAIN - korpus písemných prací nerodilých mluvčích, českých rodilých mluvčích a žáků z oblastí ohrožených sociálním vyloučením, umístěný na stránkách Českého národního korpusu, k prohledávání on-line přes vyhledávací rozhraní KonText ČNK

PŘEPISY PÍSEMNÝCH PROJEVŮ (ESEJŮ) NERODILÝCH MLUVČÍCH
AKCES 3 - úplná sada přepisů písemných prací nerodilých mluvčích a srovnávacích textů rodilých mluvčích češtiny, materiálově odpovídá částem "ciz" a "kval" korpusu CZESL-PLAIN, je umístěn ke stažení na serveru LINDAT, Creative Commons license (Attribution-NonCommercial-NoDerivs 3.0 Unported - CC BY-NC-ND 3.0)
CZESL-SGT - korpus přepisů českých písemných prací (esejů) nerodilých mluvčích s automaticky provedenou anotací; korpus čerpá z části "ciz" korpusu CZESL-PLAIN a doplňuje ji o nová data, doplněna jsou metadata ke všem textům a provedena automatická emendace. Korpus lze prohledávat on-line přes vyhledávací rozhraní KonText ČNK (dostupné na portálu korpus.cz), nebo ho lze získat celý jako data ze serveru LINDAT jako AKCES 5 (viz níže). Další informace: 2014-czesl-sgt-cs.pdf
AKCES 5 (CzeSL-SGT) - úplná sada přepisů českých písemných prací (esejů) nerodilých mluvčích s automaticky provedenou anotací. Materiálově odpovídá korpusu CzeSL-SGT (viz výše); čerpá z části "ciz" korpusu CZESL-PLAIN a doplňuje ji o nová data, doplněna jsou metadata ke všem textům a provedena automatická emendace. Korpus lze stáhnout celý jako data na serveru LINDAT, podrobnější informace zde.

PŘEPISY PÍSEMNÝCH A MLUVENÝCH FORMÁLNÍCH I NEFORMÁLNÍCH PROJEVŮ ŽÁKŮ ZŠ A SŠ, RODILÝCH I NERODILÝCH MLUVČÍCH. DATA A METADATA JSU ZÍSKÁVÁNA LONGITUDINÁLNÍMI (ČTYŘLETÝMI) SBĚRY
CZEFL-LONG - longitudinální korpus písemných a mluvených projevů žáků založený na čtyřletých sběrech projevů týchž žáků; ve fázi budování
CZESL-LONG - longitudinální korpus písemných a mluvených projevů žáků založený na čtyřletých sběrech projevů týchž žáků; ve fázi budování
PŘEPISY NAHRÁVEK DĚTÍ V PŘEDŠKOLNÍM VĚKU Z DOMÁCÍHO PROSTŘEDÍ
EARLYFAMILY 2018 - veřejně přístupný korpus přepisů longitudinálních nahrávek šesti českých monolingvních dětí ve věku od cca 1,5 roku do cca 4 let (podrobná dokumentace v angličtině viz EARLYFAMILY 2018); korpus je zveřejněný ve formátu .ch v mezinárodní databázi CHILDES (viz odkaz) - tento formát je automaticky prohledávatlný pomocí softwaru CHAT (tamtéž) a je snadno konvertovatelný do formátu .txt pro ruční nebo jiné vlastní prohledávání; omezeně příastupná je i většina původních audionahrávek - badatelé mohou požádat o přístup Kateřinu Šormovou nebo Annu Chromou.

Příloha	Velikost
Osvojovani_gramatickych_slov_a_tvaru_v_cestine.xlsx	445.5 KB
Documentation190320.docx	23.44 KB

AKCES

Akviziční korpusy českého jazyka

AKVIZIČNÍ KORPUSY - AKVIZIČNÍ KORPUSY ČESKÉHO JAZYKA

DOSUD ZPRACOVANÉ A AKTUÁLNĚ PŘIPRAVOVANÉ KORPUSY AKCES:

Kontakty

Přihlášení do databáze

AKCES

Akviziční korpusy českého jazyka

Korpusy

AKVIZIČNÍ KORPUSY - AKVIZIČNÍ KORPUSY ČESKÉHO JAZYKA

DOSUD ZPRACOVANÉ A AKTUÁLNĚ PŘIPRAVOVANÉ KORPUSY AKCES:

Kontakty