AKCES

Akviziční korpusy českého jazyka

Korpusy

AKVIZIČNÍ KORPUSY - AKVIZIČNÍ KORPUSY ČESKÉHO JAZYKA

Zveřejněné a aktuálně připravované korpusy

Akviziční korpusy jsou jedním z typů speciálních korpusů. Jde o korpusy zaznamenávající užívání konkrétního jazyka mluvčími, kteří si ho (dosud) neosvojili na úrovni odpovídající úrovni dospělého rodilého mluvčího, a sloužící primárně studiu procesů akvizice jazyka, resp. studiu užívání jazyka mluvčími ve fázi jazykové akvizice a pozdějšího jazykového vývoje nebo ve spojení s ní (např. při vyučování). Sekundárně se jich hojně využívá v pedagogické oblasti – při plánování jazykové výuky, přípravě učebních materiálů, vytváření slovníků, mluvnic, přípravě testů i při vlastní výuce.

Podle zaměření můžeme rozlišovat akviziční korpusy prvního jazyka (L1) a jazyka druhého či cizího, souhrnně cílového (L2); podle povahy sběru akviziční korpusy longitudinální, průřezové, pseudolongitudinální a smíšené.

Podstatným rysem akvizičních korpusů je důsledné zaznamenávání údajů o mluvčím (věk, pohlaví, první jazyk, úroveň ovládání jazyka, způsob jeho osvojování apod.), o vlastním textu (rozsah, žánr, téma) a o podmínkách a způsobu jeho získání (podrobněji in K. Šebesta; S. Škodová, 2012).

Charakteristickým rysem projevů zaznamenaných v akvizičních korpusech jsou odchylky od jazykové normy, tradičně označované jako chyby. Tyto odchylky bývají často předmětem zájmu badatelů a jsou důležité i bezprostředně pro jazykovou výuku. V některých jazykových korpusech jsou tyto odchylky systematicky značkovány (srov. tamtéž).

 

Akviziční korpusy češtiny AKCES je projekt vedený při Ústavu českého jazyka a teorie komunikace FF Univerzity Karlovy v Praze, na němž se ovšem podílí velká řada univerzitních i mimouniverzitních institucí i jednotlivých spolupracovníků, sběrem materiálu, jeho dalším zpracováním apod.

AKCES je plánován jako komplex volně propojených akvizičních korpusů zachycujících psanou i mluvenou češtinu:

  • dětí v předškolním věku,
  • dětí a mládeže ve věku od 5 do cca 24 let,
  • nerodilých mluvčích (cizinců učících se česky),
  • sociokulturně či jinak znevýhodněných skupin (zvláště romských žáků z komunit ohrožených sociálním vyloučením).

Součástí AKCES jsou či budou i korpusy zachycující užívání:

  • češtiny ve vzdělávacím kontextu (korpusy nahrávek vyučovacích hodin a jejich přepisů, zvláště hodin jazykových, korpus češtiny jazykových učebnic),
  • češtiny u osob ohrožených rozpadem jazyka,  
  • cizích jazyků českou mládeží (dovolující studovat vliv češtiny jako jazyka prvního na osvojování jazyka cizího).

Původní získaná data a metadata (pravidla sběru viz NÁSTROJE) jsou uložena v databázi AMES FF UK a nejsou veřejnosti ani badatelům přístupná. Po přepisu a anonymizaci (pravidla přepisu viz NÁSTROJE), která zaručí, že nebude možné identifikovat zúčastněné mluvčí ani instituce, které data poskytly, resp. umožnily přístup k nim, jsou tato data zčásti zveřejňována v rámci systému LINDAT s názvem AKCES 1, AKCES 2 atd.; po dalším zpracování jsou zveřejňována zpravidla v ČNK jako veřejně přístupné korpusy, ev. na jiných veřejně dostupných stránkách (UFAL MFF UK). Některé z korpusů jsou vybavovány chybovou anotací (pravidla chybové anotace viz NÁSTROJE) s využitím programu feat vyvinutým pro tyto potřeby a připravuje se jejich prohledávání speciálně vyvinutým manažerem SeLaQue (viz NÁSTROJE).

Budování AKCES bylo a je umožněno díky finanční podpoře několika projektů, především výzkumného záměru Jazyk jako lidská činnost, jeho produkt a faktor (MSM 0021620825, řešeno v letech 2005–2011), projektu OPVK podporovaného ESF Inovace vzdělávání v oboru čeština jako druhý jazyk (CZ.1.07/2.2.00/07.0119, příjemce TUL, UK a AUČCJ partneři, řešeno v letech 2009–2012) a nyní programu PRVOUK P10 – Lingvistika, modul Osvojování a vývoj jazykové a komunikační kompetence u populace ČR, řešeno od r. 2012).

Hlavní řešitelskou institucí je Ústav českého jazyka a teorie komunikace; spolupracujícími institucemi jsou další katedry a ústavy FF UK, především Ústav bohemistických studií, Ústav teoretické a komputační lingvistiky, Ústav Českého národního korpusu, Ústav translatologie, Jazykové centrum; z dalších univerzitních pracovišť pak zejména Ústav jazykové a odborné přípravy UK, Ústav formální a pikované lingvistiky MFF UK; z jiných vysokých škol Technická univerzita v Liberci a Západočeská univerzita v Plzni; dále velká řada základních a středních škol různých typů a zaměření, občanská sdružení a mnoho individuálních spolupracovníků (viz PODPORA).

DOSUD ZPRACOVANÉ A AKTUÁLNĚ PŘIPRAVOVANÉ KORPUSY AKCES:

Přepisy nahrávek vyučovacích hodin ZŠ a SŠ

  • SCHOLA 2010 - korpus umístěný v ČNK
  • AKCES 2 - úplná sada přepisů nahrávek vyučovacích hodin
  • AKCES 2 ver. 2 - tatáž sada, nezkrácené verze přepisů

Přepisy písemných prací žáků ZŠ a SŠ

  • SKRIPT 2012 - korpus umístěný v ČNK
  • AKCES 1 - úplná sada přepisů písemných prací žáků (zveřejnění se připravuje)

Přepisy písemných projevů v češtině nerodilých mluvčích

  • CZESL-PLAIN – eseje a kvalifikační práce nerodilých mluvčích a žáků z oblastí ohrožených sociálním vyloučením, přístupné přes webové rozhraní
  • AKCES 3 – úplná sada přepisů písemných projevů nerodilých mluvčích, českých rodilých mluvčích a romských žáků, Creative Commons license (Attribution-NonCommercial-NoDerivs 3.0 Unported – CC BY-NC-ND 3.0)
  • CZESL-SGT – eseje nerodilých mluvčích s metadaty a automatickou anotací, přístupné přes webové rozhraní
  • AKCES 5 (CZESL-SGT) – celý korpus CZESL-SGT ke stažení

Přepisy písemných a mluvených projevů žáků z oblastí ohrožených sociálním vyloučením

  • ROMi 2013 - písemné projevy romských žáků se srovnávacími projevy žáků neromských (zveřejnění se připravuje)
  • AKCES 4 – úplná sada přepsaných textů žáků z oblastí ohrožených sociálním vyloučením, Creative Commons license (Attribution-NonCommercial-NoDerivs 3.0 Unported – CC BY-NC-ND 3.0)
  • ROMi-1.0 – mluvené projevy romských dětí a mádeže, připravuje se k zveřejnění
  • CZESL-PLAIN – eseje a kvalifikační práce nerodilých mluvčích a žáků z oblastí ohrožených sociálním vyloučením, přístupné přes webové rozhraní

Přepisy písemných a mluvených projevů nerodilých mluvečích a žáků založené na longitudinálních sběrech

  • CZEFL-LONG - longitudinální korpus písemných a mluvených projevů žáků založený na čtyřletých sběrech projevů týchž žáků; ve fázi přípravy