Pozvané prednášky
Jazykověda v říši za zrcadlem
doc. RNDr. Karel Oliva, Dr.
Ústav pro jazyk český AV ČR
Je téměř pravidlem, že ve formálních přístupech k modelování přirozeného jazyka je tento jazyk modelován jako podmnožina množiny řetězců T* vytvořené nad nějakou množinou T terminálních symbolů. Úkolem jazykovědy je v těchto případech najít a popsat gramatiku G, která zmíněnou podmnožinu generuje/analyzuje. Tím je vlastně T* faktorizována do dvou tříd: na množinu gramatických a negramatických řetězců (z formálního hlediska, které se jistě ovšem nemusí shodovat s hlediskem mluvčích přirozeného jazyka, jsou řetězce, které neodpovídají gramatice G, pokládány za negramatické). Takovéto vyostřené vidění ovšem vyúsťuje v nerealisticky černobílou představu o negramatičnosti, která kromě přílišné rigidity přináší i další problémy
- z teoretického pohledu nedovoluje vyloučit z (popisu) jazyka věty, které jsou sice “gramaticky správně”, ale pro všechny běžné mluvčí přesto zcela nepřijatelné (např. souvětí s mnohonásobným středovým zapuštěním vět vedlejších, srvn. variaci na známý anglický příklad The cheese the lady the mouse the cat the dog chased caught frightened bought cost 10 £),
- z praktické stránky je tak znemožněno budování skutečně funkčních aplikací (např. spolehlivého korektoru gramatiky, který hlásí chyby pouze u “skutečně negramatických” konstrukcí).
V přednášce se zaměříme na jeden z postupů jak přistoupit k řešení nastíněných problémů. Konkrétně se budeme zabývat možností faktorizovat množinu T* na tři třídy, a to:
- nepochybně gramatické řetězce,
- nepochybně negramatické řetězce,
- řetězce s nejasným statusem co do gramatičnosti.
Na tomto základě se pak podíváme na to, jak je možné „nepochybně negramatické“ řetězce systematicky vyhledávat a popisovat, a na to, co takový popis přinese jazykovědě i jejím informatickým aplikacím.
Přednáška bude prezentována tak, aby pochopení jejích hlavních myšlenek nevyžadovalo žádné předběžné znalosti z oblasti jazykovědy, kromě znalosti jazyka samého. Plné porozumění bude nicméně předpokládat základní znalosti z teorie formálních jazyků (regulární a bezkontextové gramatiky apod.)
Strojový překlad s využitím syntaktických stromů
doc. Ing. Zdeněk Žabokrtský, Ph.D.
Ústav formální a aplikované lingvistiky, Matematicko-fyzikální fakulta, Univerzita Karlova, Praha
Počítačové zpracování přirozeného jazyka je obor spojující informatiku a lingvistiku. Jednou z klasických úloh tohoto oboru je strojový překlad z jednoho přirozeného jazyka do jiného. V přednášce bude představen softwarový systém Treex, který byl vyvinut s cílem usnadnit vývoj aplikací pro automatizované zpracování textů, mj. i strojového překladu. V systému Treex je integrována řada nástrojů pro morfologickou a syntaktickou analýzu textů v několika jazycích. Nejpokročilejší aplikací systému Treex je překladač z angličtiny do češtiny, který bude v přednášce popsán podrobněji.