Syntaktisk fraselenking
Abstract
Denne oppgåva presenterer ein kunnskapsbasert metode for automatisk frasesamanstilling, kor formålet er å annotere ein fleirspråkleg trebank for lingvistiske studium. Dei fleste frasesamanstillingsmetodane nyttar N-gramtabellar som grunnlag for å finne mange-mange-lenkjer; ekte syntaktiske konstituentar eller dependenslenkjer blir kanskje filtrert ut i eit seinare steg. Desse metodane nyttar ikkje den fulle informasjonen tilgjengeleg i ein djup syntaktisk analyse. I tillegg er formålet ofte å byggje eit maskinomsetjingssystem; få metodar rettar seg mot å byggje trebankar for lingvistiske studium. Difor har dei heller ingen prinsippielle grunnar til å ekskludere lenkjer som ikkje er lingvistisk motiverte. Metoden i denne oppgåva, derimot, har som uttrykkeleg formål å annotere ein parallell trebank for lingvistisk forsking. Inndata er parallelle setningar med djupe, syntaktiske analysar i Leksikalsk-Funksjonell Grammatikk. Ein føresetnad er at grammatikkane som gir desse analysane følgjer felles retningslinjer for analyse; i så fall kan me ta strukturell likskap i analysane som evidens for at konstituentar (syntaktiske frasar) eller funksjonelle element (predikat, argument, adjunkt) kan lenkast. Oppgåva formulerer ei mengd prinsipp for funksjons- og konstituentsamanstilling (med annoteringsformålet i minnet), og gir ein implementasjon av prinsippa. Til slutt blir metoden evaluert, både manuelt og automatisk, og samanlikna med metodar som tek N-gramtabellar som datagrunnlag. Resultata tyder på at metoden er lovande, men viser au at det finst konkrete måtar å betre på metoden. This thesis describes a knowledge-based method of automatic phrase alignment, with the aim of annotating a multilingual treebank for linguistic studies. Most current phrase alignment methods are based on extracting many-to-many-links from N-gram tables, perhaps filtering out true constituents or dependency links in a later step. Such methods do not utilise the full information available in a deep syntactic parse. Additionally, the goal is typically to build a machine translation system; very few methods aim at building treebanks for linguistic studies. Consequently, there is in principle no reason to exclude links which are not linguistically motivated. The method described in this thesis, on the other hand, has the explicit goal of annotating a parallel treebank for linguistic research. It takes as input parallel sentences with deep, syntactic analyses in Lexical-Functional Grammar. The grammars giving rise to the analyses are assumed to follow common analysis guidelines; if so, structural similarity in analyses gives us evidence that constituents (syntactic phrases) or functional elements (predicates, arguments, adjuncts) may be linked. A set of principles for function and constituent alignment are formulated (keeping our annotation goal in mind), and an implementation of these principles is given. Finally, the method is evaluated both manually and automatically, and compared with methods based on N-gram tables. The results suggest that the method seems promising, but also show that there are specific possibilities for improvement.