Fra speilmetoden til automatisk ekstrahering av et betydningstagget korpus for WSD-formål

Lyse, Gunn Inger

Lyse, Gunn Inger

Master thesis

Åpne

hovedoppgave_lyse.pdf (921.9Kb)

Permanent lenke

https://hdl.handle.net/1956/1594

Utgivelsesdato

2003

Metadata

Vis full innførsel

Samlinger

Department of Linguistics, Literary and Aestetic Studies [981]

Sammendrag

This thesis adresses the lack of sense-annotated corpora as a background resource for Word Sense Disambiguation (WSD). The most promising approach to WSD is generally considered to be corpus-based, supervised machine learning methods. In this approach, a sense-tagged training corpora provides example instances which illustrate the relation between a given word sense and its typical context. However, supervised learning has proven to be limited as a larger-scale alternative, because sense-tagged corpora need to be manually tagged, which is costly and time-consuming. Consequently, it is desirable to investigate methods to overcome this knowledge acquisition bottleneck. This thesis suggests a method which automatically extracts a finite, sense-tagged corpus.Although the method is only tested on one ambigous lemma within this thesis, the method is in principle expected to be applicable for extracting sense-tagged corpora for all ambigous words within the vocabulary of a given language. The presented method is based on translational correspondences in a parallel corpus, sorted by meaning by a "semantic mirroring" method (Dyvik, 1998/2002). The chief goal of the thesis is to explore the presented method's potential as an alternative to a manual sense-tagging of corpora. The results are first evaluated manually. Then follows a practical evaluation, by applying the automatically sense- tagged corpus as training material for a supervised learning algorithm. The results reveal that the presented approach methodically seems promising, indicating a good potential for further exploration.

Utgangspunktet for denne oppgaven er mangelen på tilgjengelige betydningstaggede korpora som bakenforliggende ressurs for automatisk orddisambiguering (Word Sense Disambiguation; WSD). WSD-tilnærmingen som per i dag regnes som mest lovende, korpusbasert overvåket maskinlæring, har vist seg begrenset i praktisk bruk fordi den forutsetter tilgang på et betydningstagget treningskorpus som eksemplifiserer sammenhengen mellom en ordbetydning og dens typiske kontekst. Betydningstaggingen av slike treningskorpora må i dag utføres manuelt, hvilket er kostbart og tidkrevende arbeid. Det er derfor ønskelig å undersøke metoder for å automatisere dette arbeidet. Denne oppgaven foreslår en metode som ekstraherer et finitt, betydningstagget korpus automatisk. Selv om metoden av tidshensyn kun er testet på ett flertydig norsk lemma innenfor rammene av denne oppgaven, er metoden prinsipielt forventet å kunne ekstrahere betydningstaggede korpus for alle flertydige ord innenfor et språks vokabular. Metoden er basert på oversettelseskorrespondanser i et parallellkorpus, som er sortert etter betydning ved speilmetoden (Dyvik, 1998/2002). Målet er å undersøke den presenterte metodens potensial som alternativ til en manuell betydningstagging av et korpus. Evalueringen foregår først manuelt. Dernest følger en praktisk evaluering, ved å anvende metodens betydningstaggede korpus som treningsmateriale i en overvåket maskinlæringsalgoritme. Resultatene indikerer at oppgavens presenterte tilnærming metodisk sett synes lovende, og at metoden derfor har et stort potensial for videreutvikling.

Utgiver

The University of Bergen