Fra speilmetoden til automatisk ekstrahering av et betydningstagget korpus for WSD-formål

Lyse, Gunn Inger

dc.contributor.author	Lyse, Gunn Inger	eng
dc.date.accessioned	2006-08-08T05:44:30Z
dc.date.available	2006-08-08T05:44:30Z
dc.date.issued	2003	eng
dc.identifier.isbn	82-8088-185-9 (electronic version)
dc.identifier.uri	https://hdl.handle.net/1956/1594
dc.description.abstract	This thesis adresses the lack of sense-annotated corpora as a background resource for Word Sense Disambiguation (WSD). The most promising approach to WSD is generally considered to be corpus-based, supervised machine learning methods. In this approach, a sense-tagged training corpora provides example instances which illustrate the relation between a given word sense and its typical context. However, supervised learning has proven to be limited as a larger-scale alternative, because sense-tagged corpora need to be manually tagged, which is costly and time-consuming. Consequently, it is desirable to investigate methods to overcome this knowledge acquisition bottleneck. This thesis suggests a method which automatically extracts a finite, sense-tagged corpus.Although the method is only tested on one ambigous lemma within this thesis, the method is in principle expected to be applicable for extracting sense-tagged corpora for all ambigous words within the vocabulary of a given language. The presented method is based on translational correspondences in a parallel corpus, sorted by meaning by a "semantic mirroring" method (Dyvik, 1998/2002). The chief goal of the thesis is to explore the presented method's potential as an alternative to a manual sense-tagging of corpora. The results are first evaluated manually. Then follows a practical evaluation, by applying the automatically sense- tagged corpus as training material for a supervised learning algorithm. The results reveal that the presented approach methodically seems promising, indicating a good potential for further exploration.	en_US
dc.description.abstract	Utgangspunktet for denne oppgaven er mangelen på tilgjengelige betydningstaggede korpora som bakenforliggende ressurs for automatisk orddisambiguering (Word Sense Disambiguation; WSD). WSD-tilnærmingen som per i dag regnes som mest lovende, korpusbasert overvåket maskinlæring, har vist seg begrenset i praktisk bruk fordi den forutsetter tilgang på et betydningstagget treningskorpus som eksemplifiserer sammenhengen mellom en ordbetydning og dens typiske kontekst. Betydningstaggingen av slike treningskorpora må i dag utføres manuelt, hvilket er kostbart og tidkrevende arbeid. Det er derfor ønskelig å undersøke metoder for å automatisere dette arbeidet. Denne oppgaven foreslår en metode som ekstraherer et finitt, betydningstagget korpus automatisk. Selv om metoden av tidshensyn kun er testet på ett flertydig norsk lemma innenfor rammene av denne oppgaven, er metoden prinsipielt forventet å kunne ekstrahere betydningstaggede korpus for alle flertydige ord innenfor et språks vokabular. Metoden er basert på oversettelseskorrespondanser i et parallellkorpus, som er sortert etter betydning ved speilmetoden (Dyvik, 1998/2002). Målet er å undersøke den presenterte metodens potensial som alternativ til en manuell betydningstagging av et korpus. Evalueringen foregår først manuelt. Dernest følger en praktisk evaluering, ved å anvende metodens betydningstaggede korpus som treningsmateriale i en overvåket maskinlæringsalgoritme. Resultatene indikerer at oppgavens presenterte tilnærming metodisk sett synes lovende, og at metoden derfor har et stort potensial for videreutvikling.	no_NO
dc.language.iso	nob	eng
dc.publisher	The University of Bergen	eng
dc.title	Fra speilmetoden til automatisk ekstrahering av et betydningstagget korpus for WSD-formål	nob
dc.type	Master thesis
dc.rights.holder	Copyright the author. All rights reserved
dc.rights.holder	The author	eng
dc.subject.nsi	VDP::Humaniora: 000::Språkvitenskapelige fag: 010::Andre språkvitenskapelige fag: 039

Tilhørende fil(er)

Filnavn:: hovedoppgave_lyse.pdf
Størrelse:: 921.9Kb
Format:: PDF

Åpne

Denne innførselen finnes i følgende samling(er)

Department of Linguistics, Literary and Aestetic Studies [948]

Vis enkel innførsel