Vis enkel innførsel

dc.contributor.authorTroland, Victoriaeng
dc.date.accessioned2015-06-17T06:13:40Z
dc.date.available2015-06-17T06:13:40Z
dc.date.issued2015-05-15
dc.date.submitted2015-05-15eng
dc.identifier.urihttps://hdl.handle.net/1956/10000
dc.description.abstractStilometri er kvantitative undersøkelser av skrivestil ved hjelp av lingvistiske trekk. Ved hjelp av stilometriske metoder kan forfatterskap, egenskaper til forfatteren og hvorvidt en tekst er skrevet av en eller flere forfattere fastslås. Tidligere er stilometri blitt brukt til å oppdage plagiering og identifisere forfattere av tekster hvor denne er ukjent. Denne studien utforsker stilometriske metoder på norske prosatekster. Målet er å undersøke om det er mulig å fastslå forfatteren ved hjelp av forskjellige typer lingvistiske trekk og statistis- ke metoder. Trekkene som er hentet ut er ord- og tegnbaserte sammen med et primært syntaktisk trekksett. Enkelte av trekkene er særnorske. De statistiske metodene som er brukt er overvåkede og ikke-overvåkede metoder. Resultatene viser at det er mulig fastslå forfattere av norske prosatekster. Trekksettet ekstrahert fra trebanken INESS oppnådde 76.2 % riktig klassifisering med maskinlæring. Resultatene av de leksikalske trekkene avdekket underliggende likheter av tekstene som indikerte samme forfatter. De leksikalske trekkene klarte ofte å bidra til å gruppere forfattere riktig.en_US
dc.description.abstractStylometry is the quantitative research of stylistic differences by way of linguistics features. It is used to determine authorship of a text, author profiling and to discover whether a text has one or more authors. Stylometric research has previously been used in tasks to discover plagiarizing, author verification and in authorship attribution of texts where authorship is unknown. This study aims to apply stylometric methods to Norwegian prose in order to determine aut- horship attribution. The features used in this study were word- and character-based and predomi- nately a syntactic feature set, with some features being language specific. The statistical methods ranged from supervised to unsupervised methods. The results indicate that authorship attribution is possible on Norwegian prose. The syntactic features extracted from the treebank INESS resulted in a classification rate of 76.2 % at the highest of correctly classified instances. Lexical features, that were character- and word-based, were able to indicate textual closeness to suggest authorship. The results show that the features are able to correctly suggest authorship.en_US
dc.format.extent1215582 byteseng
dc.format.mimetypeapplication/pdfeng
dc.language.isonobeng
dc.publisherThe University of Bergeneng
dc.rightsCopyright the author. All rights reservedeng
dc.subjectstylometryeng
dc.subjectstilometrieng
dc.subjectmaskinlæringeng
dc.subjectStyloeng
dc.subjectINESSeng
dc.titleHvem er forfatteren? - Stilometriske undersøkelser av norske prosatekstereng
dc.typeMaster thesis
dc.description.degreeMaster i Datalingvistikk og språkteknologi
dc.description.localcodeMAHF-DASP
dc.description.localcodeDASP350
dc.subject.nus711726eng
fs.subjectcodeDASP350


Tilhørende fil(er)

Thumbnail

Denne innførselen finnes i følgende samling(er)

Vis enkel innførsel