Hvem er forfatteren? - Stilometriske undersøkelser av norske prosatekster
Abstract
Stilometri er kvantitative undersøkelser av skrivestil ved hjelp av lingvistiske trekk. Ved hjelp av stilometriske metoder kan forfatterskap, egenskaper til forfatteren og hvorvidt en tekst er skrevet av en eller flere forfattere fastslås. Tidligere er stilometri blitt brukt til å oppdage plagiering og identifisere forfattere av tekster hvor denne er ukjent. Denne studien utforsker stilometriske metoder på norske prosatekster. Målet er å undersøke om det er mulig å fastslå forfatteren ved hjelp av forskjellige typer lingvistiske trekk og statistis- ke metoder. Trekkene som er hentet ut er ord- og tegnbaserte sammen med et primært syntaktisk trekksett. Enkelte av trekkene er særnorske. De statistiske metodene som er brukt er overvåkede og ikke-overvåkede metoder. Resultatene viser at det er mulig fastslå forfattere av norske prosatekster. Trekksettet ekstrahert fra trebanken INESS oppnådde 76.2 % riktig klassifisering med maskinlæring. Resultatene av de leksikalske trekkene avdekket underliggende likheter av tekstene som indikerte samme forfatter. De leksikalske trekkene klarte ofte å bidra til å gruppere forfattere riktig. Stylometry is the quantitative research of stylistic differences by way of linguistics features. It is used to determine authorship of a text, author profiling and to discover whether a text has one or more authors. Stylometric research has previously been used in tasks to discover plagiarizing, author verification and in authorship attribution of texts where authorship is unknown. This study aims to apply stylometric methods to Norwegian prose in order to determine aut- horship attribution. The features used in this study were word- and character-based and predomi- nately a syntactic feature set, with some features being language specific. The statistical methods ranged from supervised to unsupervised methods. The results indicate that authorship attribution is possible on Norwegian prose. The syntactic features extracted from the treebank INESS resulted in a classification rate of 76.2 % at the highest of correctly classified instances. Lexical features, that were character- and word-based, were able to indicate textual closeness to suggest authorship. The results show that the features are able to correctly suggest authorship.