Å skille klinten fra hveten : Hvordan kan ordbokaktuelle sammensetninger identifiseres?
Doctoral thesis
Permanent lenke
https://hdl.handle.net/11250/3131032Utgivelsesdato
2024-05-31Metadata
Vis full innførselSamlinger
Sammendrag
Målsetninga til denne avhandlinga har vært å utvikle en velfundert og effektiv prosedyre for seleksjon av sammensetninger til store allmennordbøker. Målsetninga utgår fra en kjensgjerning om at det verken er prinsipielt forsvarlig eller praktisk mulig for et ordbokverk å beskrive alle sammensetninger som er belagt i norsk språkbruk. Det er derfor nødvendig å finne variabler som hjelper en å skille ut det utvalget av sammensetninger som er mest hensiktsmessig fra et lingvistisk, empirisk og pedagogisk perspektiv.
Avhandlinga består av tre delstudier som på hver sin måte oppfyller deler av denne målsetninga. I tillegg kommer en kappe som med utgangspunkt i delstudiene og tidligere forskning svarer på den overordna problemstillinga. Delstudie 1 har hovedsakelig en kvalitativ innretning, mens delstudie 2 og 3 baserer seg på kvantitative analyser.
I delstudie 1 utforskes variabelen semantisk gjennomsiktighet. I litteraturen fins det mange innganger til å beskrive hvordan det varierer hvor forutsigbar eller selvforklarende betydninga til en sammensetning er, gitt delene den består av. I delstudien operasjonaliseres fem gjennomsiktighetsfaktorer: Motivasjonsandel, motivasjonsgrad, intern disambiguering, skjematiske forbilder og skjematisk produktivitet. De settes inn i en modell som samla anvendes til å beregne den overgripende gjennomsiktighetsgraden til et utvalg av sammensetninger med førsteleddene svart-, tanke- og vandre-. Modellen gir en finkorna inndeling av det aktuelle tilfanget av sammensetninger og fordeler dem langs en skala med åtte trinn, der sammensetningene i den minst gjennomsiktige enden formodentlig har det sterkeste ordbokkandidaturet basert på semantisk gjennomsiktighet.
Blant de fem faktorene i modellen i delstudie 1 utpeker skjematisk produktivitet seg som særlig tidkrevende å beregne for hver enkelt sammensetning. Intern disambiguering utpeker seg på sin side som en relativt uviktig faktor sammenlikna med de andre. De resterende faktorene virker på sin side som nyttige og effektive virkemidler for å skille ut de mest ugjennomsiktige sammensetningene i et utvalg. Det fins likevel spørsmål knytta til operasjonaliseringa og treffsikkerheten til disse faktorene. En av faktorene, motivasjonsgrad, blir imidlertid evaluert i delstudie 3.
Hensikten med delstudie 2 er å utvikle valide korpusmetoder for å måle frekvens i usus. Studien bygger på en kryssvalideringsanalyse av fem ulike korpusmål med et utvalg bestående av 273 norske sammensetninger med forskjelligarta korpusdistribusjoner. Analysen kaster lys over korpusmålenes evne til å predikere utbredelse i usus, og hvordan prediksjonsevnen blir påvirket av ulike typer korpusdistribusjoner.
Det viktigste funnet i delstudie 2 er at prediksjonsevnen til korpusfrekvens avhenger av korpusdistribusjonens spredningsgrad. Når man måler korpusfrekvensen til for eksempel en sammensetning, er det spredningsgraden til sammensetninga som indikerer validiteten til frekvensestimatet, altså om frekvensestimatet gir en presis framstilling av sammensetningas frekvens i usus. Blant spredningsmålene i studien ser Deviation of Proportions (DP) og Juilland’s D ut til å gi de mest treffsikre og stabile prediksjonene av spredning i usus.
Spredningsmål sier imidlertid ingenting om størrelsesordenen til distribusjonen de anvendes på. Derfor er det en samla vurdering av korpusfrekvens og korpusspredning som best predikerer hyppigheten til et n-gram i usus. Analogt med den statistiske konvensjonen hvor man opplyser om standardavvik når man måler gjennomsnittet i et datautvalg, burde korpusspredning opplyses om i alle tilfeller der man rapporterer korpusfrekvens.
I delstudie 3 gjennomføres en inferenstre- og randomisert skoganalyse for å identifisere hvilke lingvistiske og distribusjonelle variabler som best predikerer søkeinteresse i standardordbøkene (Bokmålsordboka og Nynorskordboka). Til dette benyttes et utvalg på rundt 1200 sammensetninger og en akkumulert statistikk over benytta søkeuttrykk i søkefeltet til standardordbøkene i perioden 2016–2020.
Analysene i delstudie 3 indikerer at det er en positiv sammenheng mellom korpusfrekvens og korpusspredning på den ene siden og søkeinteresse på den andre. Korrelasjonen mellom disse variablene går imidlertid bare i én retning. Mens høy frekvens og jevn spredning er assosiert med høy søkeinteresse, er ikke lav frekvens og ujevn spredning nødvendigvis assosiert med lav søkeinteresse. Utbredelse i språkbruk er med andre ord ikke den eneste variabelen som forklarer variasjonen i søkeinteresse.
Delstudie 3 tester dessuten sammenhengen mellom en rekke lingvistiske variabler og søkeinteresse. Resultata fra dette indikerer at det er en ørliten positiv sammenheng mellom motivasjonsgrad og søkeinteresse. Dessuten forklarer variablene i studien vesentlig mer av variasjonen i søkeinteresse blant ikke- og seminominale sammensetninger enn blant binominale sammensetninger.
Delstudiene illustrerer samla at å komme fram til et hensiktsmessig sammensetningsutvalg i ordbøker dels dreier seg om å identifisere de viktigste lingvistiske og distribusjonelle variablene, og dels om å finne valide måter å tilpasse variablene på slik at de lett kan anvendes i en leksikografisk kontekst. Søkeloggene til standardordbøkene viser tydelig at brukerbehovet og -interessen for sammensatte ord er omfattende og variert, og at det trolig kreves mange variabler for å forklare variasjonen i brukerinteressen.
Delstudie 3 viser dessuten at den tradisjonelle inngangen til seleksjon av sammensetninger, som i stor utstrekning basererer seg på korpusfrekvens, semantisk gjennomsiktighet og intuisjon, i standardordbøkenes tilfelle har resultert i et relativt treffsikkert utvalg av sammensetninger med henblikk på søkeinteressen. For å kunne forbedre treffsikkerheten ytterligere dreier det seg trolig om at en må øke oppløsninga på de tradisjonelle variablene. På den ene siden må man øke oppløsninga og validiteten på korpusundersøkelsene; i det minste må man måle spredning i tillegg til frekvens. På den andre siden må man finne ut hvilke variabler som den noenlunde treffsikre intuisjonen er basert på.
Når korpusfrekvens og semantisk gjennomsiktighet har blitt brukt som mer eller mindre tause variabler for seleksjon av sammensetninger, vitner dette om et premiss om at leksikografer har ansvar for å beskrive det ordforrådet som enten er konvensjonelt i språkbruk eller ukonvensjonelt lingvistisk sett. Med andre ord sammensetninger som enten opptrer jevnlig i bruk, eller som enten betydningsmessig eller strukturelt avviker fra de typiske lingvistiske konvensjonene eller forventningene.
Dessuten er det innlysende at man innenfor det som er lingvistisk og empirisk akseptabelt, bør forsøke å fange mesteparten av det ordforrådet brukerne søker etter. I så henseende viser blant annet delstudie 3 at ingen av variablene som er satt under lupen i denne avhandlinga, bør benyttes til å ekskludere sammensetninger fra ordbokoppføring. Snarere bør man operere med et sett inklusjonskriterier, som uavhengig av hverandre gir grunnlag for oppføring. I avhandlingas nest siste kapittel foreslås det følgende settet med kvalifiserende egenskaper, som forsøker å fange ord som enten er bruksmessig konvensjonelle, lingvistisk ukonvensjonelle eller ettersøkte av brukerne:
1. Diffusjonsgrad
2. Anomaliseringsgrad
3. Skjematisering
4. Usualiseringsdomene
5. Erfaringsbasert innprenting
6. Oppmerksomhetsverdi
7. Innputt i videre orddanning
For å gi en mest mulig konkret oppnåelse av avhandlingas målsetning integreres de ovennevnte variablene inn i en operativ leksikografisk seleksjonsprosedyre. Denne prosedyren blir dertil demonstrert på et utvalg av sammensetninger, hvor resultatet framstår lovende. The aim of the present thesis has been to develop a rigorous and effective procedure for selecting compound-entries for general dictionaries. This aim builds on the premise that it is neither theoretically sound nor practically feasible to provide entries for every compound that has documented use in the Norwegian language. It is therefore necessary to find variables that enable one to extract a sample of compounds that is in line with linguistic, empirical and pedagogical considerations.
The thesis consists of three studies that in different ways fulfill the overall aim. These studies are joined by an overarching synopsis that summarises the project as a whole. Study 1 has a mainly qualitative design, whereas Studies 2 and 3 are based on quantitative analyses.
Study 1 investigates the variable semantic transparency of compounds. The compound literature includes many approaches to the definition and conceptualisation of how predictable or self-explanatory the meaning of a compound is given the meaning of its parts. In this study, five factors of semantic transparency, namely extent of motivation, degree of motivation, internal disambiguation, schematic templates and schematic productivity, are operationalised and combined in a model that is applied to estimate the degree of transparency of a selection of compounds. The model gives a fine-grained assessment of each compound’s transparency and places them along a scale of eight tiers, where the compounds at the least transparent end have the strongest candidacy for being listed in dictionaries based on semantic transparency.
Among the five factors in the model, schematic productivity is particularly time-consuming to assess. Internal disambiguation is on the other hand relatively insignificant in that very few compounds are deemed more or less transparent based on this factor. The remaining factors do however appear to be both useful and effective tools for identifying the least transparent compounds among a group of candidates. There are however uncertainty tied to the operationalisation and aptness of these factors. One of the factors, degree of motivation, is evaluated in study 3.
The purpose of study 2 is to develop valid corpus methods for measuring frequency of use in the language as a whole. The study builds on a cross-validation analysis of the performance of five different corpus measurements on 273 Norwegian compounds with varying types of corpus distributions. The analysis sheds light on the ability of each measurement to predict frequency of use in the language as a whole, and how the predictive accuracy of each measurement is affected by different types of corpus distributions.
The most important finding in study 2 is that the predictive accuracy of corpus frequency is dependent on the dispersion of a given n-gram. When measuring the corpus frequency of e.g. a compound, it is the dispersion of that compound that indicates the validity of that frequency measurement, that is whether the corpus measurement gives a true representation of the compound’s frequency in the langugage as a whole. Among the dispersion measures in the study, Deviation of Proportions (DP) and Juilland’s D show particularly promising results with respect to accuracy and stability.
Since these dispersion measures only indicate the proportionality with which a distribution is spread out across the corpus, they do not say anything about the magnitude of the distribution in question. For this reason, the most precise indications of the use of an n-gram in the language as a whole are made by dispersion and frequency estimates collectively. Frequency and dispersion estimates should therefore always be reported in order to mutually support one another. This ought to be a corpus convention analogous to the way a measure of variation, like standard deviation, is reported in statistic contexts to support estimates of central tendencies, like the mean.
Study 3 analyses conditional inference trees and random forests to identify the best linguistic and distributional predictors of look-up interest in the standard Norwegian dictionaries. To this end, I use a sample of approx. 1200 Norwegian compounds and an accumulated statistic of all effectuated query expressions from the same dictionaries in the time period 2016–2020.
The findings from Study 3 reveal a clear connection between corpus frequency and corpus dispersion on one hand, and look-up interest on the other. Notably, this relationship is unidirectional. High frequency and high dispersion are linked to high look-up interest, while low frequency and low dispersion do not correspond to decreased look-up interest. Hence, it is evident that diffusion in language use alone does not solely determine the variations in look-up interest.
Study 3 also tests the connections between various linguistic variables and look-up interest. A finding is that degree of motivation is somewhat associated with look-up interest, while part of speech affects the amount of variation that can be explained by the variables in the study. There is considerably more unexplained variation among binominal compounds than among non- and seminominal ones.
The studies collectively show that arriving at an ideal selection of compounds in dictionaries partly involves identifying the most important linguistic and distributional variables, and partly involves finding valid ways to adapt these variables so that they can be easily applied in a lexicographic context. The search logs of the standard Norwegian dictionaries clearly demonstrate that user needs and interests in compound words are vast and varied, and that it will take many variables to explain the variation in user interest.
Furthermore, Study 3 shows that the traditional approach to selecting compounds, which presumably has relied on corpus frequency, semantic transparency and intuition, in the case of the Norwegian dictionaries has resulted in a relatively accurate selection of compounds with regard to search interest. To further improve accuracy, it is in all likelihood necessary to increase the resolution of the traditional variables. On the one hand, it is necessary to increase the resolution and validity of corpus investigations. At the very least, one must measure dispersion in addition to frequency. On the other hand, one must determine which variables constitute the seemingly accurate intuition that is currently applied.
When corpus frequency and semantic transparency have been used as more or less tacit variables for the selection of compounds, this presupposes that lexicographers ought to describe the vocabulary that is either conventional in usage or linguistically unconventional. In other words, compounds that either occur regularly in use or that deviate from the typical linguistic conventions or expectations in terms of meaning or structure.
Furthermore, it is obvious that within what is linguistically and empirically acceptable, one should try to capture most of the vocabulary that users are searching for. In this regard, Study 3 among others, shows that none of the variables examined in this thesis should be used to disqualify compounds from dictionary entries. Instead, one should operate with a set of qualifying factors that independently provide a basis for entry. In the final chapter of the thesis, the following set of qualifying factors is proposed, which attempts to capture words that are either conventionally used, linguistically unconventional or interesting to users:
1. Degree of diffusion
2. Degree of anomaly
3. Schematisation
4. Usualisation domain
5. Experential entrenchment
6. Attention value
7. Input to further word formation
To provide the most concrete fulfillment of the objectives of the thesis, the above variables are integrated into a lexicographic selection procedure. This procedure is also demonstrated on a selection of compounds with promising results.
Består av
Paper I: Paulsen, Mikkel Ekeland. (2020). Svartsjuk tankelesing på vandresafari – en modell for bedømmelse av sammensatte ords gjennomsiktighet. LexicoNordica, 27, 161–187. The article is available at: https://hdl.handle.net/11250/3131233Paper II: Paulsen, Mikkel Ekeland. (2022). Assessing word commonness – Adding dispersion to frequency. International Journal of Corpus Linguistics, 28(3), 318–343. The published version is not available in the thesis file due to publisher restrictions. The accepted version is available at: https://hdl.handle.net/11250/3046458
Paper III: Paulsen, Mikkel Ekeland. (2023). Wheat or chaff? A compound selection model based on look-up data. International Journal of Lexicography, 36(3), 306–324. The article is available at: https://hdl.handle.net/11250/3108642