Sparse Bayesian learning methods and statistical survival models
Abstract
Med utviklinga av avanserte datainnsamlingsteknikkar og digitalisering, har omfanget av tilgjengelig data i ulike fagfelt auka enormt. Det blir difor stadig viktigare med effektive og nøyaktige algoritmar innan statistisk modellering, og denne avhandlinga inneheld bidrag til dette. Bidraga kan kategoriserast i to hovudtema: glisne (sparse) Bayesianske metodar og statistiske levetidsmodellar.
Glisne Bayesianske metodar har fått auka interesse dei siste åra, mellom anna på grunn av at dei produserer modellar som generaliserer godt og som er robuste mot data som inneheld mykje støy. Det finst mange ulike variantar av Bayesianske metodar, som til dømes metodar som brukar Markov Chain Monte Carlo. Denne avhandlinga fokuserer på den empirisk Bayesianske tilnærminga. Avhandlinga undersøker både nye glisne Bayesianske modellar og ein ny generell løysingsstrategi for desse modellane. I den nye løysingsstrategien brukar ein R-pakken, Template Model Builder (TMB), til å optimere modellparametrane ved å bruke automatisk derivasjon. Ein algoritme som forbetrar kjøretida for estimering av dei latente variablene i TMB, vert også presentert. Ved å bruke denne algoritmen oppnår ein tilnærma lik tidsbruk ved å bruke TMB som dei orginale algoritmane for desse Bayesianske modellane. Løysingsstrategien gjer det enkelt å justere modellane utan å måtte utleie nye komplekse algoritmar, og dette blir demonstrert ved å bruke den på nye glisne Bayesianske modellar. I tillegg til modellane som er utleia i det nye løysingsrammeverket, inneheld avhandlinga også ei analytisk løysing til ein ny modell som er relatert til Bayesiansk lasso. I motsetning til Bayesiansk lasso, gir den nye modellen glisne løysingar og kan også bli brukt til å løyse ikkje-lineære regresjonsproblem.
Det andre temaet for denne avhandlinga er statistiske levetidsmodellar. Her blir det presenterer ei ny multivariat fordeling for å modellere avhengige levetider, som blir kalla søskenfordelinga. Fordelinga blir definert ut frå levetida for søsken, der avhengighetsstrukturen blir indusert gjennom felles mor. Søskenfordelinga blir konstruert slik at komponentane som er knytt til mor er inkludert som latente variablar, og ein treng difor ingen informasjon om henne. Sjølv om fordelinga vert presentert som ei fordeling av leveår, kan den bli nytta meir generelt på avhengige komponentar. Vi beviser at den bivariate søskenfordelinga med konstante rater er Multivariate Totally Positive of order two (MTP2), som er ein sterk avhengig eigenskap og indikerer mellom anna ein positiv kovarians. Modellparametrane er fødsels- og dødsratene, i tillegg til dei individuelle tidspunkta for død. Estimering av desse tidspunkta kan ikkje gjerast ved å bruke klassiske estimeringsprosedyrar, då rimelegheitsfunksjonen ikkje er deriverbar med hensyn til desse parametrane. For å løyse dette problemet blir ein iterativ estimeringsalgoritme utvikla, som gjev estimat på alle modellparametrar. Algoritmen blir testa både på simulerte og ekte data. Resultata viser at estimerte verdiar ligg tett opptil dei sanne verdiane ved testing på simulerte data. With the development of advanced data collection techniques and digitalization, the amount of available data in various fields has increased tremendously. The need for efficient and accurate algorithms for statistical modelling is therefore becoming more and more important, and this thesis contains contributions towards more efficient models. The contributions can be characterized in two main topics; sparse Bayesian learning methods and statistical survival models.
Sparse Bayesian learning methods have gained increased interest the recent years due to the favourable properties that they provide sparse models that generalize well and that they are robust to noisy datasets. While there are many approaches to Bayesian learning, such as Markov Chain Monte Carlo methods, this thesis focuses on the empirical Bayes approach. The thesis investigates both new sparse Bayesian models, and a new general solution strategy for these models. In the new solution strategy an R package, the Template Model Builder (TMB), is used to optimize the model parameters by applying automatic differentiation. An algorithm that speeds up the estimation procedure of the latent variables in TMB is also presented. Applying this algorithm obtains similar runtimes using TMB as compared to tailored algorithms of the sparse Bayesian models. The solution framework makes it easy to adjust the models without derivation of new complex algorithms, which is demonstrated by applying it to new sparse Bayesian models. In addition to the models derived in the new solution framework, the thesis also includes an analytical solution to a new model that is related to the Bayesian lasso. Opposed to the Bayesian lasso, the new model provides sparse solutions and can also be applied to solve nonlinear regression problems.
In the second topic of this thesis, a new multivariate distribution for modelling continuous lifetimes with positive dependence, named the sibling distribution, is presented. The distribution is defined in terms of the survival of siblings, where the dependency structure is induced through their shared mother. The sibling distribution is constructed such that the components related to the mother are included as latent variables, hence, no knowledge about the mother is required. Although it is presented as a distribution of lifetimes, it may be applied to any set of nonnegative components with positive dependence. We prove that the bivariate sibling distribution with constant rates is Multivariate Totally Positive of order two (MTP2), which is a strong dependence property and implies among others things a positive covariance. The model parameters are the birth and death rates, in addition to the individual death time points of the siblings. Estimates of the time points can however not be obtained by applying classical estimation procedures, as the likelihood is not differentiable with respect to these parameters. In order to solve this problem, an iterative estimation algorithm is derived, which provides estimates of all model parameters. The estimation algorithm is tested on both simulated and real data. The results show that the estimated values were close to the true values, when testing on simulated data.
Has parts
Paper A: The sibling distribution for multivariate life time data. Ingvild M. Helgøy, Hans J. Skaug. Sankhya B 2022;84:340–363. The article is available at: https://hdl.handle.net/11250/2992580Paper B: A Bayesian Lasso based Sparse Learning Model. Ingvild M. Helgøy, Yushu Li. The article is not available in BORA.
Paper C: Sparse Bayesian Learning using TMB (Template Model Builder). Ingvild M. Helgøy, Hans J. Skaug, Yushu Li. The article is not available in BORA.