Volltext-Downloads (blau) und Frontdoor-Views (grau)
  • search hit 1 of 1
Back to Result List

Approaches for dealing with structural- and rounded zeros in data mining tasks

  • Zeros can cause many issues in data analysis and dealing with them requires specialized procedures. We differentiate between rounded zeros, structural zeros and missing values. Rounded zeros occur when the true value of a variable is hidden because of a detection limit in whatever mechanism was used to acquire the data. Structural zeros are values which are truly zero, often coming about due to a hidden mechanism separate from the one which generates values greater than 0. Missing values are values that are completely missing for unknown or known reasons. This thesis outlines various methods for dealing with different kinds of zeros in different contexts. Many of these methods are very specific in their ideal usecase. They are separated based on which kind of zero they are intended for and if they are better suited for compositional or for standard data. For rounded zeros we impute the zeros with an estimated value below the detection limit. The author describes multiplicative replacement, a simple procedure that imputes values at a fixed fraction of the detection limit. As a more advanced technique, the author describes Kaplan Meier smoothing spline replacement, which interpolates a spline on a Kaplan Meier curve and uses the spline below the detection limit to impute values in a more natural distribution. Rounded zeros cannot be imputed with the same techniques that would be used for regular missing values, since there is more information available on the true value of a rounded zero than there would be for a regular missing value. Structural zeros cannot be imputed since they are a true zero. Imputing them would falsify their values and produce a value where there should be none. Because of this, we apply modelling techniques that can work around structural zeros and incorporate them. For standard data, the zero inflated Poisson model is presented. This model utilizes a mixture of a logistic and a Poisson distribution to accurately model data with a large amount of structural zeros. While the Poisson distribution is only applicable to count data, the zero inflation concept can be applied to different kinds of distributions. For compositional data, the zero adjusted Dirichlet model is introduced. This model mixes Dirichlet distributions for every pattern of zeros found within the data. Non-algorithmic techniques to reduce the amount of structural zeros present are also shown. These techniques being amalgamation, which combines columns with structural zeros into more broad descriptors and classification, which changes columns into categorical values based on a structural zero being present or not. Missing values are values that are completely missing for various known or unknown reasons. Different imputation techniques are introduced. For standard data, MissForest imputation is introduced, which utilizes a RandomForest regression to impute mixed type missing values. Another imputation technique shown utilizes both a genetic algorithm and a neural network to impute values based on the genetic algorithm minimizing the error of an autoencoder neural network. In the case of compositional data, knn imputation is presented, which utilizes the knn concept also found in knn clustering to impute the values based on the closest samples with a value available. All of these methods are explained and demonstrated to give readers a guide to finding the suitable methods to use in different scenarios. The thesis also provides a general guide on dealing with zeros in data, with decision flowcharts and more detailed descriptions for both compositional and standard data being presented. General tips on getting better results when zeros are involved are also given and explained. This general guide was then applied to a dataset to show it in action.
  • Nullen können viele Probleme in Datenanalyse verursachen. Ihre Präsenz blockiert bei Kompositionalen Daten die wichtige Log-Transformation und führt bei Standarddaten zu schlecht angepassten Verteilungen. Mit ihnen umzugehen benötigt spezielle Verfahren. Wir unterscheiden zwischen gerundeten Nullen, strukturellen Nullen und fehlenden Werten. Gerundete Nullen zeigen sich in Daten wenn der echte Wert einer Variable versteckt ist weil der Mechanismus der die Werte ausgibt ein Detektionslimit aufweist. Strukturelle Nullen sind Nullen die wirklich Null sind, und keinen Wert maskieren. In vielen Fällen werden sie durch einen seperaten Prozess generiert, als Werte die keine Strukturelle Null sind. Fehlende Werte sind Werte die wegen bekannten oder unbekannten Gründen vollkommen fehlen. Diese Arbeit beschreibt verschiede Methoden um mit verschiedenen Arten von Nullen in verschiedenen Umständen umzugehen. Viele von diesen Methoden sind spezifisch für ihr Einsatzgebiet. Sie sind basierend darauf getrennt für welche Nullen sie gedacht sind und ob sie besser für Kompositionale oder Standarddaten gedacht sind. Für gerundete Nullen setzen wir Werte in die Null ein, die unter dem Detektionslimit liegen. Der Author beschreibt multiplikatives Ersetzen, eine einfache Prozedur die Nullen durch einen fixen Teil des Detektionslimits ersetzt. Als fortgeschrittenere Technik wird “Kaplan Meier Smoothing Spline replacement” beschrieben, welche ein Spline auf einer Kaplan Meier Kurve interpoliert und die Werte unter dem Detektionslimit benutzt um die Werte in einer natürlicheren Verteilung einzusetzen. Gerundete Nullen können nicht mit den selben Methoden ersetzt werden wie fehlende Werte da bei gerundeten Nullen mehr Information zu Verfügung steht, nämlich das sie unter einem gewissen Limit liegen. Strukturelle Nullen können nicht ersetzt werden da sie wirklich Null sind. Sie zu ersetzen würde die Daten verfälschen und einen Wert produzieren wo eigentlich keiner vorkommt. Deswegen benutzen wir Modellierungstechniken die um sie herum arbeiten und sie mit ins Modell einbeziehen. Für Standarddaten wird das “Zero Inflated Poisson Model” vorgestellt. Dieses Model benutzt eine Mixtur von einer logistischen und einer Poissonverteilung um Daten mit vielen Nullen genau darzustellen. Man kann die Poisson Verteilung zwar nur für Zähldaten benutzen, allerdings ist das Konzept der “Zero Inflation” auch für andere Verteilungen benutzbar. Für kompositionale Daten wird das logistische Mixturmodell vorgestellt. Diese Modell vermischt logistische Verteilungen für jedes Muster von Nullen in einem Datensatz. Nicht-algorithmische Techniken um strukturelle Nullen zu reduzieren werden auch gezeigt. Diese Techniken sind “Amalgamation”, wobei mehrere Spalten miteinander kombiniert werden um einen übersichtlicheren Wert darzustellen, und Klassifizierung, wobei eine Spalte in eine kategorische Variable geändert wird die anzeigt ob der Wert eine strukturelle Null oder nicht ist. Als fehlender Wert werden Werte beschrieben die unter verschiedenen Umständen nicht im Datensatz präsent sind. Verschiedene Techniken, um diese zu ersetzen, werden vorgestellt. Für Standarddaten wird die MissForest Imputierung vorgestellt, welche eine RandomForest Regression benutzt um gemischte Daten einzusetzen, also Daten die sowohl kontinuierliche als auch kategorische Variablen enthalten. Eine Weitere Methode benutzt einen genetischen Algorithmus und ein Neuronales Netz um Werte einzusetzen. Dies wird erreicht in dem der Genetische Algorithmus die Eingabe in ein Autoenkodierer Netzwerk so optimiert das der Fehler minimiert ist. Für kompositionale Daten wird KNN Imputation vorgestellt, welche das KNN Konzept benutzt, das auch in KNN Clustering benutzt wird, um Variablen basierend auf den nächsten Einträgen zu imputieren. All diese Methoden werden erklärt und demonstriert um dem Leser/der Leserin eine Anleitung zu geben um die richtige Methode für das richtige Umfeld zu finden. Die Arbeit stellt ebenfalls eine generelle Anleitung bereit um mit Nullen umzugehen. Es werden Ablaufdiagramme und genaue Beschreibungen für Kompositionale- und Standarddaten vorgestellt. Generelle Hinweise um bessere Ergebnisse bei der Analyse mit Nullen zu erhalten werden auch gegeben und erklärt. Im anschließenden Teil wurde diese Anleitung beispielsweise eingesetzt.

Download full text files

Export metadata

Additional Services

Search Google Scholar
Metadaten
Author:Nikolai Starcevic
DOI:https://doi.org/10.25924/opus-3703
Advisor:Peter Reiter
Document Type:Master's Thesis
Language:English
Year of publication:2020
Publishing Institution:FH Vorarlberg (Fachhochschule Vorarlberg)
Granting Institution:FH Vorarlberg (Fachhochschule Vorarlberg)
Release Date:2020/11/09
Tag:Compositional data; Data analysis; Missing values; Rounded zeros; Structural zeros
Number of pages:70
DDC classes:000 Allgemeines, Informatik, Informationswissenschaft / 000 Allgemeines, Wissenschaft / 005 Computerprogrammierung, Programme, Daten
Open Access?:ja
Course of Studies:Informatik
Licence (German):License LogoUrhG - The Austrian Copyright Act applies - Es gilt das österr. Urheberrechtsgesetz