005 Computerprogrammierung, Programme, Daten
Refine
Document Type
- Master's Thesis (6)
Has Fulltext
- yes (6)
Is part of the Bibliography
- no (6)
Keywords
- Arbeitszeitdokumentation (1)
- Blended Learning (1)
- Collaborative filtering (1)
- Compositional data (1)
- Content based filtering (1)
- Data analysis (1)
- Datenexploration (1)
- Datenvisualisierung (1)
- Design (1)
- E-Learning (1)
Mit dem Namen Coachly wird eine elektronische Lernplattform bezeichnet, welche im Rahmen eines neuen Lernkonzeptes die Wissensaneignung bzw. Wissensvermittlung für Lernende und Lehrende im schulischen Unterricht erleichtern und effizienter gestalten soll. Dies wird vor allem durch fest integrierte individuelle Coaching-Einheiten und ein konstantes Monitoring des Lernprozesses gewährleistet. Die vorliegende Arbeit beschäftigt sich in ihrer theoretischen Auseinandersetzung mit den Themenbereichen „Lernen“ und „Unterricht“. Während bei Ersterem unter anderem Lernziele und verschiedene Lerntheorien behandelt werden, widmet sich das Kapitel „Unterricht“ den Unterrichtsarten „Klassischer Unterricht“, „E-Learning“ und „Blended Learning“. Auch Unterrichtsmethoden und innovative Ansätze der Wissensaneignung werden hier abgehandelt. Darüber hinaus dokumentiert die Arbeit die verwendete Forschungsmethode und deren Ergebnisse sowie die Konzeption und Umsetzung des entstandenen Lernkonzeptes und der integrierten Lernplattform. Ausgangspunkt der Forschungsarbeit war dabei die Frage, wie eine Lernumgebung geschaffen werden kann, die die Lernenden bei der Wissensaneignung und Lehrende bei der Wissensvermittlung unterstützt.
Zeros can cause many issues in data analysis and dealing with them requires specialized procedures. We differentiate between rounded zeros, structural zeros and missing values. Rounded zeros occur when the true value of a variable is hidden because of a detection limit in whatever mechanism was used to acquire the data. Structural zeros are values which are truly zero, often coming about due to a hidden mechanism separate from the one which generates values greater than 0. Missing values are values that are completely missing for unknown or known reasons. This thesis outlines various methods for dealing with different kinds of zeros in different contexts. Many of these methods are very specific in their ideal usecase. They are separated based on which kind of zero they are intended for and if they are better suited for compositional or for standard data.
For rounded zeros we impute the zeros with an estimated value below the detection limit. The author describes multiplicative replacement, a simple procedure that imputes values at a fixed fraction of the detection limit. As a more advanced technique, the author describes Kaplan Meier smoothing spline replacement, which interpolates a spline on a Kaplan Meier curve and uses the spline below the detection limit to impute values in a more natural distribution. Rounded zeros cannot be imputed with the same techniques that would be used for regular missing values, since there is more information available on the true value of a rounded zero than there would be for a regular missing value.
Structural zeros cannot be imputed since they are a true zero. Imputing them would falsify their values and produce a value where there should be none. Because of this, we apply modelling techniques that can work around structural zeros and incorporate them. For standard data, the zero inflated Poisson model is presented. This model utilizes a mixture of a logistic and a Poisson distribution to accurately model data with a large amount of structural zeros. While the Poisson distribution is only applicable to count data, the zero inflation concept can be applied to different kinds of distributions. For compositional data, the zero adjusted Dirichlet model is introduced. This model mixes Dirichlet distributions for every pattern of zeros found within the data. Non-algorithmic techniques to reduce the amount of structural zeros present are also shown. These techniques being amalgamation, which combines columns with structural zeros into more broad descriptors and classification, which changes columns into categorical values based on a structural zero being present or not.
Missing values are values that are completely missing for various known or unknown reasons. Different imputation techniques are introduced. For standard data, MissForest imputation is introduced, which utilizes a RandomForest regression to impute mixed type missing values. Another imputation technique shown utilizes both a genetic algorithm and a neural network to impute values based on the genetic algorithm minimizing the error of an autoencoder neural network. In the case of compositional data, knn imputation is presented, which utilizes the knn concept also found in knn clustering to impute the values based on the closest samples with a value available.
All of these methods are explained and demonstrated to give readers a guide to finding the suitable methods to use in different scenarios.
The thesis also provides a general guide on dealing with zeros in data, with decision flowcharts and more detailed descriptions for both compositional and standard data being presented. General tips on getting better results when zeros are involved are also given and explained. This general guide was then applied to a dataset to show it in action.
Moderne Darstellungen ermöglichen es, Daten nicht nur als statische Bilder, sondern auch als interaktive Visualisierungen darzustellen. Interaktive Darstellungen können im Kontext von Kundinnen- und Kundenanalysen eine einfache Weise sein, um Unterschiede in verschiedenen Kaufverhalten festzustellen und können so ein essenzielles Hilfsmittel für ein Unternehmen sein. Das Hauptziel dieser Arbeit ist es, anhand eines beispielhaften Verkaufsdatensatzes die Möglichkeiten der Datenexploration und Informationsbeschaffung durch interaktive Visualisierungen aufzuzeigen, sodass Rückschlüsse auf das Kaufverhalten verschiedener Gruppen gezogen werden können.
Auf der Grundlage einer umfassenden Literaturrecherche in den Bereichen der Daten- und Informationsvisualisierung wurde eine Problemdefinition und eine Anforderungsanalyse für die Verkaufsdaten ausgearbeitet. Anonymisierte Verkaufsdaten dienten als Ausgangspunkt für die Datenvorverarbeitung. Diese wurden bereinigt und die gewünschten Informationen aus der Anforderungsanalyse wurden zur weiteren Transformation selektiert. Aufgrund der hohen Dimensionalität der selektierten Daten, wurde bei der Transformation der Dimensionsreduktions Algorithmus “Uniform Manifold Approximation and Projection” (UMAP) verwendet, um die Dimensionen der Daten zur Visualisierung zu reduzieren. Aufbauend auf diesen Schritten wurde ein Prototyp als Webanwendung erstellt, der den Anforderungen der Datenexploration und Informationsgewinnung gerecht wird. Der resultierende Prototyp kombiniert die achsenbasierten Visualisierungsmethoden der Streudiagramme und Parallelen Koordinaten mit der pixelorientierten Visualisierungsmethode der Heatmap. Diese Darstellungen wurden zusätzlich mit Interaktionsmöglichkeiten erweitert, um eine kollaborative Filterung von ähnlichen Konsumentinnen und Konsumenten auf verschiedenen Warengruppenebenen zu ermöglichen.
Abgeschlossen wurde die Arbeit mit einer Evaluation des Prototypen und dessen Qualität zur Exploration. Die Auswertung wurde mit Benutzerinnen und Benutzern absolviert, die einen Versuchsablauf durcharbeiteten und dabei ihre Erkenntnisse in einem Fragebogen dokumentierten. Durch das Ausführen ließen sich Gruppierungen von Kundinnen und Kunden feststellen und diese konnten auf Richtigkeit in Bezug auf das Einkaufsverhalten validiert werden. Die hierarchische Verbindung der Warengruppenebenen und das Erkennen von Mustern in allen drei Warengruppenebenen konnte nicht als erfolgreich bewertet werden. Es wurde jedoch ein Potenzial zur weiteren visuellen Analyse von Konsumentinnen und Konsumenten anhand deren Einkaufsverhalten festgestellt und weitere Anforderungen zur Weiterentwicklung wurden festgehalten.
Die Digitalisierung von Unternehmen und deren Produktionsanlagen bringen neue Bedrohungsformen mit sich, die zielorientierter ausgerichtet sind und mehrere Computersysteme gleichzeitig betreffen. Klassische Schutzmechanismen wie Firewalls, Anti-Viren-Systeme und IDS sind zumeist signatur- oder muster-basiert und können diese komplexen Bedrohungsformen nicht effizient erkennen. Die verwendeten Signaturen und Muster können durch Angreifer einfach umgangen werden. Darüber hinaus sind gezielte und komplexe Angriffe nur durch die Verknüpfung von Informationen mehrerer Computersysteme identifizierbar.
In den letzten Jahren wurden daher verstärkt anomalie-basierte IDS entwickelt und eingesetzt, die anhand selbstlernender Algorithmen das normale Verhalten von mehreren miteinander vernetzten Computersystemen erlernen und Abweichungen zum normalen Verhalten identifizieren. Hierzu verwenden die Algorithmen Log- und Monitoringdaten der Anwendungsschicht von verschiedenen Computersystemen und Anwendungen. Der Zugriff auf die Logdaten zur weiteren Analyse ist jedoch kompliziert, weil sie nicht an einer zentralen Stelle zusammenlaufen und es keine allgemein anerkannten Standards für die Erzeugung und Übertragung von Logdaten existieren.
Infolgedessen wird in dieser Arbeit ein zentrales Log-Management-System in eine Produktionsumgebung eingeführt, die verschiedene IT-Komponenten und Komponenten einer realen Güterproduktion beinhaltet. Zudem werden Logdaten verschiedener heterogener Datenquellen auf diesem System zentral aggregiert. Neben der Einführung eines Standards für die Struktur und Übertragung der Logdaten von den einzelnen Datenquellen auf das Log-Management-System, werden Logdaten auf ihre Relevanz hinsichtlich der Erkennung von Anomalien und der Abbildung des Systemverhaltens analysiert. Diese Arbeit beinhaltet zudem fortgeschrittene Bedrohungsszenarien, die für die Evaluation der IDS verwendet werden können und stellt somit eine Grundlage für eine zukünftige Analyse der Logdaten durch IDS dar.
In dieser Arbeit wird eine Evaluation zwischen verschiedenen implementierten Ansätzen eines Empfehlungssystems auf der Basis eines realen Datensatzes durchgeführt. Der Datensatz beinhaltet das Navigationsverhalten von Besuchern einer Website über Kochrezepte. Während der Vorverarbeitung wird der Datensatz mit zusätzlichen Metainformationen für jedes besuchte Rezept aus dem Content Management System der Webseite angereichert. Die implementierten Empfehlungssysteme verwenden sowohl den Content Based Filtering als auch den Collaborative Filtering Ansatz. Zusätzlich werden beide Ansätze kombiniert und in einem hybriden Empfehlungssystem eingesetzt. Darüber hinaus werden für jede Person im Datensatz zwei individuelle Profile erstellt. Dabei handelt es sich um ein kurzlebiges Session-Profil und ein permanentes Langzeit-Profil. Mit jedem Besuch eines Rezeptes werden beide Profile dynamisch angepasst, so dass sich die individuellen Präferenzen der Personen jederzeit in den Profilen widerspiegeln. Für die Evaluation wird ein eigener Algorithmus angewendet, welcher es erlaubt einen Vergleich zwischen den implementierten Empfehlungssystemen vorzunehmen. Die Besonderheit an dem Evaluationsalgorithmus ist, dass dieser lediglich die besuchten Items und deren Beschreibung für den Vergleich benötigt. Es werden keine expliziten Bewertungen von den Webseitenbesuchern verwendet. In der Arbeit werden die Ergebnisse der unterschiedlichen Ansätze für ein Empfehlungssystem mit dem eigenen Evaluationsalgorithmus diskutiert und die Vor- bzw. Nachteile der jeweiligen Ansätze erläutert. Bei der Analyse stellt sich heraus, dass für den in dieser Arbeit verwendete Datensatz ein hybrides Empfehlungssystem, welches sowohl das Session-Profil als auch das Langzeit-Profil kombiniert, die besten Ergebnisse erzielt. Mit diesem System wird eine Übereinstimmungsgenauigkeit zwischen den vorgeschlagenen Rezepten und den tatsächlich besuchten Rezepten von knapp 36% erreicht. Die beiden Content Based Systeme, welche jeweils entweder das Session-Profil oder das Langzeit-Profil verwenden, erzielen eine Übereinstimmungsgenauigkeit von ca 30% bzw. 20%. Die Algorithmen mit dem Collaborative Filtering Ansatz erreichen bei dem verwendeten Datensatz nur eine Übereinstimmungsgenauigkeit von ca. 15% bzw. 13,5%. Als Referenzmodell wird ein Empfehlungssystem verwendet, das nach dem Zufallsprinzip Rezepte vorschlägt, wodurch eine Übereinstimmungsgenauigkeit von etwa 6% erreicht wird.
Für die Verrechnung von Leistungen gegenüber dem Kunden sowie die Planung des weiteren Geschäftsjahres ist es wichtig, dass die Angestellten ihre Arbeitszeit so genau wie möglich dokumentieren. Da diesbezüglich bei der Firma IMA-Systems Information-Technology ZNL der NEXTCLINICS Austria GmbH (im Folgenden IMA-Systems) Verbesserungspotential besteht, gilt es Lösungen zu finden die Angestellten zu motivieren ihre Arbeits-Dokumentation möglichst genau anzufertigen. Gamification hat sich in vielen Bereichen als Hilfreich herausgestellt, wenn es um die Motivationssteigerung von Menschen geht. In dieser Arbeit wird der Fragestellung nachgegangen, inwiefern mittels Gamification die Motivation zur genaueren Zeitdokumentation der Arbeitnehmenden im Unternehmen IMA-Systems gesteigert werden kann. Um die Fragestellung zu beantworten wird eine Gamification-Anwendung entwickelt, welche die Angestellten zu einer genaueren Dokumentation ihrer Arbeitszeit motivieren soll.
Hierfür wird mittels des User Centered Design Prozesses ein VB.Net Programm implementiert, welches mit Hilfe der passenden Spielelemente zur Motivationssteigerung beitragen soll. Hierbei wird unterschieden ob es sich um ein Mitglied der Entwicklungs- oder EDV-Abteilung handelt, da die Dokumentation sich in den Abteilungen unterscheidet. Während die Entwicklungsabteilung zeitgleich und minutengenau dokumentiert, dokumentiert die EDV-Abteilung indem nachträglich Zeiteinheiten zugeordnet werden. Vor der Implementierung der Anwendung werden die Teilnehmenden interviewt, um ihre Antworten in die Entwicklung einfließen zu lassen. Nach Fertigstellung des Prototyps wird die Testphase eingeleitet. Hierfür wird der Prototyp in den Arbeitsalltag der Angestellten der Firma IMA-Systems integriert. Auf die Feldphase folgen eine erneute Befragung der Angestellten sowie der Vergleich der Daten vor und nach der Einführung von Gamification.
Die Auswertung der Ergebnisse ergab, dass die Anwendung auf die EDV-Abteilung mit einer Steigerung von 18,6% einen deutlichen, positiven Effekt hat, welcher sich in der Entwicklungsabteilung mit einem Rückgang von 5% nicht verzeichnen lässt. In der abschließenden Diskussion wird die Auswertung der Ergebnisse kritisch betrachtet, der Grund für die Verschlechterung in der Entwicklungsabteilung erläutert und ein Ausblick für mögliche Verbesserungen und Erweiterungen des Prototyps aufgezeigt.