Multiple Imputation of Censored Variables




Professorship/Faculty: Fakultät Sozial- und Wirtschaftswissenschaften: Abschlussarbeiten 
Authors: Büttner, Thomas
Alternative Title: Neues Analysepotential durch die Ergänzung zensierter Variablen
Publisher Information: Bamberg : opus
Year of publication: 2010
Pages / Size: VIII, 177 S. : graph. Darst.
Supervisor(s): Rässler, Susanne
Language(s): English
Remark: 
Bamberg, Univ., Diss., 2010
Licence: German Act on Copyright 
URN: urn:nbn:de:bvb:473-opus-2732
Document Type: Doctoralthesis
Abstract: 
Censoring of variables is a common problem with microdata. This situation often arises with wage and income variables due to manifold reasons. The data may not be available due to difficulties during the data collection process, it may be artificially censored to ensure confidentiality, or it may just not be reliable because of high wage earners tending above average not to answer income questions. An important example for this problem is the German IAB Employment Sample (IABS), which is based on administrative data from the social security systems. Here, right-censoring of wages occurs due to the contribution limit in the German social security system. If earnings are to be analyzed from right-censored or top-coded data, standard models cannot be applied. We treat this problem as a missing data problem and use multiple imputation approaches to impute the censored wages by draws of a random variable from a truncated distribution, based on Markov chain Monte Carlo techniques. In this dissertation thesis new single and multiple imputation methods allowing for heteroscedasticity are suggested. Whereas one goal of the thesis is to present new imputation approaches that are applicable for right-censored wages, a main objective is also to confirm the validity of multiple imputation approaches for right-censored wages in general and to show the superiority of the new multiple imputation approach considering heteroscedasticity in a wide range of situations. To assess the validity of this approach, we also develop alternative approaches using uncensored wage information from a survey (German Structure of Earnings Survey, GSES). Simulation studies are performed to compare the different imputation approaches under different situations and to show the superiority of the new approach working without external information. Additionally, analyses that were done with the IABS are replicated to demonstrate the validity of imputed wage data.

Das Analysepotential einer Vielzahl von Mikrodatensätzen ist durch die Zensierung von Variablen beeinträchtigt. Das Auftreten von Zensierung kann vielfältige Ursachen haben und ist besonders häufig bei Lohn- und Einkommensvariablen zu finden. Ein Grund für dieses Problem kann sein, dass die Daten aufgrund von Schwierigkeiten bei der Datenerhebung nicht vollständig verfügbar sind. Weiterhin werden sensible Variablen oftmals künstlich zensiert, um die Vertraulichkeit der erhobenen Daten zu gewährleisten oder Angaben am oberen Rand sind schlicht nicht zuverlässig, da beispielsweise die Empfänger hoher Einkommen überdurchschnittlich dazu neigen Fragen zum Einkommen nicht zu beantworten. Ein wichtiges Beispiel für einen Mikrodatensatz bei dem das Problem der Zensierung auftritt ist die IAB-Beschäftigtenstichprobe (IABS), die auf administrativen Daten der Sozialversicherung basiert. Im Fall der IABS ist die Lohninformation aufgrund der Beitragsbemessungsgrenze im deutschen Sozialversicherungssystem zensiert. Sollen Löhne auf Basis rechtszensierter Daten analysiert werden, ist es nicht möglich auf Standardmodelle und –verfahren zurückzugreifen. Wir behandeln daher das Problem der Zensierung als ein Problem fehlender Daten und verwenden verschiedene Ansätze zur Ergänzung der zensierten Löhne durch Züge einer Zufallsvariable aus einer gestutzten Verteilung basierend auf Markov-chain-Monte-Carlo-Technik. In dieser Dissertation werden zusätzlich sowohl neue einfache als auch mehrfache Imputationverfahren unter Beachtung von Heteroskedastizität vorgeschlagen. Während es ein Ziel der Arbeit ist, diese neuen Imputationsverfahren für rechtszensierte Löhne zu entwickeln, liegt ein weiterer Fokus darauf, die generelle Anwendbarkeit von multiplen Imputationsverfahren für das Problem der Zensierung im Fall von Lohndaten nachzuweisen und die Überlegenheit des vorgeschlagenen neuen multiplen Imputationsverfahren unter Berücksichtigung von Heteroskedastizität gegenüber herkömmlichen Verfahren in einer Vielzahl von Simulationsstudien zu demonstrieren. Zur Beurteilung der Anwendbarkeit dieses neuen Ansatzes werden außerdem alternative Ansätze unter Verwendung von unzensierten Lohninformationen aus einer Befragung (Gehalts- und Lohnstrukturerhebung, GLS) entwickelt. Anschließend werden ebenfalls Simulationsstudien durchgeführt, um die verschiedenen Imputationsverfahren in verschiedenen Situationen zu vergleichen und die Überlegenheit des neuen Ansatzes, welches ohne externe Information auskommt, zu zeigen. Darüber hinaus werden Analysen die typischerweise mit der IABS durchgeführt werden repliziert, um nochmals die Anwendbarkeit der imputierten Lohndaten zu demonstrieren.
SWD Keywords: Lohn ; personenbezogene Daten ; Zufallsvariable ; Zensierte Stichprobe ; Markov-Ketten-Monte-Carlo-Verfahren ; Online-Publikation
Keywords: Multiple Imputation, fehlende Werte, zensierte Lohndaten, Markov chain Monte Carlo, Simulationsstudie, Imputationstechnik, Multiple imputation, top-coding, censored wage data, Markov chain Monte Carlo, simulation study, Multiple Imputation, fehlende Werte, zensierte Lohndaten, Markov chain Monte Carlo, Simulationsstudie, Imputationstechnik, Multiple imputation, top-coding, censored wage data, simulation study
DDC Classification: 310 Statistics 
RVK Classification: QH 233   
URI: https://fis.uni-bamberg.de/handle/uniba/225
Release Date: 19. April 2012

File Description SizeFormat  
Dokument_1.pdf5.64 MBAdobe PDFView/Open