Options
Multiple Imputation of Censored Variables
Büttner, Thomas (2010): Multiple Imputation of Censored Variables, Bamberg: opus.
Author:
Alternative Title:
Neues Analysepotential durch die Ergänzung zensierter Variablen
Publisher Information:
Year of publication:
2010
Pages:
Supervisor:
Language:
English
Remark:
Bamberg, Univ., Diss., 2010
Licence:
Abstract:
Censoring of variables is a common problem with microdata. This situation often arises with wage and income variables due to manifold reasons. The data may not be available due to difficulties during the data collection process, it may be artificially censored to ensure confidentiality, or it may just not be reliable because of high wage earners tending above average not to answer income questions. An important example for this problem is the German IAB Employment Sample (IABS), which is based on administrative data from the social security systems. Here, right-censoring of wages occurs due to the contribution limit in the German social security system. If earnings are to be analyzed from right-censored or top-coded data, standard models cannot be applied. We treat this problem as a missing data problem and use multiple imputation approaches to impute the censored wages by draws of a random variable from a truncated distribution, based on Markov chain Monte Carlo techniques. In this dissertation thesis new single and multiple imputation methods allowing for heteroscedasticity are suggested. Whereas one goal of the thesis is to present new imputation approaches that are applicable for right-censored wages, a main objective is also to confirm the validity of multiple imputation approaches for right-censored wages in general and to show the superiority of the new multiple imputation approach considering heteroscedasticity in a wide range of situations. To assess the validity of this approach, we also develop alternative approaches using uncensored wage information from a survey (German Structure of Earnings Survey, GSES). Simulation studies are performed to compare the different imputation approaches under different situations and to show the superiority of the new approach working without external information. Additionally, analyses that were done with the IABS are replicated to demonstrate the validity of imputed wage data.
Das Analysepotential einer Vielzahl von Mikrodatensätzen ist durch die Zensierung von Variablen beeinträchtigt. Das Auftreten von Zensierung kann vielfältige Ursachen haben und ist besonders häufig bei Lohn- und Einkommensvariablen zu finden. Ein Grund für dieses Problem kann sein, dass die Daten aufgrund von Schwierigkeiten bei der Datenerhebung nicht vollständig verfügbar sind. Weiterhin werden sensible Variablen oftmals künstlich zensiert, um die Vertraulichkeit der erhobenen Daten zu gewährleisten oder Angaben am oberen Rand sind schlicht nicht zuverlässig, da beispielsweise die Empfänger hoher Einkommen überdurchschnittlich dazu neigen Fragen zum Einkommen nicht zu beantworten. Ein wichtiges Beispiel für einen Mikrodatensatz bei dem das Problem der Zensierung auftritt ist die IAB-Beschäftigtenstichprobe (IABS), die auf administrativen Daten der Sozialversicherung basiert. Im Fall der IABS ist die Lohninformation aufgrund der Beitragsbemessungsgrenze im deutschen Sozialversicherungssystem zensiert. Sollen Löhne auf Basis rechtszensierter Daten analysiert werden, ist es nicht möglich auf Standardmodelle und –verfahren zurückzugreifen. Wir behandeln daher das Problem der Zensierung als ein Problem fehlender Daten und verwenden verschiedene Ansätze zur Ergänzung der zensierten Löhne durch Züge einer Zufallsvariable aus einer gestutzten Verteilung basierend auf Markov-chain-Monte-Carlo-Technik. In dieser Dissertation werden zusätzlich sowohl neue einfache als auch mehrfache Imputationverfahren unter Beachtung von Heteroskedastizität vorgeschlagen. Während es ein Ziel der Arbeit ist, diese neuen Imputationsverfahren für rechtszensierte Löhne zu entwickeln, liegt ein weiterer Fokus darauf, die generelle Anwendbarkeit von multiplen Imputationsverfahren für das Problem der Zensierung im Fall von Lohndaten nachzuweisen und die Überlegenheit des vorgeschlagenen neuen multiplen Imputationsverfahren unter Berücksichtigung von Heteroskedastizität gegenüber herkömmlichen Verfahren in einer Vielzahl von Simulationsstudien zu demonstrieren. Zur Beurteilung der Anwendbarkeit dieses neuen Ansatzes werden außerdem alternative Ansätze unter Verwendung von unzensierten Lohninformationen aus einer Befragung (Gehalts- und Lohnstrukturerhebung, GLS) entwickelt. Anschließend werden ebenfalls Simulationsstudien durchgeführt, um die verschiedenen Imputationsverfahren in verschiedenen Situationen zu vergleichen und die Überlegenheit des neuen Ansatzes, welches ohne externe Information auskommt, zu zeigen. Darüber hinaus werden Analysen die typischerweise mit der IABS durchgeführt werden repliziert, um nochmals die Anwendbarkeit der imputierten Lohndaten zu demonstrieren.
GND Keywords: ; ; ; ;
Lohn
Personenbezogene Daten
Zufallsvariable
Zensierte Stichprobe
Markov-Ketten-Monte-Carlo-Verfahren
Keywords: ; ; ; ; ; ; ; ; ; ; ; ;
Multiple Imputation, fehlende Werte, zensierte Lohndaten, Markov chain Monte Carlo, Simulationsstudie, Imputationstechnik
Multiple imputation, top-coding, censored wage data, Markov chain Monte Carlo, simulation study
Multiple Imputation
fehlende Werte
zensierte Lohndaten
Markov chain Monte Carlo
Simulationsstudie
Imputationstechnik
Multiple imputation
top-coding
censored wage data
Markov chain Monte Carlo
simulation study
DDC Classification:
RVK Classification:
Type:
Doctoralthesis
Activation date:
September 17, 2010
Permalink
https://fis.uni-bamberg.de/handle/uniba/225