Probabilistic Model Streamlines Large-Scale Data Merging

Administrative Dataprobabilistic modeldata mergingMethodology @APSR Dataverse

Merging large administrative data sets is challenging due to missing identifiers and inaccurate records. This paper introduces a new algorithm for probabilistic record linkage that handles these issues efficiently at scale.

Data & Methods: We developed a fast, scalable algorithm using a canonical probabilistic model approach. The method accommodates millions of observations while accounting for:

Missing data
Measurement error
Auxiliary information integration
Uncertainty adjustment in post-analysis

Simulation Studies: Our algorithm was tested extensively through realistic scenarios to ensure reliability.

Real Applications: Case studies demonstrate its use in merging campaign contribution records, survey datasets, and voter files. An open-source implementation is available for researchers.

Article card for article: Using a Probabilistic Model to Assist Merging of Large-scale Administrative Records

Using a Probabilistic Model to Assist Merging of Large-scale Administrative Records was authored by Ted Enamorado, Benjamin Fifield and Kosuke Imai. It was published by Cambridge in APSR in 2019.