this issue
previous article in this issuenext article in this issue

Document Details :

Title: Statistical Problems and Solutions in Onomastic Research
Subtitle: Exemplified by a Comparison of Given Name Distributions in Germany throughout the 20th Century
Author(s): HUSCHKA, Denis , WAGNER, Gert G.
Journal: Onoma
Volume: 47    Date: 2012   
Pages: 329-365
DOI: 10.2143/ONO.47.0.3085152

Abstract :
The German Socio Economic Panel Study (SOEP) offers the rare opportunity to look at patterns of given names in a representative sample of more than 50,000 people born since 1900. This article develops an exemplary picture of typical frequency distributions among given names and their development over time. We first discuss the advantages and limitations of various databases which have been widely used to study the distribution of given names. Second, we address the problem that name distributions are typically characterised by a ‘Large Number of Rare Events’ (LNRE) zone. With regard to this phenomenon, we focus our attention on the difficulties associated with comparing name distributions. Third, we apply some measures of the concentration of distributions from other lines of research (economics and computational linguistics). Finally, we stress the problem of the statistical significance of differences in name distribution based on samples.



L’étude du Conseil socio-économique allemand offre la rare possibilité d’étudier les modes des prénoms sur un échantillon représentatif supérieur à 50.000 personnes nées après 1900. Cet article développe une image exemplaire des distributions de fréquences typiques de certains prénoms, ainsi que leur évolution dans le temps. Nous discutons d’abord des avantages et limites des différentes bases de données jusqu’ici largement utilisées pour étudier la distribution des prénoms. Ensuite, nous abordons le fait que la distribution des prénoms est généralement caractérisée par une zone de «grand nombre d’événements rares», et nous attardons sur les difficultés associées à la comparaison des différentes distributions. Après, nous mesurons la concentration des distributions à l’aide d’autres outils de recherche (économie et linguistique informatique). Enfin, nous insistons, à partir d’échantillons, sur la question de la signification statistique des différences dans la distribution des noms.



Das Sozio-oekonomische Panel (SOEP) bietet die seltene Gelegenheit, Vergabemuster von Vornamen im Zeitraum seit 1900 bis heute mit repräsentativen Umfragedaten zu untersuchen. Die Umfrage umfasst mehr als 50.000 Teilnehmer. Der Beitrag gibt einen Überblick über typische Verteilungen von Vornamen in Deutschland und deren Entwicklungen über die Zeit. Zunächst werden Vorteile, Einschränkungen und Grenzen verschiedener Datenbasen der empirischen Vornamensforschung dargelegt. Zweitens wird das methodische Problem der 'Large Number of Rare Events' behandelt, welches Vornamensverteilungen typischerweise charakterisiert und statistische Vergleiche von Vornamensverteilungen schwierig macht. Diesem Problem wurde in der Vergangenheit zu wenig Beachtung geschenkt. Im dritten Teil des Beitrages werden eine Verteilungsmaße (die auch in der Ökonomie und in der Computerlinguistik verwandt werden) unter Beachtung des LNRE Problems auf der Basis des SOEP für Deutschland vorgelegt. Zum Schluss widmen wir uns der statistischen Signifikanz derartiger Vergleichsanalysen auf Basis von Vornamensverteilungen.

Download article