Cost Setting in Optimal Matching to Uncover Contemporaneous Socio-Temporal Patterns - Sciences Po Accéder directement au contenu
Autre Publication Scientifique Année : 2009

Cost Setting in Optimal Matching to Uncover Contemporaneous Socio-Temporal Patterns

Résumé

This article addresses the question of the effects of cost setting on the kind of temporal patterns Optimal Matching (OM) can uncover when applied to social science data. It is argued that the balance between indel (insertion and deletion) and substitution costs determines what kind of socio-temporal pattern can be brought to light. Insertion and deletion operations favor identically coded states irrespective of their locations whereas substitutions ones focus on contemporaneous similarities. The lower the ratio of substitution to indel costs, the closer OM is to the Hamming distance where only substitutions are used. The higher this ratio, the closer OM is to the Levenshtein II distance, which amounts to finding the longest common subsequence. When the timing of sequences is crucial, substitutions should be favored over indels and their costs should be carefully fixed. Ideally, substitution costs should vary with time to better take into account the timing of the sequences studied. As indels warp time, hence the timing of sequences, it is suggested to use only substitution operations with time-dependent costs inversely proportional to transition frequencies whenever the timing of sequences is central. This OM variant, coined Dynamic Hamming Matching, is applied to the question of the scheduling of paid work where timing is critical (1985 and 1999 French time-use surveys, N = 7908) along with three classical OM variants (Hamming and Levenshtein I and II). As expected, the two Hamming dissimilarity measures fare better to identify patterns of workday schedules, as measured by entropy, than the two Levenshtein ones.
Cet article traite de la question des effets des coûts sur les types de régularités temporelles que les Méthodes d'Appariement Optimal (MAO) permettent de mettre au jour en sciences sociales. L'équilibre entre les coûts d'insertion et suppression (indel) et de substitution détermine le type de régularité temporelle. Alors que les insertions-suppressions privilégient les états codés identiquement à leur timing, les substitutions respectent le timing des événements au prix de leur simplification lorsqu'ils sont différents. Plus le ratio du coût de substitution sur le coût d'insertion-suppression est faible, plus les MAO sont portées vers la distance de Hamming où seules les substitutions sont utilisées. Plus il est élevé, plus les MAO s'approchent de la distance de Levenshtein II qui consiste à trouver la sous-séquence commune la plus longue. Quand le timing des séquences est de toute première importance, les opérations de substitution doivent être privilégiées aux insertions-suppressions et leurs coûts déterminés avec soin. Idéalement, les coûts de substitution devraient varier avec le temps de manière à mieux prendre en compte le timing des séquences étudiées. Comme les opérations d'insertion-suppression déforment le temps, donc le timing des séquences, il est suggéré de n'utiliser que des substitutions avec des coûts qui varient avec le temps inversement proportionnels aux fréquences de transitions toutes les fois que le timing des séquences est central pour l'analyse. Variante des MAO proche de la distance de Hamming, le Dynamic Hamming Matching est appliqué à la question des horaires de travail en France en 1985 et 1999 (N = 7 908) et comparé à trois variantes des MAO (Hamming et Levenshtein I et II). Conformément à ce que l'on pouvait attendre, les deux variantes de Hamming apparaissent meilleures, en termes d'entropie, pour identifier les types de journées de travail que les deux distances de Levenshtein.

Domaines

Sociologie
Fichier principal
Vignette du fichier
nd_2009_03.pdf (2.08 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)
Loading...

Dates et versions

halshs-00435428 , version 1 (24-11-2009)

Identifiants

  • HAL Id : halshs-00435428 , version 1

Citer

Laurent Lesnard. Cost Setting in Optimal Matching to Uncover Contemporaneous Socio-Temporal Patterns. 2009. ⟨halshs-00435428⟩
349 Consultations
383 Téléchargements

Partager

Gmail Facebook X LinkedIn More