Skip to Main content Skip to Navigation
Conference papers

Le DataSprint ResPaDon : une expérimentation interdisciplinaire autour de la constitution et de l’analyse de corpus issus des Archives de l’internet en lien avec le Web « vivant »

Résumé : Depuis les années 1990, la constitution de collections massives de documents numérisés ou nativement numériques de la part des institutions patrimoniales et documentaires ouvre de nouvelles opportunités pour la recherche et permet un renouvellement aussi bien des méthodes d’exploitation de corpus documentaires que des modèles d’interaction entre professionnels de l’information et acteurs du monde académique. Soutenu par le GIS CollEx-Persée et initié en 2021, le projet ResPaDon (RÉSeau de PArtenaires pour l’analyse et l’exploration de DOnnées Numériques) vise à constituer un exemple reproductible de mise à disposition de collections numériques à distance et d’offre de services associés en se focalisant sur le cas particulier de la collection des Archives de l’Internet conservée par la Bibliothèque nationale de France (BnF). Ce projet de trois ans, porté par l’Université de Lille et la BnF en partenariat avec Sciences Po et le Campus Condorcet, a également vocation à offrir à la communauté de recherche et des professionnels de l’information la possibilité de s’approprier et de relayer des méthodes et des outils dédiés à la constitution, l’analyse et la diffusion de corpus issus du Web. Les principaux axes de travail du projet consistent d’abord à analyser les usages actuels et potentiels des Archives de l’Internet, ensuite à expérimenter des dispositifs d'accès et des méthodes d’exploitation de ces données et enfin à en déduire des préconisations en matière de processus, de services, de dispositifs d’accompagnement, de compétences et d’outils nécessaires. Cette communication se propose d'interroger les potentialités techniques et épistémologiques qu'offre l'application de méthodes et d'approches issues des Humanités numériques à la collection des Archives de l'Internet de la BnF. Dans cette perspective, elle se focalise sur une expérimentation prévue dans le cadre du work package 4 (WP4) du projet qui a pour objectif d’adapter le crawler Hyphe, développé par le médialab de Sciences Po, aux Archives de l’Internet. L’intérêt de cette expérimentation est de déterminer si des logiciels de constitution et de curation de corpus utilisés sur le Web « vivant » peuvent fonctionner sur des corpus issus du Web « archivé », et si des logiques d’approche comparative entre les deux sont possibles. Pour tester ces hypothèses, le groupe de travail du WP4 a choisi d’organiser un « datasprint » qui a réuni pendant une semaine, du 4 au 8 avril 2022, des équipes composées de chercheurs, d’ingénieurs de recherche et de spécialistes des archives de l’Internet au sein du BnF DataLab, nouvel espace dédié au développement des Humanités numériques à la BnF. Un datasprint est un moment exploratoire en temps contraint, un lieu de rencontre et d’échange interdisciplinaire, l’occasion d’expérimenter des formes de socialité liées au travail sur les données. La concentration dans le temps et dans l’espace de compétences complémentaires est la clé qui permet de lever les verrous techniques et méthodologiques qui empêchent généralement de tirer le meilleur parti des traces numériques. Le cadre particulier du datasprint permet, par la discussion collective, de sélectionner les pistes interprétatives qui font sens ensemble et de les organiser en une narration lisible hors des frontières du groupe. Des outils, des images, des données… La nécessité d’être passeur de sens dans un temps très court encourage la mobilisation d’autres moyens que l’écriture d’un texte. Ainsi, les projets des datasprints tendent à donner lieu à de nouvelles formes de récits, qui racontent autant le résultat (la connaissance produite) que le processus mis en œuvre pour y parvenir. Nous nous proposons dans cette communication de dresser un premier bilan de ce datasprint, d'en restituer le protocole, les méthodes de recherche, les sources interrogées et les résultats.
Keywords : Web Archives Crawlers
Complete list of metadata

https://hal-sciencespo.archives-ouvertes.fr/hal-03688620
Contributor : Eleonora Moiraghi Connect in order to contact the contributor
Submitted on : Sunday, June 5, 2022 - 3:11:57 PM
Last modification on : Wednesday, June 8, 2022 - 6:24:01 PM

File

RESPADON_diaporama_comm_Humani...
Files produced by the author(s)

Licence


Distributed under a Creative Commons Attribution - NonCommercial - NoDerivatives 4.0 International License

Identifiers

  • HAL Id : hal-03688620, version 1

Collections

Citation

Audrey Baneyx, Dorothée Benhamou-Suesser, Eleonora Moiraghi. Le DataSprint ResPaDon : une expérimentation interdisciplinaire autour de la constitution et de l’analyse de corpus issus des Archives de l’internet en lien avec le Web « vivant ». Colloque Humanistica 2022, Association francophone des humanités numériques, May 2022, Montréal, Canada. ⟨hal-03688620⟩

Share

Metrics

Record views

0

Files downloads

0