Hyphe: web corpus curation tool & links crawler - Sciences Po Accéder directement au contenu
Logiciel Année : 2022

Hyphe: web corpus curation tool & links crawler

Benjamin Ooghe-Tabanou
Mathieu Jacomy
Guillaume Plique
Paul Girard

Résumé

An open source research-driven web crawler allowing researchers to build corpora made of hyperlinked webpages about a specific topic. Hyphe provides a tool to build web corpus by crawling data from the web and generating networks between what we call "web entities", which can be single pages as well as a website, subdomains or parts of it, or even a combination of those. They represent different actors of the issue at hand (for instance, a person, an organization, etc.). By crawling them, Hyphe builds iteratively and helps visualize a network graph of the relationships between these actors through the hyperlinks connecting the webentities. New webentities are automatically suggested after they were discovered by crawling each entities hyperlinks, and researchers can then review them in an iterative and qualitative process. As it allows researchers to manually choose and then tag which actors they want to add to their corpus, Hyphe should be considered as a quali-quantitative tool.
Hyphe est un logiciel libre de type "crawler web" permettant aux chercheurs de créer des corpus constitués de pages web et de liens entre elles sur un sujet spécifique. Ces pages web sont sélectionnées par les chercheurs et peuvent être regroupées en « webentités », qui peuvent être des pages individuelles, des sites web, des sous-domaines ou même une combinaison de ceux-ci. Ces entités représentent différents acteurs de la problématique à traiter (par exemple, une personne, une organisation, etc.). En les crawlant, Hyphe permet de construire itérativement et de visualiser un réseau des relations entre ces acteurs à travers les hyperliens reliant ces webentités. De nouvelles webentités sont automatiquement suggérées en explorant les hyperliens de chaque entité présente dans le corpus. Les chercheurs peuvent ensuite les examiner dans un processus itératif et qualitatif. Hyphe permet aux chercheurs de choisir et de catégoriser manuellement les acteurs qu'ils souhaitent ajouter à leur corpus. À ce titre, il doit être considéré comme un outil quali-quantitatif.

Mots clés

Dates et versions

hal-03903663 , version 1 (16-12-2022)

Identifiants

Citer

Benjamin Ooghe-Tabanou, Mathieu Jacomy, Guillaume Plique, Paul Girard. Hyphe: web corpus curation tool & links crawler. 2022, ⟨swh:1:dir:fd7d09aedcef215682ea25b3f86e21e8dc6dfc09⟩. ⟨hal-03903663⟩
75 Consultations
6 Téléchargements

Altmetric

Partager

Gmail Facebook X LinkedIn More