De Zotero à HAL, en passant par BetterBibTeX

Saisir les références dans Zotero

Le choix de Zotero comme préalable à l'intégration des notices dans HAL a été dicté par les possibilités qu’offre cet outil pour la gestion à long terme des références bibliographiques.

Nous souhaitons en effet offrir aux laboratoires un service double : signalement de leurs publications dans HAL mais aussi remise d’une bibliothèque collaborative structurée, qui permettrait à chacun de disposer de ses publications pour tout un panel d’autres usages. Nous aurions pu utiliser un autre outil, comme EndNote à l'École des Ponts ParisTech, mais Zotero s’est imposé du fait de sa gratuité : puisque notre objectif à terme est de former les chercheurs à l’utilisation de cet outil, pour ses fonctions bibliographiques comme pour l'intégration en masse dans HAL, il était plus cohérent de proposer un outil libre.

Nous avons donc récolté les listes de publications de nos chercheurs, et les avons entrées manuellement dans Zotero, du fait des nombreuses défaillances d’outils de reconnaissance de caractères comme Anystyle.io. Évidemment, autant que possible, ces références ont été récupérées dans des catalogues de bibliothèques puis éventuellement dédoublées et modifiées (pour les chapitres d’ouvrages par exemple), mais nous avons souvent dû les créer ex-nihilo. Un important travail de vérification et de complément de ces données a été nécessaire, avec l’aide de plusieurs laboratoires-pilotes qui nous ont permis non seulement de mieux connaître le paysage éditorial dans les disciplines concernées, mais aussi de peaufiner notre technique d’alimentation de Zotero, aboutissant à la rédaction d’un guide de bonnes pratiques de saisie très complet pour notre usage interne.

Nous nous sommes également efforcés de fournir à ces laboratoires une bibliothèque Zotero la mieux structurée possible, en l’organisant par équipes, axes de recherche ou types de documents distincts (par exemple les commentaires de jurisprudence, qui sont des articles de revue particuliers) quand cela était pertinent, et en ajoutant si besoin des mots-clés personnalisés pour aider à la constitution de collections et sous-collections.

BetterBibTeX, l'outil magique ?

Tout comme l’Université de La Réunion et les Ponts ParisTech, le problème qui s’est posé à nous concernait les métadonnées obligatoires dans HAL mais absentes de Zotero. Notre premier souci a été d’implémenter certaines informations « en dur », comme le niveau de vulgarisation ou l’audience des publications, qu’il était possible de généraliser (quitte à corriger manuellement ces valeurs directement dans Bib2HAL pour quelques exceptions). Ne pouvant bénéficier de l’aide d’ingénieurs informaticiens dédiés au projet, nous nous sommes tournés vers la communauté des utilisateurs de Zotero, qui nous a signalé l’existence du plug-in BetterBibTeX.

Ce plug-in est développé et maintenu par Emiliano Heyns, également co-créateur du format d’export BibTeX dans Zotero. À l’origine conçu pour aider les utilisateurs de LaTeX à utiliser Zotero dans leurs travaux, il permet d’adapter considérablement l’export des champs bibliographiques du logiciel, grâce notamment à un post-script qu’il est possible de paramétrer à loisir pourvu que l’on maîtrise JavaScript.
Extrait de notre post-script, rédigé en JavaScript
Extrait de notre post-script, rédigé en JavaScript Extrait de notre post-script, rédigé en JavaScript
Avec l’aide précieuse et efficace d’Emiliano Heyns - qu’il me soit permis de le remercier chaleureusement ici, nous avons pu dans notre post-script non seulement ajouter nos informations « en dur », parfois en les conditionnant au type de document concerné, mais également demander à Zotero d’exporter certains champs habituellement exclus des exports BibTeX (comme la cote, la localisation dans l’archive, etc.), et de les renommer pour les rendre conformes aux exigences de Bib2HAL. En nous basant sur la méthode de l’Université de La Réunion, qui avait choisi de modifier directement les formats d’export de Zotero, nous avons ainsi pu fixer le détournement de certains champs de Zotero. Cela est particulièrement utile pour des valeurs qu’il est impossible d’ajouter « en dur » du fait de leur unicité, comme la date de début d’une conférence.

Le post-script que nous utilisons est entièrement commenté et disponible pour le téléchargement dans le volet droit de cette page. Il ne nous dispense pas d’un certain nombre de vérifications dans Zotero :

- encoder la langue sur deux lettres, au format ISO,

- bien purger ou modifier certains champs remplis automatiquement par Zotero, comme le catalogue de bibliothèque (utilisé pour la mention de peerreviewing) ou la date de consultation (utilisé pour la date de début de colloque), sous peine d'intégrer des informations erronées,

- remplir certains champs comme « Type de rapport » en respectant la liste de valeurs définie par HAL.

Ces vérifications peuvent aisément être faites en affichant les colonnes concernées et en les parcourant rapidement.

Équivalences Zotero-HAL
Champ Zotero Champ HAL Type de document concerné
Archive x-onbehalfof Tous
Loc. dans l'archive x-audience Tous
Catalogue de bibliothèque x-peerreviewing Tous
Titre abrégé x-conferencestartdate Article de colloque et poster
Consulté le x-conferenceenddate Article de colloque
Cote x-invitedcommunication Article de colloque et poster
Autorisations x-city Article de colloque et poster
Extra x-country Article de colloque et poster

De Zotero à HAL

Une fois les données nettoyées et complétées dans Zotero, il ne reste plus qu’à exporter la bibliothèque au format BetterBibTeX, et à déposer le fichier .bib ainsi obtenu dans Bib2HAL.

L’étape de vérification des métadonnées aboutit alors presque toujours à une validation totale, même si les étapes de détection des doublons et d’affiliation des auteurs restent indispensables. 

Tout comme nos collègues, nous sommes bien conscients que cette solution reste du domaine du bricolage. En outre, si elle peut être assez facilement adoptée par des personnels dédiés à ce travail de référencement dans HAL et qui y seraient formés, elle reste probablement inaccessible à des chercheurs qui ne seraient pas férus d’informatique. A l'Université Paris Nanterre, 8 chercheurs et chercheuses se sont approprié l'outil et ont importé plus de 200 notices

Entre février 2016 et mai 2018 environ 12500 références ont été sasies dans Zotero, parmi ces références 10500 ont été déposées dans HAL. Les 2000 références manquantes sont dûes à des doublons, à des publication "à paraître" (qui ne peuvent pas être importées via X2HAL), et à des informations manquantes qui bloquaient l'import (des actes colloques pour lesquels nous ne sommes pas parvenu à trouver la date début par exemple).
 

Depuis la fin des imports en 2018, 429 fichiers ont été ajoutés aux notices importées.

Mise à jour 2019


Une mise à jour du script et de la documentation a été réalisée en 2019 afin de l'adapter aux différentes évolutions des logiciels :
  • Passage à la v3 de HAL
  • Passage à la v5 de Zotero
  • Fusion de Bib2HAL et X2HAL
Nous avons aussi profité de cette mise à jour pour rendre le plugin plus complet et permettre l'export de nouveaux types de documents. Voici les principaux éléments de cette mise à jour :
  • Possibilité d'exporter des "Directions d'ouvrages" si l'on renseigne seulement des édtieur·trice·s scientifiques et aucun·e auteur·e dans Zotero
  • Possibilité d'exporter des "Communications sans actes'" si l'on ne renseigne pas le titre des actes dans Zotero
  • Possibilité d'exporter des "Autres types de publication" à partir du type "Article de dictionnaire" dans Zotero
  • Possibilité d'exporter des "Pré-publications" à partir du type "Manuscrit" de Zotero
  • La date de fin de colloque (champ: Consulté le) s'exporte désormais correctement
Ce nouveau script ainsi que sa documentation ont été présentés lors d'un atelier aux journées CasuHAL 2019.

Mis à jour le 21 juin 2019