Archives du web

Archives du web

La Bibliothèque nationale conserve le web luxembourgeois qu’elle considère comme une partie du patrimoine numérique du pays. Les sites Internet sont en constante évolution et leurs versions précédentes disparaissent du paysage si on n’intervient pas. En capturant et stockant les sites Internet à différents moments, nos archives du web illustrent les changements qui s’opèrent dans la société, la culture et les connaissances luxembourgeoises. Elles offrent un service précieux aux propriétaires de sites web en préservant les contenus qu’ils ont créés et constituent une ressource unique pour les chercheurs et les historiens en permettant aux générations futures d’explorer et d’étudier le passé numérique.

Contenus

Informations générales

La BnL préserve une vaste sélection de sites web pour conserver une trace de l’héritage numérique du Luxembourg. Ces archives concernent tous les sites avec un domaine « .lu » et ceux publiés au Luxembourg. Elles capturent également les sites Internet créés par des Luxembourgeois installés à l’étranger ou étroitement liés au Luxembourg. La BnL explore non seulement le web à large échelle, mais conserve également des collections spéciales sur des thèmes ou événements spécifiques qui nécessitent une attention plus particulière et des captures plus fréquentes. En combinant différentes méthodes (explorations larges, collections thématiques ciblées et captures liées à des événements spécifiques de durée limitée), la BnL s’attelle à préserver les contenus numériques importants pour les générations futures.

Si vous gérez un site web ou créez du contenu, ou si vous connaissez un site luxembourgeois qui mériterait d’être conservé pour l’avenir, n’hésitez pas à nous l’indiquer.

Indiquer un site web

Limites et exhaustivité

La BnL s’efforce d’archiver des sites web aussi complets que possible. Toutefois, des contraintes techniques et pratiques nous empêchent de tout archiver ou de capturer tous les changements d’un site. Nous sélectionnons généralement les sites Internet sur la base de listes de domaines et de suggestions de propriétaires de sites web et de chargés de collections.

Certaines limites nuisent à l’exhaustivité des archives. La capture de sites web nécessite parfois des ressources étendues, et, dans certains cas, seuls des instantanés partiels peuvent être conservés. Sur les réseaux sociaux, la rapidité d’évolution du contenu complique encore les choses. La politique restrictive de ces plateformes en matière d’outils automatisés, comme les robots d’exploration, entrave la collecte systématique de leurs données. Les considérations légales et éthiques sont un autre problème. Si le contenu n’est jamais supprimé des archives, l’accès à certains supports peut être limité si la loi l’impose. Bien qu’elles soient prises en compte, les questions de confidentialité ne prévalent pas automatiquement sur le droit du public à accéder aux informatiques historiques.

Malgré ces difficultés, la BnL poursuit l’extension de ses archives web.

Méthodes d’archivage

Les archives du web de la BnL dépassent le simple instantané ou code. Elle vise à capturer les sites web tels qu’ils sont, en préservant autant que possible leur structure, leur contenu et leurs fonctionnalités.

Le processus débute avec un robot d’exploration du web, un programme automatisé qui parcourt et balaie les sites web à la manière d’un moteur de recherche. Ce programme télécharge systématiquement tous les éléments mis à disposition du public, y compris les textes, les images, les documents et la mise en page, et fournit une copie du site intégrale qui est archivée et peut être consultée exactement comme l’original.

Au fil du temps, la collection s’enrichit des versions successives d’un site web et permet de retracer son évolution. Nos archives du web permettent aux utilisateurs d’explorer ces versions antérieures et de suivre les changements et les développements successifs du site.

Informations pour les webmasters

L’archivage des sites Internet respecte la loi du 25 juin 2004 portant réorganisation des instituts culturels de l’État et le règlement grand-ducal modifié du 6 novembre 2009 relatif au dépôt légal. Ces règlements imposent l’archivage du contenu numérique mis à disposition du public.

Le robot d’exploration et d’archivage du web (« spider ») respecte les indications du fichier robots.txt, à quelques exceptions près. Tout fichier nécessaire à l’affichage complet d’une page web (p. ex. CSS, images) est téléchargé, même s’il figure sur la liste des exclusions de robots.txt. De plus, toutes les pages d’accueil de tous les sites sont collectées, indépendamment des paramètres de robots.txt. La BnL se réserve le droit de modifier cette politique si nécessaire, dans le respect de la législation.

Pour garantir une bonne exploration de votre site web, veuillez consulter nos guides de conformité. Ils vous aideront à préserver votre site web pour les générations futures.

Guides de conformité pour l’archivage du web

Foire aux questions

Où puis-je voir les archives du web et pourquoi ne sont-elles pas disponibles en ligne ?

Les archives du web peuvent uniquement être consultées sur les ordinateurs de la salle de lecture de la Bibliothèque nationale du Luxembourg en raison de restrictions en matière de droit d’auteur. Rendre ces archives accessibles en ligne violerait les droits des propriétaires de ces sites.

Comment les sites web sont-ils sélectionnés pour l’archivage ?

La BnL utilise trois méthodes pour collecter les sites web :

  • Des explorations larges : réalisées quatre fois par an, elles couvrent l’ensemble des sites « .lu » et d’autres domaines définis par les propriétaires de sites web et des contributeurs tiers. Ces explorations photographient le web luxembourgeois tous les trois mois, mais ne peuvent pas capturer les contenus à évolution rapide ou à courte durée de vie.
  • Des collections événementielles : axée sur des événements d’importance nationale, une collection de sites web est constituée de captures réalisées très fréquemment sur une période de temps limitée. Les thèmes typiques des explorations événementielles sont les campagnes électorales, les catastrophes naturelles, ou la crise du coronavirus.
  • Des collections thématiques : ces collections se basent sur des listes fluctuantes. Pour les réaliser, nous comptons sur l’aide et la contribution de spécialistes dans tous les domaines de connaissance. Ces collections sont étoffées au fil du temps par l’ajout de nouveaux sites web, tandis que d’autres sites, qui peuvent avoir disparu, restent accessibles dans les archives web.

Cette combinaison permet d’obtenir une photographie plus complète du patrimoine numérique du Luxembourg, même si les limites techniques et logistiques empêchent inévitablement l’exhaustivité des archives.

Comment savoir si mon site web a été archivé ?

Si votre site web est un domaine « .lu », il est automatiquement inclus dans les explorations larges effectuées régulièrement. Les sites web portant d’autres extensions de domaine (p. ex. « .com », « .de », « .eu ») ne sont pas archivés s’ils n’ont pas été ajoutés manuellement à nos listes d’exploration, par nos propres recherches ou par des suggestions de propriétaires de sites web. Pour être sûr que votre site web est archivé, veuillez prendre contact avec nous ou utiliser le formulaire de suggestion. Toutes les demandes seront analysées et, si elles répondent aux critères, elles seront ajoutées à nos listes d’exploration.

Les propriétaires de sites web peuvent vérifier dans les journaux de leurs serveurs s’ils ont reçu des requêtes de notre logiciel d’exploration identifiées par l’agent utilisateur « NLUX_IAHarvester » avec un lien pour de plus amples informations. Si vous doutez de l’archivage de votre site ou si vous voulez nous faire connaître votre site, n’hésitez pas à prendre contact avec nous.

Puis-je demander que mon site ne soit pas archivé ?

La BnL respecte les réglementations en matière de dépôt légal, ce qui signifie que tous les sites Internet mis à la disposition du public et ayant un lien avec le Luxembourg sont sujets à l’archivage. Nous ne piratons pas les sites, nous ne contournons pas les paramètres de confidentialité et nous ne collectons pas d’informations personnelles au-delà de ce qui est déjà accessible au grand public.

Notre explorateur du web ne collecte que des contenus mis à la disposition du public et respecte de manière générale les exclusions de robots.txt, à l’exception des fichiers essentiels à l’affichage d’un site web (p. ex. CSS, images). Les sites mis hors ligne pour des questions juridiques peuvent rester dans les archives à des fins de recherche mais ne seront plus visibles dans l’archive public.

Si vous souhaitez faire supprimer des versions archivées de votre site web ou exclure d’autres contenus de nos archives web, veuillez nous envoyer votre requête par e-mail en précisant :

  • l’URL ou les URL des sites et contenus web ;
  • la période qu’il faudrait exclure selon vous ;
  • la raison pour laquelle vous pensez que ces URL devraient être exclus ; et
  • toute autre information que vous jugez utile pour une meilleure compréhension de votre requête.

Nous lancerons alors le processus de vérification. Veuillez noter que nous ne pouvons garantir le résultat de votre requête à l’avance.

Archivez-vous les réseaux sociaux ?

Non. Les réseaux sociaux ne sont pas systématiquement archivés, mais nous pouvons capturer du contenu sélectionné au cas-par-cas s’il est pertinent pour le patrimoine numérique luxembourgeois.

Les plateformes de réseaux sociaux limitent aussi l’utilisation d’outils automatisés tels que les explorateurs du web, ce qui complique la collecte systématique de données.

Dernière modification le