Guides de conformité pour l’archivage du web

Ces recommandations visent à aider les développeurs de sites web à optimiser leurs sites pour permettre des captures plus complètes et de meilleure qualité. Elles sont basées sur les critères établis par les Archives nationales du Royaume-Uni pour l’UK Government Web Archive.

Versions HTML et protocoles HTTP

Toutes les versions HTML peuvent être archivées et reproduits. Assurez-vous que tout le contenu de votre site est présenté via le protocole HTTP ou HTTPS.

Contenus vidéo, infographiques, audio et multimédia

Les contenus en streaming ne peuvent pas être capturés et doivent également être rendus accessibles par téléchargement progressif via HTTP ou HTTPS, avec des URL absolues, où l’URL source n’est pas masquée.

Liez les contenus audiovisuels avec des URL absolues au lieu d’URL relatifs.

Fournissez des transcriptions pour tous les contenus audio et vidéo.

Proposez des alternatives aux contenus présentés sous forme d’infographies, de vidéos ou d’animations.

Le contenu protégé par un fichier inter-domaine ou dans une iframe inter-domaine ne peut généralement pas être capturé. Cela s’applique le plus souvent au contenu multimédia intégré à des pages web mais hébergé sur un autre domaine. Si du contenu entre dans cette catégorie, veillez à ce qu’il soit accessible au robot d’archivage par une autre méthode.

Documents et partage de fichiers

Le contenu de fichiers hébergé sur des plateformes collaboratives ou de partage de fichiers comme SharePoint, Google Docs et Box ne peut pas être capturé. Pour assurer l’accessibilité, ces fichiers doivent être proposés sous une autre forme, par exemple en tant que fichiers téléchargeables hébergés sur le domaine principal.

Structure du site et sitemaps

Incluez une carte du site HTML lisible par l’humain. Cela rend le contenu plus accessible, notamment pour les utilisateurs consultant la version archivée, car elle constitue une alternative aux fonctionnalités interactives.

Créez également un sitemap XML. Cela accélère considérablement la capture et la vérification de la qualité des archives du site. Voir https://www.sitemaps.org/ pour plus d’informations. Liez le sitemap dans le fichier robots.txt (RFC 9309).

Dans la mesure du possible, gardez tout le contenu sous une seule URL racine. Le contenu hébergé sous des URL racines autres que le domaine cible, les sous-domaines ou les microsites est peu susceptible d’être capturé. Cela concerne par exemple les documents hébergés dans le cloud (comme amazonaws.com), les newsletters hébergées par des services tels que Mailchimp ou les services passant par des domaines externes.

Si vous utilisez la pagination (../page1, ../page2, etc.), vous devrez également inclure toutes les URL issues de cette structure de pagination dans votre sitemap de navigation ou XML, car le robot peut parfois interpréter à tort ces modèles récurrents comme des pièges à robot et ne pas explorer au-delà d’un certain niveau.

Liens et URLs

Le contenu « orphelin » (c’est-à-dire non lié depuis votre site) ne sera pas capturé. Vous devrez fournir une liste de ces liens sous forme de sitemap XML ou de liste d’URL complémentaire avant le lancement de la capture.

Les liens dans des fichiers binaires joints au site (.pdf, .doc, .docx, .xls, .xlsx, .csv) ne peuvent pas être capturés. Toutes les ressources liées dans ces fichiers doivent également être présentes sur des pages web simples, ou vous devrez fournir une liste de ces liens sous forme de sitemap XML ou de liste complémentaire.

Dans la mesure du possible, utilisez des URLs explicites, comme https://monsite.com/actualites/nouveau-rapport, plutôt que https://monsite.com/5lt35hwl. Cela facilite également les redirections vers les archives web.

Évitez les URLs générées dynamiquement.

Contenu et scripts dynamiques

Les scripts côté client ne doivent être utilisés que s’ils sont les plus appropriés pour leur usage.

Assurez-vous que tout script côté client est publiquement visible sur Internet – n’utilisez pas de cryptage pour le masquer.

Dans la mesure du possible, conservez votre code dans des fichiers de script séparés facilement accessibles (par ex. avec une extension .js) plutôt que directement dans les pages, car cela facilite la résolution des problèmes.

Évitez les fonctions de date générées dynamiquement. Utilisez la date générée par le serveur, pas celle générée côté client. Une date générée dynamiquement affichera toujours la date du jour dans une version archivée.

Le contenu généré dynamiquement via des scripts côté client ne peut pas être capturé. Cela peut affecter l’archivage de sites construits de cette manière.

Veillez à ce que le contenu reste lisible et les liens accessibles en utilisant l’élément <noscript>.

Lorsque vous utilisez JavaScript, suivez l’approche de « progressive enhancement » :

Codez en (X)HTML ou HTML5 sémantique et conforme aux standards
Ajoutez une couche de présentation via CSS
Ajoutez des interactions utilisateur enrichies avec JavaScript

Exemple de combinaison JavaScript problématique :

javascript:__doPostBack(‘ctl00$ContentPlaceHolder1$gvSectionItems’,’Page$1′)

Exemple préféré d’URL bien structurée :

<a href=”content/page1.htm”

onclick=”javascript:__doPostBack(‘ctl00$ContentPlaceHolder1$gvSectionItems’,’Page$1′)>“1<a>

Concevez toujours pour des navigateurs ne prenant pas en charge JavaScript.

Fournissez des alternatives d’accès, comme du HTML simple.

Graphiques, cartes et visualisations interactives

Évitez, si possible, le contenu interactif, difficile à archiver avec toutes ses fonctionnalités.

Pour les éléments interactifs essentiels (graphes, cartes, etc.), proposez des méthodes alternatives compatibles avec les robots. Les données sous-jacentes doivent être disponibles sous forme simple (.txt ou .csv). Des technologies expérimentales peuvent parfois capturer ce contenu – veuillez nous contacter si cela vous concerne.

Menus, recherche et formulaires

Utilisez des liens statiques, listes de liens ou ancres simples pour les menus, plutôt que JavaScript ou des URLs générées dynamiquement.

Les fonctions nécessitant un bouton « soumettre » (menus déroulants, formulaires, recherche, cases à cocher) sont difficilement archivables. Fournissez une alternative et une liste des liens difficilement accessibles avant la capture.

Fonctions de base de données et de recherche

Si un site utilise des bases de données pour soutenir ses fonctions, celles-ci ne peuvent être capturées que de manière limitée. Des instantanés de pages basées sur des bases de données peuvent être capturés s’ils peuvent être récupérés via une chaîne de requête, mais la base de données sous-jacente utilisée pour alimenter les pages ne peut pas être capturée.

Par exemple, le contenu généré à l’adresse https://www.mywebsite.lu/mypage.aspx?id=12345&d=true devrait pouvoir être capturé, puisque la page est générée dynamiquement lorsqu’elle est demandée par le robot d’archivage, tout comme elle le serait pour une demande standard de l’utilisateur. Cela est possible lorsque les données sont récupérées à l’aide d’une requête HTTP GET, comme dans l’exemple ci-dessus.

Requêtes POST et Ajax

Le contenu qui repose sur des requêtes HTTP POST ne peut pas être archivé, car aucune chaîne de requête n’est générée. Si les paramètres POST peuvent convenir dans certaines situations, comme les requêtes de recherche, il est essentiel de s’assurer que le contenu est également accessible via une chaîne de requête URL visible par le robot d’archivage, faute de quoi il ne sera pas capturé.

Il est peu probable que le contenu utilisant des requêtes HTTP POST, Ajax ou des technologies similaires puisse être capturé et rejoué avec succès.

Dans la mesure du possible, une autre méthode d’accès à ce contenu doit être fournie. Une liste des liens difficiles à atteindre doit également être fournie, sous la forme d’un plan du site XML ou d’une liste d’URL supplémentaire, avant le lancement de la capture.

Conformité W3C

Un site conforme aux recommandations du W3C Web Accessibility est généralement plus facile à archiver.

Utilisez des techniques web simples et standards. Les recommandations du W3C permettent une grande créativité sans compromettre la fonctionnalité. Les conceptions complexes ou non standard augmentent les risques de problèmes pour les utilisateurs, l’archivage et l’indexation.

Sauvegardes de site web (sous forme de fichiers)

Les « dumps » ou sauvegardes de sites issus de CMS, bases de données, disques, CD, DVD ou autres supports externes ne peuvent pas être acceptés. Seuls les instantanés capturés par un robot d’archivage sont éligibles.

Intranet et contenu sécurisé

Le contenu protégé par un identifiant ne peut pas être archivé, même si les identifiants sont fournis.

Si le contenu est restreint pour des raisons de confidentialité, il doit le rester jusqu’à ce qu’il puisse être rendu public. Autrement, il est conseillé de consulter l’équipe de gestion de l’information pour explorer d’autres méthodes de conservation.