Compliance-Leitfaden zur Webarchivierung

Diese Empfehlungen sollen Webentwicklern dabei helfen, ihre Seiten so zu gestalten, dass möglichst vollständige und qualitativ hochwertige Webarchivierungen möglich sind. Sie basieren auf den Kriterien des UK Government Web Archive des Nationalarchivs des Vereinigten Königreichs.

HTML-Versionen und HTTP-Protokolle

Alle bisherigen Versionen von HTML können archiviert und wiedergegeben werden. Stellen Sie sicher, dass alle Inhalte Ihrer Website entweder über HTTP oder HTTPS bereitgestellt werden.

Video-, Infografik-, Audio- und Multimedia-Inhalte

Streaming-Inhalte können nicht erfasst werden. Solche Inhalte müssen zusätzlich über progressives Herunterladen via HTTP oder HTTPS zugänglich gemacht werden, mit absoluten URLs, bei denen die Quell-URL nicht verborgen ist.

Verlinken Sie audiovisuelle Inhalte mit absoluten und nicht mit relativen URLs.

Stellen Sie Transkriptionen für alle Audio- und Video-Inhalte zur Verfügung.

Bieten Sie alternative Zugriffsmöglichkeiten auf Informationen, die in Infografiken, Videos oder Animationen enthalten sind.

Inhalte, die durch Cross-Domain-Dateien oder in Cross-Domain-iframes geschützt sind, können in der Regel nicht erfasst werden. Dies betrifft vor allem Multimedia-Inhalte, die auf einer anderen Domain gehostet und in eine Webseite eingebettet sind. Stellen Sie sicher, dass solche Inhalte dem Webarchiv-Crawler auf einem anderen Weg zugänglich sind.

Dokumente und Dateifreigabe

Dateiinhalte, die auf kollaborativen Plattformen oder Datei-Hosting-Diensten wie SharePoint, Google Docs und Box gehostet werden, können nicht erfasst werden. Um die Zugänglichkeit zu gewährleisten, sollten diese Inhalte alternativ als herunterladbare Dateien auf der Hauptdomain bereitgestellt werden.

Seitenstruktur und Sitemaps

Fügen Sie eine HTML-Sitemap hinzu, die für Menschen lesbar ist. Dies verbessert die Zugänglichkeit, insbesondere für Benutzer, die die archivierte Version verwenden, da sie eine Alternative zu interaktiven Funktionen bietet.

Erstellen Sie außerdem eine XML-Sitemap. Diese beschleunigt die Erfassung und Qualitätskontrolle der Website erheblich. Weitere Informationen unter: https://www.sitemaps.org/. Die Sitemap sollte im robots.txt-Datei angegeben werden (siehe RFC 9309).

Wenn möglich, sollten alle Inhalte unter einer einzigen Root-URL verfügbar sein. Inhalte, die unter einer anderen Root-URL, auf Subdomains oder Microsites gehostet werden, werden möglicherweise nicht erfasst. Dies betrifft z. B. Inhalte, die in der Cloud (z. B. amazonaws.com), Newsletter auf Plattformen wie Mailchimp oder Dienste, die auf anderen Domains laufen, gehostet werden.

Wenn Sie Paginierung verwenden (../page1, ../page2 usw.), müssen alle URL-Versionen, die durch die Paginierung erzeugt werden, in der HTML- oder XML-Sitemap enthalten sein. Andernfalls kann es sein, dass der Crawler sie als potenzielle Crawling-Falle interpretiert und nicht über ein bestimmtes Level hinausgeht.

Links und URLs

„Verwaiste“ Inhalte (also solche, die nicht über Ihre Website verlinkt sind) werden nicht erfasst. Sie müssen diese Links entweder in einer XML-Sitemap oder in einer zusätzlichen Liste mit URLs bereitstellen, bevor die Erfassung beginnt.

Links in Binärdateien, die mit der Website verbunden sind (.pdf, .doc, .docx, .xls, .xlsx, .csv), können nicht erfasst werden. Inhalte, die in solchen Dateien verlinkt sind, müssen zusätzlich auf einfachen Webseiten verlinkt sein oder in einer Sitemap oder URL-Liste enthalten sein, die vor der Erfassung übermittelt wird.

Verwenden Sie möglichst sprechende URLs wie https://meineseite.com/news/neuer-bericht statt z. B. https://meineseite.com/5lt35hwl. Dies erleichtert die spätere Weiterleitung auf archivierte Inhalte.

Vermeiden Sie dynamisch generierte URLs.

Dynamische Inhalte und Skripte

Clientseitige Skripte sollten nur dann verwendet werden, wenn sie für die jeweilige Funktion am besten geeignet sind.

Alle clientseitigen Skripte müssen im öffentlichen Web sichtbar sein – verwenden Sie keine Verschlüsselung, um sie zu verbergen.

Lagern Sie den Skript-Code wenn möglich in separate, leicht zugängliche Dateien aus (z. B. mit der Endung .js), anstatt ihn direkt in die Seiten einzubinden. Dies erleichtert die Fehlerbehebung.

Vermeiden Sie dynamisch erzeugte Datumsangaben. Verwenden Sie ein serverseitig generiertes Datum anstelle eines clientseitigen. Ein dynamisch erzeugtes Datum zeigt in einer archivierten Version immer das aktuelle Datum an.

Inhalte, die über clientseitige Skripte dynamisch generiert werden, können nicht erfasst werden. Dies kann sich auf die Archivierung von Websites auswirken, die auf diese Weise erstellt wurden.

Sorgen Sie dafür, dass Inhalte mit dem Element <noscript> zugänglich und lesbar bleiben.

Wenn Sie JavaScript verwenden, setzen Sie auf den Ansatz des „progressive enhancement“:

Schreiben Sie semantischen, standardkonformen (X)HTML- oder HTML5-Code
Fügen Sie eine Darstellungsebene über CSS hinzu
Ergänzen Sie interaktive Funktionen mit JavaScript

Beispiel für problematischen JavaScript-Code:

javascript:__doPostBack(‘ctl00$ContentPlaceHolder1$gvSectionItems’,’Page$1′)

Bevorzugte Alternative:

<a href=”content/page1.htm”

onclick=”javascript:__doPostBack(‘ctl00$ContentPlaceHolder1$gvSectionItems’,’Page$1′)>“1<a>

Gestalten Sie Ihre Seiten so, dass sie auch in Browsern funktionieren, die JavaScript nicht unterstützen.

Stellen Sie alternative Zugriffsmöglichkeiten bereit, z. B. als einfache HTML-Seite.

Interaktive Diagramme, Karten und Grafiken

Vermeiden Sie nach Möglichkeit interaktive Inhalte, da diese nur schwer mit voller Funktionalität archiviert werden können.

Wenn interaktive Inhalte (Diagramme, Karten usw.) notwendig sind, stellen Sie eine alternative Zugriffsmöglichkeit zur Verfügung, die vom Crawler erfasst werden kann. Die zugrunde liegenden Daten sollten als einfache Text- oder CSV-Dateien zur Verfügung gestellt werden. Für bestimmte Inhalte kann eventuell auch experimentelle Technologie eingesetzt werden – wenden Sie sich bitte an uns, wenn dies zutrifft.

Menüs, Suchfunktionen und Formulare

Verwenden Sie statische Links, Linklisten oder einfache Sprungmarken in Menüs, anstelle von JavaScript oder dynamisch generierten URLs.

Funktionen, die das Drücken eines „Senden“-Buttons erfordern (z. B. Dropdowns, Formulare, Suchfelder, Checkboxen), sind schwer archivierbar. Stellen Sie alternative Zugriffsmöglichkeiten bereit und listen Sie diese Links auf, bevor die Erfassung beginnt.

Datenbankfunktionen und Suchabfragen

Wenn eine Seite zur Unterstützung ihrer Funktionen Datenbanken verwendet, können diese nur begrenzt erfasst werden. Schnappschüsse von datenbankgestützten Seiten können erfasst werden, wenn sie über eine Abfragekette abgerufen werden können, aber die zugrunde liegende Datenbank, mit der die Seiten gefüttert werden, kann nicht erfasst werden.

Beispielsweise sollte der unter https://www.meineseite.lu/mypage.aspx?id=12345&d=true generierte Inhalt erfasst werden können, da die Seite dynamisch generiert wird, wenn sie vom Webarchiv-Crawler angefordert wird, genauso wie es bei einer Standardanfrage des Benutzers der Fall wäre. Dies ist möglich, wenn die Daten mithilfe einer HTTP-GET-Anfrage abgerufen werden, wie im obigen Beispiel.

POST-Abfragen und Ajax

Inhalte, die auf HTTP-POST-Anfragen beruhen, können nicht archiviert werden, da kein Abfragestring generiert wird. POST-Parameter mögen zwar in bestimmten Situationen wie Suchanfragen geeignet sein, es muss jedoch unbedingt sichergestellt werden, dass der Inhalt auch über einen für den Webarchiv-Crawler sichtbaren URL-Anforderungsstring zugänglich ist, da er sonst nicht erfasst wird.

Es ist unwahrscheinlich, dass Inhalte, die HTTP POST-Anfragen, Ajax oder ähnliche Technologien verwenden, erfolgreich erfasst und wiedergegeben werden können.

Sofern möglich, sollte eine alternative Methode für den Zugriff auf diesen Inhalt bereitgestellt werden. Eine Liste schwer erreichbarer Links sollte ebenfalls bereitgestellt werden, entweder in Form einer XML-Sitemap oder einer zusätzlichen URL-Liste, bevor die Erfassung gestartet wird.

W3C-Konformität

Eine Website, die den W3C Web Accessibility-Standards entspricht lässt sich in der Regel leichter archivieren.

Verwenden Sie einfache, standardkonforme Webtechniken. Die W3C-Richtlinien ermöglichen kreative Gestaltungen, ohne die Funktionalität zu beeinträchtigen. Komplexe oder nicht standardisierte Designs erhöhen die Wahrscheinlichkeit, dass Nutzer, Archivierungssysteme oder Suchmaschinen Probleme mit der Seite haben.

Website-Backups (als Dateien)

Sicherungskopien oder Snapshots von CMS-Systemen, Datenbanken, Laufwerken, CDs, DVDs oder anderen externen Medien können nicht akzeptiert werden. Nur Snapshots, die von einem Webarchivierungs-Crawler erstellt wurden, sind zulässig.

Intranet und geschützter Inhalt

Inhalte, die durch Benutzeranmeldung geschützt sind, können nicht archiviert werden – auch dann nicht, wenn Zugangsdaten zur Verfügung gestellt werden.

Wenn Inhalte aus Datenschutzgründen geschützt sind, sollten sie es bleiben, bis sie öffentlich zugänglich gemacht werden können. In anderen Fällen kann es ratsam sein, sich mit dem Informationsmanagement-Team in Verbindung zu setzen, um andere Formen der Erhaltung zu prüfen.