Webarchiv
Die Nationalbibliothek bewahrt das luxemburgische Web als Teil des digitalen Kulturerbes des Landes. Websites entwickeln sich ständig weiter und ältere Versionen verschwinden unbemerkt für die Nachwelt. Unser Webarchiv sammelt, verzeichnet und speichert Momentaufnahmen (Zeitschnitt oder Spiegelung genannt) von Websites zur Dokumentation des gesellschaftlichen, kulturellen und wissenschaftlichen Wandels Luxemburgs. Es bietet Website-Betreibenden einen wertvollen Dienst zur Erhaltung der von ihnen geschaffenen Inhalte und stellt eine einzigartige Ressource für Forschende und Historiker dar, die es zukünftigen Generationen ermöglicht, die digitale Vergangenheit zu erforschen und zu studieren.
Inhalt
Allgemeine Informationen
Das Webarchiv der BnL umfasst eine große Auswahl an Websites zur Dokumentation des digitalen Kulturerbes Luxemburgs. Dies betrifft alle Websites mit der Top-Level-Domain „.lu“ sowie alle in Luxemburg veröffentlichten Websites. Das Archiv umfasst auch Websites, die von im Ausland lebenden Luxemburgern erstellt wurden oder einen engen Bezug zu Luxemburg haben. Neben flächigen Webcrawls erstellt die BnL auch spezielle Sammlungen zu bestimmten Themen oder Ereignissen, die mehr Aufmerksamkeit und eine häufigere Erfassung erfordern. Durch die Kombination verschiedener Verfahren (breit angelegtes Webharvesting, gezielte thematische Sammlungen, ereignisbezogene Erfassungen sich ständig verändernder oder flüchtiger Inhalte) sichert die BnL die Erhaltung wichtiger Online-Publikationen für künftige Generationen.
Wenn Sie eine Website betreiben, Inhalte erstellen oder eine luxemburgische Website kennen, die Sie als archivierungswürdig ansehen, nehmen Sie bitte Kontakt zu uns auf.
Einschränkungen und Vollständigkeit
Die BnL bemüht sich um eine möglichst vollständige Erfassung der Websites. Aus technischen und praktischen Gründen ist es jedoch nicht möglich, alle Inhalte vollständig zu archivieren oder alle Änderungen an einer Website zu erfassen. Die Auswahl der Websites erfolgt in der Regel auf der Grundlage von Domain-Listen und Vorschlägen von Website-Betreibenden und Fachreferenten.
Verschiedene Einschränkungen beeinträchtigen die Vollständigkeit des Archivs. Für die ordnungsgemäße Erfassung mancher Websites sind innovative technische Methoden erforderlich, und in einigen Fällen können nur partielle Momentaufnahmen aufbewahrt werden. Social-Media-Plattformen stellen aufgrund ihrer sich schnell ändernden Inhalte eine zusätzliche Herausforderung dar. Die restriktive Politik dieser Plattformen gegenüber automatisierten Tools, wie z. B. Crawlern, behindert die systematische Erfassung ihrer Daten. Ein weiteres Problem sind rechtliche und ethische Überlegungen. Auch wenn Inhalte nie aus den Archiven gelöscht werden, kann der Zugang zu bestimmten Medien jedoch eingeschränkt werden, wenn dies gesetzlich vorgeschrieben ist. Datenschutzbelange werden zwar beachtet, haben aber nicht automatisch Vorrang vor dem Recht der Öffentlichkeit auf Zugang zu historischen Informationen.
Trotz dieser Herausforderungen wird das Webarchiv der BnL auch in Zukunft weiter ausgebaut werden.
Archivierungsmethoden
Das Webarchiv der BnL geht über einfache Screenshots oder Codes hinaus. Ziel ist es, die Websites so zu erfassen, wie sie sind. Dabei sollen Struktur, Inhalt und Funktionalität so detailliert wie möglich erhalten bleiben.
Zentrales Element des Webharvesting ist eine Softwarekomponente (Webcrawler). Dieses Tool durchsucht Websites ähnlich wie eine Suchmaschine und speichert sie ab. Der Crawler lädt automatisch alle öffentlich zugänglichen Elemente wie Texte, Bilder, Dokumente und Layout herunter und erstellt eine vollständige Archivkopie der Website, die wie das Original eingesehen werden kann.
Im Laufe der Zeit wird die Sammlung um die verschiedenen Versionen einer Website ergänzt und die Chronologie ihrer Entwicklung gespeichert. Diese früheren Versionen sind in unserem Webarchiv abrufbar, sodass Nutzende die Änderungen und Weiterentwicklungen verfolgen können.
Informationen für Webmaster
Die Archivierung von Websites erfolgt gemäß dem Gesetz vom 25. Juni 2004 über die Neuorganisation der staatlichen Kulturinstitute und der geänderte großherzoglichen Verordnung vom 6. November 2009 über die gesetzliche Ablieferung von Pflichtexemplaren. Diese Verordnungen schreiben die Archivierung öffentlich zugänglicher digitaler Inhalte vor.
Der Webcrawler („Spider“) unseres Webarchivs hält sich bis auf wenige Ausnahmen an die Vorgaben der robots.txt-Datei. Alle Dateien, die zur vollständigen Darstellung einer Webseite erforderlich sind (z. B. CSS, Bilder), werden heruntergeladen, auch wenn sie in der robots.txt-Ausschlussliste enthalten sind. Außerdem werden alle Landingpages aller Websites gesammelt, unabhängig von den robots.txt-Einstellungen. Die BnL behält sich das Recht vor, diese Politik bei Bedarf und im Einklang mit dem Gesetz zu ändern.
Bitte lesen Sie unseren Compliance-Leitfaden, um sicherzustellen, dass Ihre Website korrekt gecrawlt wird. Er hilft Ihnen, Ihre Website auch für künftige Generationen zu erhalten.
Häufig gestellte Fragen
Wo kann ich das Webarchiv einsehen und warum ist es nicht online verfügbar?
Aus urheberrechtlichen Gründen ist der Zugriff auf das Webarchiv nur vor Ort über die Computer in unserem Lesesaal möglich. Die archivierten Websites online öffentlich zugänglich zu machen, würde die Rechte der Website-Inhabenden verletzen.
Nach welchen Kriterien werden Websites für die Archivierung ausgewählt?
Die BnL wendet drei Methoden für das Webharvesting an:
- Flächige Crawls: Standardmäßig werden alle „.lu“-Websites und andere von Website-Betreibenden und Drittanbietern gemeldete Domains einmal pro Quartal gespiegelt. Diese Crawls erstellen alle drei Monate eine Momentaufnahme des luxemburgischen Webs, können aber unter Umständen Inhalte, die sich schnell ändern oder von kurzer Lebensdauer sind, nicht erfassen.
- Ereignissammlungen: Bei Ereignissen von nationaler Bedeutung wird eine Website-Sammlung erstellt. Dabei werden über einen begrenzten Zeitraum sehr häufige Aufnahmen gemacht. Typische Event-Crawls betreffen Themen wie Wahlen, Naturkatastrophen oder die Covid-19-Pandemie.
- Thematische Sammlungen: Diese Sammlungen basieren auf sich ständig ändernden Listen. Um sie zu erstellen, sind wir auf die Hilfe und Beiträge von Fachleuten aus allen Wissensgebieten angewiesen. Im Laufe der Zeit werden immer mehr Websites in die Sammlung aufgenommen, während andere, die in der Zwischenzeit möglicherweise gelöscht wurden, im Webarchiv verfügbar bleiben.
Diese kombinatorische Vorgehensweise ermöglicht eine vollständigere Spiegelung des digitalen Kulturerbes Luxemburgs, auch wenn aufgrund technischer und logistischer Einschränkungen einige Online-Inhalte zwangsläufig fehlen werden.
Wie kann ich herausfinden, ob meine Website archiviert wurde?
Wenn Ihre Website über eine „.lu“-Domain verfügt, wird sie automatisch in die regelmäßig durchgeführten flächigen Crawls einbezogen. Websites mit anderen Domain-Endungen (z. B. „.com“, „.de“, „.eu“) werden nicht archiviert, es sei denn, sie wurden manuell in unsere Crawling-Listen aufgenommen – entweder durch unsere eigenen Recherchen oder durch Vorschläge von Website-Betreibenden. Wenn Sie möchten, dass Ihre Website archiviert wird, nehmen Sie bitte Kontakt mit uns auf oder verwenden Sie das Vorschlagsformular. Alle Vorschläge werden analysiert und, wenn sie den Kriterien entsprechen, in unsere Crawling-Listen aufgenommen.
Website-Betreibende können in ihren Serverlogs nach Anfragen unserer Crawler-Software suchen, die durch den User-Agent „NLUX_IAHarvester“ identifiziert werden und einen Link für weitere Informationen enthalten. Bitte kontaktieren Sie uns, wenn Sie Fragen zur Archivierung Ihrer Website haben oder uns Ihre Website melden möchten.
Kann ich verlangen, dass meine Website nicht archiviert wird?
Die BnL befolgt die gesetzlichen Aufbewahrungsvorschriften, das heißt, dass alle öffentlich zugänglichen Websites, die einen Bezug zu Luxemburg haben, der Archivierung unterliegen. Wir hacken keine Webseiten, umgehen keine Einstellungen zum Schutz der Privatsphäre und sammeln keine persönlichen Daten, die nicht bereits öffentlich zugänglich sind.
Unser Webcrawler sammelt nur Inhalte, die ohnehin der Öffentlichkeit zur Verfügung gestellt werden, und hält sich generell an die robots.txt-Anweisungen, mit Ausnahme von Dateien, die für die Darstellung einer Website unerlässlich sind (z. B. CSS, Bilder). Websites, die aus rechtlichen Gründen aus dem Netz genommen wurden, können zu Forschungszwecken archiviert werden, sind aber im öffentlichen Archiv nicht mehr einsehbar.
Wenn Sie wünschen, dass archivierte Versionen Ihrer Website oder andere Inhalte aus unserem Webarchiv entfernt werden, senden Sie uns bitte eine E-Mail mit Ihrem Anliegen und den folgenden Informationen:
- die URL(s) der Websites und die Webinhalte
- der zu löschende Zeitraum
- der Grund, warum diese URL(s) Ihrer Meinung nach entfernt werden sollten und
- sonstige Informationen, die uns helfen, Ihr Anliegen besser zu verstehen.
Wir kümmern uns dann darum und leiten ein Prüfverfahren ein. Bitte haben Sie Verständnis, dass wir den positiven Ausgang Ihrer Anfrage nicht garantieren können.
Werden soziale Medien archiviert?
Nein, soziale Medien werden nicht systematisch archiviert. Wir können jedoch ausgewählte Inhalte von Fall zu Fall erfassen, wenn sie für das digitale Kulturerbe Luxemburgs relevant sind.
Social-Media-Plattformen schränken auch automatisierte Tools wie Webcrawler ein, was eine systematische Datenerhebung erschwert.
Zum letzten Mal aktualisiert am