Ik wil alles weten

Webarchivering

Pin
Send
Share
Send


Webarchivering is het proces van het verzamelen van delen van het World Wide Web en ervoor zorgen dat de collectie wordt bewaard in een archief, zoals een archiefsite, voor toekomstige onderzoekers, historici en het publiek. Vanwege de enorme omvang van het web, maken webarchivisten meestal gebruik van webcrawlers voor geautomatiseerde verzameling. De grootste webarchiveringsorganisatie op basis van een crawlbenadering is het internetarchief dat ernaar streeft een archief van het hele web te onderhouden. Nationale bibliotheken, nationale archieven en verschillende consortia van organisaties zijn ook betrokken bij het archiveren van cultureel belangrijke webinhoud. Commerciële webarchiveringssoftware en -diensten zijn ook beschikbaar voor organisaties die hun eigen webinhoud moeten archiveren voor wettelijke of regelgevende doeleinden.

Omdat websites vaak auteursrechtelijk beschermd zijn, moet bij webarchivering rekening worden gehouden met juridische en sociale kwesties. Vanwege het wereldwijde karakter van een webomgeving doen zich complexe problemen voor.

Het web verzamelen

Webarchivarissen archiveren over het algemeen alle soorten webinhoud, waaronder HTML-webpagina's, stijlbladen, JavaScript, afbeeldingen en video. Ze archiveren ook metagegevens over de verzamelde bronnen, zoals toegangstijd, MIME-type en lengte van de inhoud. Deze metagegevens zijn nuttig bij het vaststellen van de authenticiteit en herkomst van de gearchiveerde collectie.

Methoden van verzameling

Op afstand oogsten

De meest gebruikelijke techniek voor webarchivering maakt gebruik van webcrawlers om het verzamelen van webpagina's te automatiseren. Webcrawlers bekijken webpagina's meestal op dezelfde manier als gebruikers met een browser het web zien en bieden daarom een ​​relatief eenvoudige methode voor het op afstand verzamelen van webinhoud.

Webcrawlers

Voorbeelden van webcrawlers die vaak worden gebruikt voor webarchivering zijn:

Heritrix

Heritrix is de webcrawler van het internetarchief die speciaal is ontworpen voor webarchivering. Het is open-source en geschreven in Java. De hoofdinterface is toegankelijk via een webbrowser, met een opdrachtregelprogramma dat optioneel kan worden gebruikt om crawls te starten.

Heritrix werd gezamenlijk ontwikkeld door Internet Archive en de Noordse nationale bibliotheken op specificaties die begin 2003 werden geschreven. De eerste officiële release was in januari 2004 en is sindsdien voortdurend verbeterd door leden van het Internet Archive en andere geïnteresseerde derde partijen.

Een aantal organisaties en nationale bibliotheken gebruiken Heritrix, waaronder:

  • Bibliotheek en archieven Canada
  • Bibliothèque nationale de France
  • Nationale en universitaire bibliotheek van IJsland
  • Nationale bibliotheek van Nieuw-Zeeland
  • Netarkivet.dk
  • Internet documenteren2

HTTrack

HTTrack is een gratis en open source webcrawler en offline browser, ontwikkeld door Xavier Roche en gelicentieerd onder de GNU General Public License, waarmee men World Wide Web-sites van internet naar een lokale computer kan downloaden. Standaard rangschikt HTTrack de gedownloade site op basis van de relatieve linkstructuur van de oorspronkelijke site. De gedownloade (of "gespiegelde") website kan worden doorzocht door een pagina van de site in een browser te openen.

HTTrack kan ook een bestaande gespiegelde site bijwerken en onderbroken downloads hervatten. HTTrack is volledig configureerbaar door opties en door filters (opnemen / uitsluiten), en heeft een geïntegreerd helpsysteem. Er is een basis-opdrachtregelversie en twee GUI-versies (WinHTTrack en WebHTrack); de eerste kan onderdeel zijn van scripts en cron-taken.

HTTrack gebruikt een webcrawler om een ​​website te downloaden. Sommige delen van de website worden mogelijk niet standaard gedownload vanwege het uitsluitingsprotocol van robots, tenzij uitgeschakeld tijdens het programma. HTTrack kan links volgen die zijn gegenereerd met basis-JavaScript en in Applets of Flash, maar geen complexe links (gegenereerd met behulp van functies of uitdrukkingen) of server-side image maps.

Anderen

Op aanvraag

Er zijn tal van services die kunnen worden gebruikt om webbronnen 'on-demand' te archiveren met behulp van webcrawlingtechnieken:

  • WebCite, een service speciaal voor wetenschappelijke auteurs, tijdschrifteditors en uitgevers om geciteerde internetreferenties permanent te archiveren en op te halen (Eysenbach en Trudel, 2005).
  • Archive-It, een abonnementsservice, stelt instellingen in staat hun eigen webarchief te bouwen, beheren en doorzoeken.
  • Hanzo Archives biedt commerciële webarchiveringshulpmiddelen en -services, implementeert een archiefbeleid voor webinhoud en maakt elektronische detectie, ondersteuning van geschillen of naleving van regelgeving mogelijk.

Database archiveren

Databasearchivering verwijst naar methoden voor het archiveren van de onderliggende inhoud van database-gestuurde websites. Het vereist meestal de extractie van de database-inhoud in een standaardschema, vaak met behulp van XML. Eenmaal opgeslagen in dat standaardformaat, kan de gearchiveerde inhoud van meerdere databases vervolgens beschikbaar worden gemaakt met behulp van een enkel toegangssysteem. Deze benadering wordt geïllustreerd door de DeepArc- en Xinq-tools die respectievelijk zijn ontwikkeld door de Bibliothèque nationale de France en de National Library of Australia. Met DeepArc kan de structuur van een relationele database worden toegewezen aan een XML-schema en de inhoud worden geëxporteerd naar een XML-document. Xinq staat vervolgens toe dat die inhoud online wordt geleverd. Hoewel de oorspronkelijke lay-out en het gedrag van de website niet exact kunnen worden bewaard, laat Xinq toe de basisfunctionaliteit voor het opvragen en ophalen te repliceren.

Transactionele archivering

Transactionele archivering is een gebeurtenisgestuurde aanpak, die de feitelijke transacties verzamelt die plaatsvinden tussen een webserver en een webbrowser. Het wordt voornamelijk gebruikt als middel om bewijs te bewaren van de inhoud die op een bepaalde datum daadwerkelijk op een bepaalde website is bekeken. Dit kan met name belangrijk zijn voor organisaties die moeten voldoen aan wettelijke of regelgevende vereisten voor het vrijgeven en bewaren van informatie.

Een transactief archiveringssysteem werkt typisch door elk HTTP-verzoek aan en antwoord van de webserver te onderscheppen, elk antwoord te filteren om dubbele inhoud te elimineren en de antwoorden permanent als bitstromen op te slaan. Een transactionele archiveringssysteem vereist de installatie van software op de webserver en kan daarom niet worden gebruikt om inhoud van een externe website te verzamelen.

Voorbeelden van commerciële transactionele archiveringssoftware zijn onder meer:

Moeilijkheden en beperkingen

Crawlers

Webarchieven die vertrouwen op webcrawling als hun primaire manier om het web te verzamelen, worden beïnvloed door de moeilijkheden van webcrawl:

  • Het uitsluitingsprotocol van robots kan ertoe leiden dat gedeelten van een website voor crawlers onbereikbaar zijn. Sommige webarchivarissen negeren het verzoek en crawlen die gedeelten toch.
  • Grote delen van een website kunnen verborgen zijn in het Deep Web. De resultatenpagina achter een webformulier ligt bijvoorbeeld in het deep web omdat een crawler geen link naar de resultatenpagina kan volgen.
  • Sommige webservers kunnen een andere pagina retourneren voor een webcrawler dan een normaal browserverzoek. Dit wordt meestal gedaan om zoekmachines voor de gek te houden om meer verkeer naar een website te sturen.
  • Crawler-traps (bijvoorbeeld agenda's) kunnen ertoe leiden dat een crawler een oneindig aantal pagina's downloadt, dus crawlers zijn meestal geconfigureerd om het aantal dynamische pagina's te beperken dat ze crawlen.

Het web is zo groot dat het crawlen van een aanzienlijk deel ervan een grote hoeveelheid technische middelen vergt. Het web is zo snel aan het veranderen dat delen van een website kunnen veranderen voordat een crawler het zelfs al heeft gecrawld.

Algemene beperkingen

Niet alleen moeten webarchivarissen de technische uitdagingen van webarchivering aanpakken, ze moeten ook kampen met intellectuele eigendomsrechten. Peter Lyman (2002) stelt dat "hoewel het web in de volksmond wordt beschouwd als een bron van het publieke domein, het auteursrechtelijk beschermd is; archivarissen hebben dus geen wettelijk recht om het web te kopiëren." Nationale bibliotheken in veel landen hebben echter een wettelijk recht om delen van het web te kopiëren onder een verlenging van een wettelijke aanbetaling.

Met sommige particuliere non-profit webarchieven die openbaar toegankelijk zijn gemaakt, zoals WebCite of het Internetarchief, kunnen inhoudseigenaren gearchiveerde inhoud verbergen of verwijderen waartoe zij niet willen dat het publiek toegang heeft. Andere webarchieven zijn alleen toegankelijk vanaf bepaalde locaties of hebben gereguleerd gebruik. WebCite citeert in zijn FAQ ook een recent proces tegen het caching-mechanisme, dat Google heeft gewonnen.

Aspecten van webcuratie

Webcuratie houdt, net als elke andere digitale curatie, in:

  • Het verzamelen van verifieerbare webactiva
  • Bieden van zoeken en ophalen van webactiva
  • Certificering van de betrouwbaarheid en integriteit van de inhoud van de collectie
  • Semantische en ontologische continuïteit en vergelijkbaarheid van de inhoud van de collectie

Dus, naast de discussie over methoden voor het verzamelen van internet, moeten ook methoden voor toegang, certificering en organiseren worden opgenomen. Er zijn een aantal populaire tools die deze curatorstappen aanpakken:

Een reeks tools voor Web Curation door International Internet Preservation Consortium:

  • Heritrix - officiële website - webactiva verzamelen
  • NutchWAX - zoek in webarchiefcollecties
  • Wayback (Open source Wayback Machine) - zoek en navigeer door webarchiefcollecties met NutchWax
  • Web Curator Tool - Selectie en beheer van webverzameling

Andere open source-tools voor het manipuleren van webarchieven:

  • WARC Tools - voor het programmatisch maken, lezen, parseren en manipuleren van webarchieven
  • Zoekhulpmiddelen - voor het indexeren en zoeken van volledige tekst en metadata in webarchieven

Een voorbeeld van webarchieven

Het internetarchief

De Internetarchief (IA) is een non-profitorganisatie die zich toelegt op het bouwen en onderhouden van een gratis en open toegankelijke online digitale bibliotheek, inclusief een archief van het World Wide Web. Met kantoren in de Presidio in San Francisco, Californië, en datacenters in San Francisco, Redwood City en Mountain View, CA, bevat het archief "snapshots van het World Wide Web" (gearchiveerde kopieën van pagina's, genomen op verschillende punten in tijd), software, films, boeken en audio-opnamen. Om de stabiliteit en het uithoudingsvermogen van het internetarchief te waarborgen, wordt de collectie gespiegeld in de Bibliotheca Alexandrina in Egypte, tot nu toe de enige bibliotheek ter wereld met een spiegel.1 De IA stelt zijn collecties kosteloos beschikbaar voor onderzoekers, historici en wetenschappers. Het is lid van de American Library Association en wordt door de staat Californië officieel erkend als een bibliotheek.2

De Wayback-machine3 is een digitale tijdcapsule gemaakt door het internetarchief. Met deze service kunnen gebruikers gearchiveerde versies van webpagina's gedurende een bepaalde periode bekijken.

Zie ook

  • Archief
  • Digitaal bewaren
  • Internetarchief
  • Digital Library-project van het Library of Congress
  • Nationaal programma voor digitale informatie-infrastructuur en behoud
  • Web kruipen

Notes

  1. ↑ Het internetarchief in de nieuwe bibliotheek van Alexandrië, International School of Information Science (ISIS). Ontvangen 22 november 2008.
  2. ↑ "Internetarchief officieel een bibliotheek" Op 22 november 2008 opgehaald.
  3. ↑ web.archive.org opgehaald op 22 november 2008.

Referenties

  • Brown, A. 2006. Websites archiveren: een praktische gids voor professionals in informatiebeheer. Facet publiceren. ISBN 1-85604-553-6
  • Brügger, N. 2005. Websites archiveren. Algemene overwegingen en strategieën Het Centre for Internet Research. ISBN 87-990507-0-6. Ontvangen op 11 november 2008.
  • Day, M. 2003. Het behoud van de structuur van ons leven: een overzicht van initiatieven voor webbehoud Onderzoek en geavanceerde technologie voor digitale bibliotheken: Proceedings of the 7th European Conference (ECDL), 461-472. Ontvangen op 11 november 2008.
  • Eysenbach, G. en M. Trudel. 2005. Gaan, gaan, er nog steeds: de WebCite-service gebruiken om geciteerde webpagina's permanent te archiveren Journal of Medical Internet Research 7 (5). Ontvangen op 11 november 2008.
  • Fitch, Kent. 2003. "Websitearchivering - een benadering voor het registreren van elke wezenlijk verschillende reactie die door een website wordt geproduceerd" Ausweb 03. Ontvangen op 11 november 2008.
  • Lyman, P. 2002. Archivering van het World Wide Web Bouwen aan een nationale strategie voor behoud: problemen in digitale media-archivering. Ontvangen op 11 november 2008.
  • Masanès, J. (ed.). 2006. Webarchivering. Springer-Verlag. ISBN 3-540-23338-5

Externe links

Alle links zijn opgehaald op 10 augustus 2013.

  • International Internet Preservation Consortium (IIPC) - Internationaal consortium met als missie het verwerven, bewaren en toegankelijk maken van kennis en informatie van internet voor toekomstige generaties
  • International Web Archiving Workshop (IWAW) - Jaarlijkse workshop gericht op webarchivering
  • De Library of Congress, digitale collecties en programma's
  • Library of Congress, Web Capture
  • Webarchiveringsbibliografie - Lange lijst met bronnen voor webarchivering
  • Webarchiveringsprogramma's:

Pin
Send
Share
Send