Registrant for dr.dk 1996-2006
Fra DrdkWiki
På drdk.dk findes den første offentligt tilgængelige samlede oversigt over de delnetsteder, der har været på dr.dk i perioden 1996 til 2006. Oversigten findes under menupunktet 'Registrant'. I registranten er primært registreret de delnetsteder, der har været placeret på url-adresser umiddelbart under dr.dk, dvs. fx dr.dk/nyheder.
Da et netsted er en helt anden type medie end avis, film, radio og tv, vil en registrant over delnetsteder være født med en række indbyggede fejlkilder. Disse er behandlet mere indgående nedenfor. Især skal man være opmærksom på, at i og med et delnetsted sjældent har et endeligt afslutningstidspunkt, vil mængden af aktive delnetsteder stige år for år, idet alle de foregående års netsteder, hvis sluttidspunkt det ikke har været muligt at tidsfæste helt præcist, stadig antages at have været aktive til og med 2006.
Indholdsfortegnelse |
Visningsformer og søgning i registranten
På registrantens første side vises en oversigt over alle de registrerede delnetsteder. I boksen til højre vises, hvor mange delnetsteder, der er oprettet og er aktive hvert år, samt hvor mange der findes på de forskellige niveauer. Herfra kan der arbejdes videre på forskellige måder.
Ved at klikke på ’Detaljer’ øverst i registranten, vises detaljerede informationer om de registrerede delnetsteder.
Herudover kan der skrives et søgeord i søgefeltet. Der søges i samtlige oplysninger i hele registranten.
I både oversigts- eller detaljevisning, eller hvis man udelukkende kigger på resultatet af en søgning, kan man klikke på et eller flere årstal i boksen til højre. Herved filtreres det, der allerede vises, fx vil et klik på ’1999’ under ’Netsteder oprettet i’ medføre, at kun de delnetsteder, der er oprettet i 1999, vises. Dette kan gentages ved flere årstal. På denne måde kan man se, for eksempel hvilke delnetsteder, der kom til et givent år, eller alle de delnetsteder, der eksisterede på et bestemt tidspunkt.
Hvad skal vi med en registrant?
Et væsentligt grundlag for at kunne lave historisk forskning er, at man har et overblik over, hvad man studerer. Én måde at få det på, er ved at udarbejde en registrant, dvs. en — ofte kronologisk — oversigt over det materiale, der skal studeres.
Der er en lang mediehistorisk tradition for at lave registranter inden for avis, film-, radio- og tv-historie, fx over aviser eller tv-programmer (se fx Søllinge & Thomsen 1988-91; Agger 2005: 631-751). Imidlertid er der inden for webhsitorie endnu ikke nogen etablerede normer for, hvordan en registrant over delnetsteder kan se ud, hvilket skyldes, at der generelt kun er lavet relativt få webhistoriske studier, som har krævet en registrant. Registranten for dr.dk er sandsynligvis den første af sin slags, og den kan derfor betragtes som et første bud på, hvordan en registrant over delnetsteder kunne se ud.
Perioden 1996-2006
Registranten dækker de delnetsteder, der har været aktive fra dr.dks begyndelse i januar 1996 til og med 2006. Årstallet 2006 er valgt, fordi det forskningsprojekt, der danner baggrund for udarbejdelsen af registranten, udelukkende omhandler de første 10 år af dr.dks liv. De delnetsteder, der er kommet til efter 2006, er altså ikke taget med. Imidlertid er det nævnt ved de enkelte delnetsteder, hvis de stadig findes på dr.dk.
Netsted og delnetsted
Ved både netsted og delnetsted forstås en samling af sammenhængende websider. I dr.dks tilfælde opfattes dr.dk som et netsted, der består af en mængde delnetsteder, fx /nyheder, /skum eller /oline.
Sammenhængen mellem websiderne kan basere sig på mindst ét af følgende tre fænomener: siderne kan handle om det samme, de kan have samme udseende, og de kan være knyttet sammen via hyperlinks. I en medievidenskabelig sammenhæng kan man kalde de tre sammenhængsformer for henholdsvis semantisk, formal og fysisk performativ sammenhæng (hvad der mere præcist menes med disse tre begreber er uddybet i Brügger 2009: 121-125).
Hvor mange niveauer under dr.dk?
Af ressourcemæssige årsager er det kun forsøgt at gøre registranten dækkende på 1. niveau efter dr.dk, dvs. urler lige efter dr.dk som fx dr.dk/nyheder. De delnetsteder, der optræder i registranten på 2. og 3. niveau, er således kun taget med, hvis de er dukket op i arbejdet med at finde delnetsteder på 1. niveau, fx fordi der redirectes til dem.
Hvordan er registranten lavet?
Registranten er opbygget på følgende måde. Der er taget udgangspunkt i to af de største arkiverede udgaver, som eksisterer i det danske webarkiv netarkivet.dk. Der er tale om udgaver, hvor arkiveringssoftwaren er blevet sat til at standse, når det arkiverede nåede en størrelse på 100 GB. Der er tale om udgaver fra henholdsvis juli 2006 og marts 2007. Fra hver af disse to arkiveringer er der dannet en liste med samtlige urler på 1. niveau, dvs. fx dr.dk/nyheder eller foranstillede urler, som fx netbutik.dr.dk. Disse to lister er kigget manuelt igennem med henblik på at identificere de urler, der sandsynligvis var adressen på et delnetsted (herunder fjernelse af dubletter som fx /P1 og /p1, /Bog og /bog, osv.).
Dernæst er disse urler søgt i det amerikanskbaserede internetarkiv archive.org for hermed at dokumentere, at netstedet har eksisteret i perioden 1996-2006, ligesom der er søgt elementære informationer om netstedet.
Den mængde delnetsteder, der var resultatet af denne proces — ca. 340 —, udgør grundstammen i registranten. Herfter er registranten løbende blevet udbygget, dels med yderligere delnetsteder, dels med yderligere oplysninger om de allerede registrerede delnetsteder. Kilderne til dette arbejde har været henholdsvis offentligt tilgængeligt materiale (DRs pressemeddelelser, DRs personaleblad DRåben, årsrapporter, o.lign) og materiale fra DRs interne arkiv, som der undtagelsesvis er blevet givet adgang til.
Fejlkilder
Et netsted er en ganske anden type medie end avis, film, radio og tv, og derfor vil en registrant over delnetsteder være født med nogle indbyggede fejlkilder, som vi ikke kender fra registranter over andre medietyper. Det kan være passende her at pege på nogle af disse fejlkilder, som det er væsentligt at have i baghovedet, når man benytter registranten.
Hvad registreres: url eller navn?
Ved avis, film, radio og tv vil man typisk primært navngive det, der registreres — selve avisen, avisartikler, film, radio- og tv-programmer — med titlen: ’Morgenavisen Jyllands-Posten’, ’Radioavisen’, ’Rejseholdet’, osv. Imidlertid vil et delnetsted kunne registreres under to ting: dets navn, som fremgår af selve netstedets tekst, og dets url-adresse, som fremgår af adressefeltet. Og disse to behøver ikke være sammenfaldende. Det skal derfor besluttes, hvad der registreres efter. I registranten på drdk.dk er registreret både url-adresse og navn, i hver sin kolonne. I udgangspunktet sorteres efter url-adresse, men ved at klikke på kolonnen ’Navn’, kan der sorteres efter navn.
Hvad med redirects?
Mange delnetsteder kan man komme til ad flere veje, dvs. gennem flere url'er, fx kommer man med url’en /aarhus til /regioner/aarhus. /aarhus redirecter altså videre til /regioner/aarhus. Imidlertid er det ikke alle disse redirects, der virker i arkiveret materiale, ligesom det kan være vanskeligt overhovedet at blive klar over dem, idet links til et givent delnetsted oftest vil føre én til hoved-urlen (/regioner/aarhus i dette tilfælde).
Denne problemstilling vanskeliggøres, når der er tale om historiske studier, idet redirects ikke altid er identiske over tid. For det første har en redirect, der konstateres på et givent tidspunkt, ikke nødvendigvis været gældende hverken før eller efter, muligvis har der før/efter slet ikke været nogen, muligvis har der været en/flere anden/andre. For det andet kan en url, som på ét tidspunkt måske var et netsteds hoved-url — fx /eu i 2001 — senere være ændret til en url, som redirecter til en anden og ny hoved-url, fx redirecter /eu i 2009 til /nyheder/temaer/2009/europa. Og generelt er det i det hele taget vanskeligt at finde og dokumentere dette netværk af redirects bagud i tid.
I registranten på drdk.dk er dette problem søgt løst ved at finde frem til, hvad der sandsynligvis har været netstedets første hoved-url, og i de tilfælde, hvor det har kunnet fastslåes, at der redirectes til den fra en anden url, er dette nævnt i kommentarerne eller i felterne ’Redirecter til/fra’.
Hvad med flere netsteder på samme adresse?
Når der er tale om historiske studier, så sker det af og til, at flere forskellige delnetsteder over tid kan optræde på samme url-adresse. Det ses for eksempel ved /klima, der oprettes i 1997 i forbindelse med klimatopmødet i Kyoto, og som ifølge en arkiveret udgave ikke opdateres efter 31. december 1997, for så at dukke op igen i 2009 som et helt nyt delnetsted i forbindelse med klimatopmødet i København.
Hvad med starttidspunkt?
Trykte aviser og udsendte radio- og tv-programmer følger en klart fastlagt udgivelses- eller udsendelsesrytme med klart markerede start- og sluttidspunkter for radio- og tvs vedkommende. Sådan forholder det sig ikke altid med et delnetsted. Det kan i mange tilfælde lade sig gøre at fastsætte et starttidspunkt for et delnetsted, men ikke altid. Nogle gange nævnes det på et arkiveret delnetsted, hvornår det er oprettet, andre gange kan det via pressemeddelelser o.lign. fastslåes, at delnetstedet har været planlagt til at åbne på et givent tidspunkt, men om det rent faktisk er sket på det pågældende tidspunkt, kan ikke altid afgøres. Desuden kan eksistensen af et delnetsted i et webarkiv vise, at det fandtes på arkiveringstidspunktet, men ikke dermed, hvornår det egentlig er åbnet. Det er altså ikke altid muligt at fastslå et delnetsteds oprettelsestidspunkt særlig præcist, hverken ud fra en arkiveret udgave eller via andre kilder.
I disse tilfælde er starttidspunktet i registranten på drdk.dk i mange tilfælde fastsat ud fra, hvornår der tidligst findes en arkiveret udgave (enten i det amerikanskbaserede internetarkiv archive.org, i det danske internetarkiv netarkivet.dk, eller i Niels Brüggers eget webarkiv). Imidlertid kan denne tidsfastsættelse som nævnt være fejlagtig, hvis arkiveringen først er foretaget lang tid efter delnetstedets oprettelse. I andre tilfælde er oprettelsestidspunktet fastslået ud fra dr.dk i dag, hvis delnetstedets oprettelse med en vis sandsynlighed kan tidsfæstes ud fra oplysninger i fx en sidefod, el.lign. I de tilfælde, hvor delnetstedets starttidspunkt udelukkende er fastsat ud fra den tidligst kendte arkiverede udagve, eller ud fra dr.dk i dag, er dette noteret i kommentarfeltet.
Hvad med afslutningstidspunkt?
Her har vi med et af de vanskeligste punkter at gøre, når man skal lave en registrant over delnetsteder, idet netsteder meget sjældent har et decideret afslutningstidspunkt, ligesom en radio- eller tv-udsendelse har. Nogle gange bliver et netsted fjernet fra webserveren, men andre gange får det lov at ligge, selvom det ikke bliver opdateret længere. Og når det sidste er tilfældet, står der nogen gange på selve netstedet, at det ikke længere opdateres (fx /laegen, /kroeniken, /riget), men det er langfra altid tilfældet (disse netsteder, som ligger hen uden opdatering og links til dem, kan man også kalde ’spøgelsesnetsteder’, jf. Brügger 2008: 159).
Som webhistoriker står man altså med følgende problem: er sluttidspunktet det tidspunkt, hvor det fjernes fra serveren, eller er det tidspunktet, hvor et netsted ikke længere opdateres? Og i begge tilfælde står et meget praktisk problem tilbage: hvordan præcist tidsfæste både det ene og det andet? Et netsted er måske ikke arkiveret efter et givent tidspunkt, men det kan alligevel være vanskeligt at fastslå, hvornår det efter dette tidspunkt er fjernet fra webserveren. Ja, selv hvis det ikke længere optræder i et webarkiv som fx archive.org, kan det ikke udelukkes, at det stadig har været på nettet, men bare ikke er blevet arkiveret. Og i de tilfælde, hvor det ikke kommunikeres på netstedet, at det ikke længere opdateres, kan afslutningstidspunktet være næsten umuligt at fastsætte.
I registranten på drdk.dk er sluttidspunktet som hovedregel angivet, hvis det har kunnet dokumenteres entydigt, fx med en dato, hvorefter netstedet ikke længere opdateres. Hvis ikke der er angivet noget sluttidspunkt, antages et netsted at have eksisteret mindst til og med 2006, hvis det stadig findes på dr.dk efter 2006. Hvis ikke det findes på dr.dk efter 2006, antages det at have eksisteret lige så længe, som det kan dokumenteres i et webarkiv. Dette får som konsekvens for registranten, at mængden af aktive netsteder for hvert år vil stige, idet alle de foregående års netsteder, hvis sluttidspunkt det ikke har været muligt at tidsfæste helt præcist, stadig antages at have været tilstede på webserveren.
Udgangspunkt i ukomplette og sene arkivudgaver
Endelig skal der peges på yderligere to fejlkilder, som udspringer af de arkiverede udgaver af dr.dk, som har ligget til grund for grundstammen i registranten.
Den første fejlkilde er, at registrantens grundstamme er lavet ud fra ukomplette arkivudgaver, nemlig netarkivet.dks udgaver fra henholdsvis juli 2006 og marts 2007, der i arkiveringssoftwaren var sat til ikke at blive større end 100GB. Det vil sige, at det, som tilfældigvis ikke kom med her, ikke er kommet med i registranten.
Den anden fejlkilde er, at registrantens grundstamme er lavet ud fra sene udgaver i forhold til den samlede periode 1996-2006, dvs. udgaver fra 2006 og 2007 og ikke ud fra tidligere udgaver. Et delnetsted, der har eksisteret tidligere, men som ikke eksisterede i 2006, er således ikke kommet med. Der er dog søgt kompenseret for begge disse fejlkilder gennem den løbende udbygning af registranten gennem andre kilder, herunder url-extraction fra 1-2 ældre udgaver pr. år fra archive.org fra 1996-2005.
Litteratur
Agger, G. (2005). Dansk tv-drama. Arvesølv og underholdning. København: Samfundslitteratur.
Brügger, N. (2008). The Archived Website and Website Philology. A new Type of Historical Document?, Nordicom Review, 29/2, Göteborg: 155-175.
Brügger, N. (2009). Website History and the Website as an Object of Study. New Media & Society, 11(1-2), 127-144.
Søllinge, J.D. & Thomsen, N. (1988-91). De danske aviser 1634-1989, bd. 1-3. Odense: Odense Universitetsforlag.
--Niels Brügger 13. nov 2009, 17:44 (CET)


