Om statistik, Nesstar og mig

I anledning af at det er to år siden jeg startede på mit arbejde på Norsk samfunnsvitenskapelig datatjeneste (NSD), tænkte jeg det var på tide med en lille indføring i, hvad det egentlig er jeg arbejder med.

Jeg arbejder i et team bestående af ni mand stærk, som har til opgave at vedligeholde og videreudvikle et produkt som hedder Nesstar. Kort fortalt startede Nesstar for omtrent ti år siden som et EU-projekt, har været en selvstændig virksomhed og er siden indlemmet under NSD hvor det ligger i dag. Nesstar er en semantisk webapplikation til publicering af statistiske data og metadata til web, og den benyttes i stor stil af universiteter og dataarkiver over hele verden.

Nesstar består af tre dele:

  1. Publisher; en desktopapplikation som benyttes til at forberede data og metadata samt at publicere disse til en server.
  2. Server; kernen i Nesstar som tager imod forespørgsler og behandler dem.
  3. WebView; brugergrænsefladen som interesserede kan bruge til at studere metadata og analysere data.

Nesstar bruger Data Documentation Initiative (DDI) til at repræsentere metadata internt. Det er en dokumentstandard i XML som alle i gamet kender til og kan forholde sig til, hvilket er en styrke for både os og brugerne. Nesstar er den applikation i verden som har den mest omfattende implementation af DDI.

Jeg arbejder mest (kun) på WebView-komponenten, hvor størstedelen af arbejdstiden går med at fikse bugs. Vi arbejder på at gøre pakken klar til at blive udgivet i version 4.0. I den anledning har vi også implementeret lidt nye features og givet udseendet en gang maling. WebView bruger stadig frames (som sikkert var smart engang) og ja, det er et helvede at arbejde med, og det kommer garanteret ikke med i 5.0. Af nye features kan nævnes embedding (som vi kender det fra f.eks. Youtube) og flere sprog. Hvis vi selv skal sige det, så er WebView en af de bedste (hvis ikke den bedste) brugergrænseflade hvad angår visning og behandling af tabeller, grafer og kort over statistiske data. Tabeller manipuleres nemt med træk-og-slip, og kort kan zoomes ind og ud på i nydeligste facon.

I Nesstar arbejdes der med to begreber: mikrodata og kuber. Mikrodata er undersøgelser hvor man har publiceret variablerne og metadata. Variablerne kan man krydstabulere efter behov og visualisere med grafer, tidslinediagrammer (hvis man har en tidsvariabel med) eller kort (hvis man har en geografisk variabel med). Man har også simple værktøjer til rådighed, som f.eks. regression og beregning af nye variabler.

Kuber er mindre avancerede og er beregnet til at vise noget man har analyseret sig frem til. Istedet for at publicere en undersøgelse med alle variabler, laver man på forhånd en tabel i Nesstar Publisher og publicerer den. Kuben vil derfor bestå af nogle variabler som kan flyttes ind og ud af tabellen. Også her har man grafer og kort til rådighed, men ikke de mere avancerede analyseværktøjer.

Hardcore statistiknørder kan helt sikkert ikke nøjes med de få og simple funktioner WebView tilbyder, så derfor er det godt at man kan downloade variabler og datasæt i mange forskellige filformater, heriblandt til programmer som SPSS, Stata og SAS – eller bare en helt almindelig kommasepareret fil.

Som en lille demonstration har jeg lavet en lille graf der viser uenigheden mellem Det Norske Arbeiderparti og deres to støttepartier, Sosialistisk Venstreparti og Senterpartiet. De blev pludselig meget enige da de skulle danne regering, ser det ud til.

Du kan selv afprøve Nesstar, enten ved at hente en prøveversion (men du bør nok vide noget om statistik og have nogle data før det giver mening) eller lege lidt med nogle eksisterende installationer:

  • Demo-serveren har både mikrodata og kuber.
  • Uenighetsindeksen er et internt NSD projekt, som kan bruges til at illustrere hvor uenige partierne i Stortinget har været de sidste 30 år. Meget interessant og et godt eksempel på hvordan data bliver hvermandseje med Nesstar.
  • Norgeshelsa er et projekt under Folkehelseinstituttet som publicerer data om den norske befolkning.