Programmet expansion:
forklaringer og dokumentasjon

Programmet expansion er skrevet for å estimere en populasjons ekspansjonshastighet ut fra data på populasjonens utbredelse i tid og rom.

Innføring
Definisjoner og dokumentasjon
Formatering av datafil (koordinatsystemer / eksempel / OBS)
Parameterne (mørketall / modell / øvrige)
Oppsummering av dataene
Kart
Antagelser
Graf
Utmating (estimater)
Om programmet (lisens / sitering / takk / versjoner)

Innføring

Programmet expansion kjøres online via nettsida https://view.nina.no/expansion/. Det kreves et datasett med sted- og tidfesta observasjoner av en art over minst ti år. Programmet kjøres ved å laste opp datafila, velge de ønska parameterne og vente på utmatinga. Skjermbildet består av seks ruter (to rader à tre paneler):

(1) valg av datafil og parametere;
(2) oppsummering av de innleste dataene og eventuelle feilmeldinger;
(3) et kart over forekomstene;
(4) en oppsummering av den valgte modellens antagelser og begrensninger;
(5) en grafisk fremstilling av den tilpassa modellen;
(6) en tabell med estimater.

Programmet expansion foreligger også som et R-script. Det kan lastes ned fra URL-en http://www.evol.no/hanno/21/expans.rtx, f.eks. med R-kommandoen load(url("http://www.evol.no/hanno/21/expans.rtx")). Så kan scriptet kjøres ved å skrive ekspansjon(...), der "..." representerer parameterne. Parameterne er de samme som i versjon 2.6 (og er forklart et annet sted).

Definisjoner og dokumentasjon

Med ekspansjon menes her antall nye forekomster per tidsenhet (der "forekomster" er koloniserte 2 km × 2 km-ruter). Ekspansjon omfatter dermed enhver form for spredning eller forflytning av arten (uansett måte, årsak og spredningsvei, dvs. inkludert aktive og passive, naturlige og antropogene, tilsikta og utilsikta forflytninger).

Matematisk sett beskrives ekspansjonshastighet som den årlige radiusøkninga av artens forekomstareal (der radiusen beregnes som om forekomstarealet var en sammenhengende sirkel som inneholder alle forekomster og bare forekomster). Modellen som programmet er basert på, har blitt beskrevet av Sandvik (2020).

I økologiske risikovurderinger av fremmede arter ifølge GEIAA-metoden inngår ekspansjonshastighet som kriterium B på invasjonsaksen.

Formatering av datafil

For at datafila kan leses inn, bør den være en semikolondelt ren-tekst-fil med overskriftsrad. Nærmere bestemt gjelder følgende:

Dataene må være organisert kolonnevis, dvs. fila må bestå av én kolonne per variabel (år og f.eks. geografisk bredde og lengde) og én rad per observasjon.
Den første raden må inneholde variabelnavnene.
En kolonne må inneholde årstall og hete "t". Øvrige variabelnavn er avhengig av koordinatsystemet som er brukt, og forklares under.
Det kreves minst ti år med observasjoner.
Forekomster kan enten føres opp første året de ble observert (om de kan antas å ikke dø ut), eller hvert år de antas å eksistere. (I det andre tilfellet må standardinnstillinga endres.)
Alle radene må ha like mange skilletegn.
Som skilletegnet mellom kolonnene (dvs. mellom elementene i en rad) brukes semikolon (;). Komma (,) tolereres også som skilletegn, såfremt det brukes konsekvent og ikke som desimaltegn. Semikolon- eller kommadelte filer kan lages i alle regnearkprogrammer ved å velge "lagre som" ("save as") og så angi "semikolondelt" (evt. "kommadelt", "comma delimited") som "filtype". (Betegnelsen kan variere avhengig av programmet og innstillingene. Slike filer har vanligvis endelsen ".CSV" eller ".SDV".)
Symbolet som brukes som skilletegn, må ikke forekomme i andre sammenhenger. Fila bør heller ikke inneholde apostrof ('). Forekommer slike tegn f.eks. i en tekstkolonne, må tegnene enten erstattes eller kolonnen fjernes før innlesing.
Som desimaltegn brukes punktum (.). Komma (,) tolereres også som desimaltegn, såfremt det ikke brukes som skilletegn.
Mellomrom tolereres mellom elementene og anførselstegn rundt (på begge sider av) elementene i en rad (f.eks. er ;12; ekvivalent til ;12 ; og til ;"12";).
Manglende verdier tolereres. De angis ved utelatelse (;;) eller som mellomrom (; ;).
Observasjonenes rekkefølge er uten betydning.
Kolonnenes rekkefølge er uten betydning.
Ytterligere kolonner ignoreres. (Det kan likevel være en fordel å slette overflødige kolonner før innlesing, nemlig hvis det kan hende at kolonnene inneholder kommaer eller apostrofer.)

Koordinatsystemer

Plasseringa til observasjonene kan angis på seks måter, fordelt på tre ulike koordinatsystemer:

geografisk lengde og bredde

(1) bg og lg eller
(2) bg og bm og bs og lg og lm og ls

MGRS-koordinater (Military Grid Reference System)

(3) mgrs eller
(4) zone og band og id og east og north eller
(5) id og east og north og fylke

UTM-koordinater (Universal Transverse Mercator)

(6) zone og east og north

der variabelnavnene har følgende betydning og formatering:

`bg`	Breddegrader – angis som heltall eller desimalbrøk mellom –90 (= 90°S) og +90 (= 90°N).
`bm`	Geografisk bredde i minutter – angis som heltall eller desimalbrøk mellom 0 og 60.
`bs`	Geografisk bredde i sekunder – angis som heltall eller desimalbrøk mellom 0 og 60.
`lg`	Lengdegrader – angis som heltall eller desimalbrøk mellom –180 (= 180°V) og +180 (= 180°Ø).
`lm`	Geografisk lengde i minutter – angis som heltall eller desimalbrøk mellom 0 og 60.
`ls`	Geografisk lengde i sekunder – angis som heltall eller desimalbrøk mellom 0 og 60.
`mgrs`	MGRS-koordinater – angis som tekststreng.
`zone`	UTM-sonen – angis som heltall mellom 1 og 60. (Norge vest for 12°Ø ligger f.eks. i sone 32.)
`band`	MGRS-belte – angis som bokstav mellom "C" og "X". (Norge nord for 64°N ligger f.eks. i belte W, Norge sør for 64°N i belte V.)
`id`	MGRS-identifikator for en 100 km-rute – angis som to bokstaver mellom "AA" og "ZV".
`east`	"Easting" (østlig posisjon) – angis som tall, men kan formateres som tekststreng. Betydning og tillate verdier er noe ulik i UTM og MGRS.
`north`	"Northing" (nordlig posisjon) – angis som tall, men kan formateres som tekststreng. Betydning og tillate verdier er noe ulik i UTM og MGRS.
`fylke`	Fylke – angis som tekststreng. Kan bare brukes for data fra Norge. (Denne variabelen gjør det mulig å bruke MGRS-koordinater, selv om angivelsen av sonen og beltet mangler i datafila. Strengt tatt er det tilstrekkelig å angi "Finnmark" eller "annet".)

Eksempel

Koordinatene til Tromsø (69°39'5"N 18°57'19"Ø) kan dermed angis på følgende måter:

(1) {bg=69.65139; lg=18.95528}
(2) {bg=69; bm=39; bs=5; lg=18; lm=57; ls=19}
(3) {mgrs="34WDC2058828390"}
(4) {zone=34; band="W"; id="DC"; east="20588"; north="28390"}
(5) {id="DC"; east="20588"; north="28390"; fylke="Troms"}
(6) {zone=34; east=420588; north=7728390}

OBS

Merk at MGRS-systemet ofte feilaktig refereres til som UTM-system. Men selv om MGRS-systemet bygger på UTM-systemet, angis koordinater på forskjellige måter i de to systemene. Tromsøs UTM-koordinater er 34 420588 7728390. Tromsøs MGRS-koordinater er 34WDC2058828390.
Hvis koordinatene angis som UTM eller MGRS, må de respektive standardene følges. (Selv om programmet vil oppdage enkelte åpenbare feil, vil ikke alle tenkelige inkonsistenser siles ut.)
For å skille mellom nordlig og sørlig halvkule, brukes fortegn i UTM-koordinatens "northing" (positivt på nordhalvkula og negativt på sørhalvkula; positivt fortegn kan sløyfes).
Ledende nuller kan skape problemer for "easting" og "northing" i MGRS-systemet (men ikke for UTM), hvis de faller bort. For å unngå det, bør east og north lagres som tekststreng heller enn tall.
Variabelnavnene må være nøyaktig som angitt over.
Presisjonen av posisjonsbestemmelsen spiller ingen rolle for tolkninga av koordinatene (men muligens for resultatene).
Observasjonene i datasettet kan bruke ulike koordinatsystemer.
Hvis flere koordinatsystemer er angitt, ignoreres UTM såfremt MGRS er angitt, og MGRS såfremt bredde- og lengdegrader er angitt.

Parameterne

Før programmet kjøres, må parameterne kontrolleres og eventuelt endres. De følgende parameterne er tilgjengelig:

Mørketall

Mørketallet er en svært viktig parameter, siden den har en direkte effekt på ekspansjonshastighetens estimat. Mørketall er definert som den faktor som brukes for å justere det kjente forekomstarealet opp til det anslått totale forekomstarealet (dvs. totalt = kjent × mørketall).

Et kvalifisert anslag på mørketallet kan gi mer realistiske estimater. Mørketallet angis som en tallverdi eller et intervall av tallverdier og antas å gjelde for datasettets siste år.

Angis mørketallet som et intervall, leter programmet etter det optimale mørketallet innafor disse grensene. Hvis én tallverdi blir angitt, bruker programmet kun det angitte mørketallet.

Om man ønsker å angi et mørketall med desimaler (som kun gir mening ved lave mørketall), må man fjerne avkrysninga i boksen "tillat bare heltall".

Ønsker man ikke å angi mørketallet, men å estimere det sammen med ekspansjonshastigheten og observerbarhetsraten, må intervallet settes til 1–101. Det må imidlertid påpekes at dette vil resultere i nokså usikre estimater.

Modell

Det er så langt implementert fire ulike modeller eller sett med antagelser:

Både ekspansjonshastigheten og oppdagbarhetsraten er konstante over tid (dette er standardinnstillinga);
Oppdagbarhetsraten endres én gang, men er konstant før og etter dette knekkpunktet, som estimeres fra dataene;
De to førstnevnte variantene prøves ut etter tur, og resultatene for den beste av dem presenteres (der valget baseres på AICc);
Oppdagbarheten er proporsjonal til et mål for den årlige innsamlingsinnsatsen, som i så fall må være kjent.

Det siste alternativet forutsetter at man laster opp et datasett med årlige verdier på innsamlingsinnsatsen, som begynner i år 1800. Filformatet må være ren tekst, der oppføringene er skilt ved enten semikolon, komma, mellomrom eller linjeskift. Fila kan kun lastes opp når det siste alternativet er valgt.

Om datasettet er for kort (i antall år), vil valgmuligheten ikke være tilgjengelig. Estimeringa baseres i så fall på modell 1.

Øvrige innstillinger

I tillegg kan det en sjelden gang være aktuelt å endre flere standardinnstillinger. For å gjøre det, må boksen "endre standardinnstillinger" krysses av (og forbli avkryssa). De følgende innstillingene kan endres (om de er tilgjengelig):

Ifølge standardinnstillinga forventes at hver lokaliteter av arten kun er ført opp én gang i datafila, nemlig med årstallet for den første observasjonen av arten på den aktuelle lokaliteten. Denne innstillinga bør beholdes om man kan anta at artens forekomster ikke forsvinner igjen etter at de er kolonisert. Om denne antagelsen ikke er realistisk, velges alternativet. I så fall må lokaliteter være ført opp i datafila for hvert år av deres eksistens. I år som ikke er oppgitt, antas arten altså å være fraværende. Dette alternativet muliggjør modellering av arter som har delpopulasjoner med kort levetid, eller av arter som er utsatt for kontroll-/utryddelsestiltak. (Om forekomstene er svært kortlevde, produserer programmet bare deskriptiv statistikk.)
Konfidensnivået γ er et tall mellom 0 og 0,999 som angir konfidensintervallenes omfang. Standardinnstillinga er γ = 0,5, som beregner kvartiler. Med γ = 0,95 beregnes f.eks. 95 %-konfidensintervaller.
Valget "rask eller fullstendig estimering" bestemmer om programmet bruker heuristikk for å akselerere beregninga. Det er bare relevant om mørketall er angitt som et intervall, eller ved beregning av knekkpunkt (modell 2/3). Hvis det estimerte knekkpunktet ser ut til å bomme, bør man her velge "fullstendig" fremfor "rask" (som er standardinnstillinga).
ΔAICc kan angis om modell 3 er valgt. ΔAICc forstås her som AICc for modellen med én oppdagbarhetsrate minus AICc for modellen med to oppdagbarhetsrater. Standardinnstillinga er å foretrekke den enklere modellen om den har lavere AICc enn den andre (dvs. ΔAICc = 0).

Oppsummering av dataene

Etter en vellykka konvertering av de opplasta dataene oppsummeres datasettet med antall observasjoner, antall forekomster, antall år og forekomstenes geografiske ytterpunkter. Det anbefales å forsikre seg om at disse verdiene er som forventa. Om konverteringa genererte feilmeldinger eller advarsler, vises disse i samme panel.

Etter at datafilenes observasjoner er konvertert til forekomster, tilbys en nedlasting av en utvida datafil. Det anbefales å laste ned denne fila, spesielt om konverteringa tok lang tid. Ved eventuelle senere analyser kan den utvida datafila lastes opp, slik at man slipper en ny runde med konverteringer.

Kart

Kartet viser plasseringa til alle observasjoner i datasettet (som prikker) samt artens utbredelsesområde (som polygon). For kartet er det valgt en sylinderprojeksjon, som vil si at alle breddegrader forløper vannrett og alle lengdegrader loddrett. Det gjør det enkelt å kontrollere koordinater for observasjonene, men kartet er dermed verken areal-, avstands- eller vinkeltro. I kartets midtregion er det tilnærma arealtro. Når kantene til utbredelsesområdet ser bua ut, er ikke det en feil, men skyldes at rette linjer vises som buer i en sylinderprojeksjon.

Antagelser

Det fjerde panelet oppsummerer de statistiske antagelsene som den valgte modellen er basert på. Antagelsene vil aldri være oppfylt til punkt ot prikke, men mindre avvik er vanligvis uproblematisk. Store og systematiske avvik kan derimot medføre at estimatene er villedende.

Graf

Grafen viser utviklinga til antallet kjente forekomster (svarte prikker). Grafen har årstall på x-aksen, forekomstarealets (idealiserte) radius på den venstre y-aksen (lineært skalert) og forekomstarealet på den høyre y-aksen (kvadratrot-skalert). Modellen som er tilpassa til de kjente forekomstene, vises som en blå, heltrukket linje. Den estimerte ekspansjonen, som inkluderer ukjente forekomster, vises som en rød, stipla linje. Konfidensintervaller er vist med prikka linjer. Et eventuelt knekkpunkt (årstall for endring i oppdagbarhetsraten) vises som en loddrett rosa, prikka linje.

Utmating (estimater)

Utmatinga består av estimater (forventningsverdi samt nedre og øvre konfidensgrense) for:

ekspansjonshastighet i meter per år (m/a),
kjent forekomstareal i km²,
estimert forekomstareal i km² (kjent forekomstareal ganger mørketall),
mørketall,
utbredelsesområdet i km² (ikke korrigert for kyst og grenser),
startåret for ekspansjonen,
oppdagbarhetsraten(e),
forklart varians (R²),
Akaikes informasjonskriterium (AICc).

Om programmet

Programmet expansion er skrevet av Hanno Sandvik ved Norsk institutt for naturforskning (NINA). Ta gjerne kontakt ved spørsmål, uventa feilmeldinger eller for forslag, kritikk eller ros.

Programmet foreligger nå i versjon 3.2 (januar 2022).

Lisens

Expansion er tilgjengelig under en CC-BY-SA-4.0-lisens.

Siteringsmåte

Programmet kan siteres slik:

Sandvik, H. (2022) Expansion, version 3.2. https://view.nina.no/expansion/

Siter gjerne også metodebeskrivelsen:

Sandvik, H. (2020) Expansion speed as a generic measure of spread for alien species. Acta biotheoretica, 68, 227–252. https://doi.org/10.1007/s10441-019-09366-8

Takksigelse

Uten de tallrike og detaljerte tilbakemeldingene fra Hanne Hegre hadde aldri programmet oppnådd den nåværende funksjonaliteten.

Versjonsoversikt:

Versjon 3.2 (januar 2022)

ny beregning av ekspansjonshastighet ved kortlevde forekomster
raskere beregning når mørketall er angitt som intervall
korrigert kartvisning og forbedra grafikk

Versjon 3.1 (desember 2021)

implementering av applikasjonens demo-versjon
kartvisning også for funn utenfor Nord-Europa
korreksjon for at utbredelsesområdets kanter er bua i en sylinderprojeksjon

Versjon 3.0 (november 2021)

Fra og med versjon 3.0 er programmet en nettapplikasjon, som ikke forutsetter installasjon av R. Applikasjonen brukes for å anslå GEIAAs B-kriterium og inngår i risikovurderingene for Fremmedartslista 2023.

Versjon 2.6 (september 2017)

mulighet til å angi mørketall som intervall også under p=2 og p=3
justering i optimaliseringa som unngår altfor tidlige startår for ekspansjonen
grafisk visning av konfidensintervallene

Versjon 2.5 (august 2017)

begrensning av mørketallenes konfidensintervall til de spesifiserte mørketallene
angivelse av estimater som AICc-baserte modell-gjennomsnitt
implementering av p=3 (AICc-basert valg mellom p=1 og p=2)

Versjon 2.4 (april 2017)

implementering av ny.obs=FALSE
mulighet til å overstyre den raske estimeringa ved p=2
retting av en "tege" ved beregning av utbredelsesområdet

Versjon 2.3 (mars 2017)

mulighet for å angi årlig innsamlingsinnsats som kovariat for oppdagbarhetsraten
forbedra estimering av konfidensintervaller når mørketallet er angitt
implementering av en raskere estimering ved p=2

Versjon 2.2 (februar 2017)

utmating av utbredelsesområdet
mulighet for utmating av datasettet bak grafen
justering av konvergenstoleransen, slik at flere konfidensintervaller blir estimerbare

Versjon 2.1 (januar 2017)

beregning av konfidensintervaller
mer intuitive standardinnstillinger
retting av noen "teger" (bugs) som genererte unødvendige feilmeldinger

Versjon 2.0 (desember 2016)

Fra og med versjon 2.0 var programmet basert på den nye definisjonen på ekspansjon som årlig økning i forekomstarealet, som lå til grunn for GEIAAs B-kriterium og risikovurderingene i Fremmedartslista 2018.

Versjon 1.4 (juli 2012)
Versjon 1.3 (januar 2012)
Versjon 1.2 (november 2011)
Versjon 1.1 (september 2011)
Versjon 1.0 (august 2011)

Programmets 1.x-versjoner het spredning, var basert på Sæther mfl. (2010, s. 59–61) og ble brukt i Fremmede arter i Norge – med norsk svarteliste 2012.

Programmet expansion:forklaringer og dokumentasjon

Programmet expansion:
forklaringer og dokumentasjon