Programmet expansion: forklaringer og dokumentasjon
Programmet expansion er skrevet for å estimere en populasjons
ekspansjonshastighet ut fra data på populasjonens utbredelse i tid og rom.
Programmet expansion kjøres online via nettsida
https://view.nina.no/expansion/.
Det kreves et datasett med sted- og tidfesta observasjoner av en art over minst ti år.
Programmet kjøres ved å laste opp datafila, velge de ønska parameterne og vente på utmatinga.
Skjermbildet består av seks ruter (to rader à tre paneler):
Programmet expansion foreligger også som et
R-script. Det kan lastes ned fra URL-en
http://www.evol.no/hanno/21/expans.rtx,
f.eks. med R-kommandoen load(url("http://www.evol.no/hanno/21/expans.rtx")) .
Så kan scriptet kjøres ved å skrive ekspansjon(...) ,
der "..." representerer parameterne. Parameterne er de samme som i versjon 2.6 (og
er forklart et annet sted).
Med ekspansjon menes her antall nye forekomster per tidsenhet
(der "forekomster" er koloniserte 2 km × 2 km-ruter).
Ekspansjon omfatter dermed enhver form for spredning eller forflytning av arten
(uansett måte, årsak og spredningsvei, dvs. inkludert aktive og passive,
naturlige og antropogene, tilsikta og utilsikta forflytninger).
Matematisk sett beskrives ekspansjonshastighet som den årlige radiusøkninga
av artens forekomstareal (der radiusen beregnes som om forekomstarealet var en
sammenhengende sirkel som inneholder alle forekomster og bare forekomster).
Modellen som programmet er basert på, har blitt beskrevet av
Sandvik (2020).
I økologiske risikovurderinger av fremmede arter ifølge
GEIAA-metoden inngår ekspansjonshastighet som
kriterium B på invasjonsaksen.
For at datafila kan leses inn, bør den være en semikolondelt ren-tekst-fil med overskriftsrad.
Nærmere bestemt gjelder følgende:
- Dataene må være organisert kolonnevis, dvs. fila må bestå av
én kolonne per variabel (år og f.eks. geografisk bredde og lengde)
og én rad per observasjon.
- Den første raden må inneholde variabelnavnene.
- En kolonne må inneholde årstall og hete "
t ". Øvrige variabelnavn er avhengig av
koordinatsystemet som er brukt, og forklares under.
- Det kreves minst ti år med observasjoner.
- Forekomster kan enten føres opp første året de ble observert (om de kan antas å ikke dø ut),
eller hvert år de antas å eksistere. (I det andre tilfellet må
standardinnstillinga endres.)
- Alle radene må ha like mange skilletegn.
- Som skilletegnet mellom kolonnene (dvs. mellom elementene i en rad)
brukes semikolon (
; ). Komma (, ) tolereres også som skilletegn,
såfremt det brukes konsekvent og ikke som desimaltegn. Semikolon- eller kommadelte filer
kan lages i alle regnearkprogrammer ved å velge "lagre som"
("save as") og så angi "semikolondelt" (evt.
"kommadelt", "comma delimited") som "filtype".
(Betegnelsen kan variere avhengig av programmet og innstillingene.
Slike filer har vanligvis endelsen ".CSV" eller ".SDV".)
- Symbolet som brukes som skilletegn, må ikke forekomme i andre sammenhenger.
Fila bør heller ikke inneholde apostrof (
' ). Forekommer slike tegn f.eks. i en
tekstkolonne, må tegnene enten erstattes eller kolonnen fjernes før innlesing.
- Som desimaltegn brukes punktum (
. ). Komma (, ) tolereres også
som desimaltegn, såfremt det ikke brukes som skilletegn.
- Mellomrom tolereres mellom elementene og anførselstegn rundt
(på begge sider av) elementene i en rad (f.eks. er
;12; ekvivalent til
;12 ; og til ;"12"; ).
- Manglende verdier tolereres. De angis ved utelatelse (
;; ) eller
som mellomrom (; ; ).
- Observasjonenes rekkefølge er uten betydning.
- Kolonnenes rekkefølge er uten betydning.
- Ytterligere kolonner ignoreres. (Det kan likevel være en fordel å
slette overflødige kolonner før innlesing, nemlig hvis det kan hende at
kolonnene inneholder kommaer eller apostrofer.)
Koordinatsystemer
Plasseringa til observasjonene kan angis på seks måter, fordelt på tre ulike
koordinatsystemer:
der variabelnavnene har følgende betydning og formatering:
bg |
Breddegrader – angis som heltall eller desimalbrøk mellom
–90 (= 90°S) og +90 (= 90°N). |
bm |
Geografisk bredde i minutter – angis som heltall eller desimalbrøk mellom 0 og 60. |
bs |
Geografisk bredde i sekunder – angis som heltall eller desimalbrøk mellom 0 og 60. |
lg |
Lengdegrader – angis som heltall eller desimalbrøk mellom
–180 (= 180°V) og +180 (= 180°Ø). |
lm |
Geografisk lengde i minutter – angis som heltall eller desimalbrøk mellom 0 og 60. |
ls |
Geografisk lengde i sekunder – angis som heltall eller desimalbrøk mellom 0 og 60. |
mgrs |
MGRS-koordinater – angis som tekststreng. |
zone |
UTM-sonen – angis som heltall mellom 1 og 60. (Norge vest for 12°Ø ligger f.eks. i sone 32.) |
band |
MGRS-belte – angis som bokstav mellom "C" og "X".
(Norge nord for 64°N ligger f.eks. i belte W, Norge sør for 64°N i belte V.) |
id |
MGRS-identifikator for en 100 km-rute – angis som to bokstaver mellom "AA"
og "ZV". |
east |
"Easting" (østlig posisjon) – angis som tall, men kan formateres som tekststreng.
Betydning og tillate verdier er noe ulik i UTM og MGRS. |
north |
"Northing" (nordlig posisjon) – angis som tall, men kan formateres som tekststreng.
Betydning og tillate verdier er noe ulik i UTM og MGRS. |
fylke |
Fylke – angis som tekststreng. Kan bare brukes for data fra Norge. (Denne variabelen gjør
det mulig å bruke MGRS-koordinater, selv om angivelsen av sonen og beltet mangler i datafila.
Strengt tatt er det tilstrekkelig å angi "Finnmark" eller "annet".) |
Eksempel
Koordinatene til Tromsø (69°39'5"N 18°57'19"Ø) kan dermed angis
på følgende måter:
- (1) {bg=69.65139; lg=18.95528}
- (2) {bg=69; bm=39; bs=5; lg=18; lm=57; ls=19}
- (3) {mgrs="34WDC2058828390"}
- (4) {zone=34; band="W"; id="DC"; east="20588"; north="28390"}
- (5) {id="DC"; east="20588"; north="28390"; fylke="Troms"}
- (6) {zone=34; east=420588; north=7728390}
OBS
- Merk at MGRS-systemet ofte feilaktig refereres til som UTM-system.
Men selv om MGRS-systemet bygger på UTM-systemet, angis koordinater på
forskjellige måter i de to systemene. Tromsøs UTM-koordinater er
34 420588 7728390. Tromsøs MGRS-koordinater er
34WDC2058828390.
- Hvis koordinatene angis som UTM eller MGRS, må de respektive
standardene følges. (Selv om programmet vil oppdage enkelte åpenbare feil,
vil ikke alle tenkelige inkonsistenser siles ut.)
- For å skille mellom nordlig og sørlig halvkule,
brukes fortegn i UTM-koordinatens "northing" (positivt på
nordhalvkula og negativt på sørhalvkula; positivt fortegn kan sløyfes).
- Ledende nuller kan skape problemer for "easting" og
"northing" i MGRS-systemet (men ikke for UTM), hvis de faller bort.
For å unngå det, bør
east og north lagres som
tekststreng heller enn tall.
- Variabelnavnene må være nøyaktig som angitt over.
- Presisjonen av posisjonsbestemmelsen spiller ingen rolle for tolkninga
av koordinatene (men muligens for resultatene).
- Observasjonene i datasettet kan bruke ulike koordinatsystemer.
- Hvis flere koordinatsystemer er angitt, ignoreres UTM såfremt MGRS er
angitt, og MGRS såfremt bredde- og lengdegrader er angitt.
Før programmet kjøres, må parameterne kontrolleres og eventuelt endres.
De følgende parameterne er tilgjengelig:
Mørketall
Mørketallet er en svært viktig parameter, siden den har en direkte effekt på
ekspansjonshastighetens estimat. Mørketall er definert som den faktor som brukes
for å justere det kjente forekomstarealet opp til det anslått totale
forekomstarealet (dvs. totalt = kjent × mørketall).
Et kvalifisert anslag på mørketallet kan gi mer realistiske
estimater. Mørketallet angis som en tallverdi eller et intervall av tallverdier og
antas å gjelde for datasettets siste år.
Angis mørketallet som et intervall, leter programmet etter det optimale
mørketallet innafor disse grensene. Hvis én tallverdi blir angitt, bruker
programmet kun det angitte mørketallet.
Om man ønsker å angi et mørketall med desimaler (som kun gir mening ved lave
mørketall), må man fjerne avkrysninga i boksen "tillat bare heltall".
Ønsker man ikke å angi mørketallet, men å estimere det
sammen med ekspansjonshastigheten og observerbarhetsraten, må intervallet settes
til 1–101. Det må imidlertid påpekes at dette vil resultere i nokså usikre
estimater.
Modell
Det er så langt implementert fire ulike modeller eller sett med antagelser:
- Både ekspansjonshastigheten og oppdagbarhetsraten er konstante over tid
(dette er standardinnstillinga);
- Oppdagbarhetsraten endres én gang, men er konstant før og etter dette
knekkpunktet, som estimeres fra dataene;
- De to førstnevnte variantene prøves ut etter tur, og resultatene for den
beste av dem presenteres (der valget baseres på AICc);
- Oppdagbarheten er proporsjonal til et mål for den årlige innsamlingsinnsatsen,
som i så fall må være kjent.
Det siste alternativet forutsetter at man laster opp et datasett med årlige
verdier på innsamlingsinnsatsen, som begynner i år 1800. Filformatet må være ren
tekst, der oppføringene er skilt ved enten semikolon, komma, mellomrom eller
linjeskift. Fila kan kun lastes opp når det siste alternativet er valgt.
Om datasettet er for kort (i antall år), vil valgmuligheten ikke være
tilgjengelig. Estimeringa baseres i så fall på modell 1.
Øvrige innstillinger
I tillegg kan det en sjelden gang være aktuelt å endre flere standardinnstillinger.
For å gjøre det, må boksen "endre standardinnstillinger" krysses av (og forbli avkryssa).
De følgende innstillingene kan endres (om de er tilgjengelig):
- Ifølge standardinnstillinga forventes at hver lokaliteter av arten kun er ført opp
én gang i datafila, nemlig med årstallet for den første observasjonen av arten på den
aktuelle lokaliteten. Denne innstillinga bør beholdes om man kan anta at artens
forekomster ikke forsvinner igjen etter at de er kolonisert. Om denne antagelsen ikke
er realistisk, velges alternativet. I så fall må lokaliteter være ført opp i datafila
for hvert år av deres eksistens. I år som ikke er oppgitt, antas arten altså å være
fraværende. Dette alternativet muliggjør modellering av arter som har delpopulasjoner
med kort levetid, eller av arter som er utsatt for kontroll-/utryddelsestiltak. (Om
forekomstene er svært kortlevde, produserer programmet bare deskriptiv statistikk.)
- Konfidensnivået γ er et tall mellom 0 og 0,999 som angir konfidensintervallenes
omfang. Standardinnstillinga er γ = 0,5, som beregner kvartiler.
Med γ = 0,95 beregnes f.eks. 95 %-konfidensintervaller.
- Valget "rask eller fullstendig estimering" bestemmer om programmet bruker
heuristikk for å akselerere beregninga. Det er bare relevant om mørketall er angitt som
et intervall, eller ved beregning av knekkpunkt (modell 2/3). Hvis det estimerte
knekkpunktet ser ut til å bomme, bør man her velge "fullstendig" fremfor
"rask" (som er standardinnstillinga).
- ΔAICc kan angis om modell 3 er valgt.
ΔAICc forstås her som AICc for modellen med én oppdagbarhetsrate
minus AICc for modellen med to oppdagbarhetsrater. Standardinnstillinga
er å foretrekke den enklere modellen om den har lavere AICc enn den andre (dvs.
ΔAICc = 0).
Etter en vellykka konvertering av de opplasta dataene oppsummeres datasettet
med antall observasjoner, antall forekomster, antall år og forekomstenes geografiske
ytterpunkter. Det anbefales å forsikre seg om at disse verdiene er som forventa.
Om konverteringa genererte feilmeldinger eller advarsler, vises disse i samme panel.
Etter at datafilenes observasjoner er konvertert til forekomster, tilbys en
nedlasting av en utvida datafil. Det anbefales å laste ned denne fila, spesielt
om konverteringa tok lang tid. Ved eventuelle senere analyser kan den utvida
datafila lastes opp, slik at man slipper en ny runde med konverteringer.
Kartet viser plasseringa til alle observasjoner i datasettet (som prikker)
samt artens utbredelsesområde (som polygon).
For kartet er det valgt en sylinderprojeksjon, som vil si at alle breddegrader
forløper vannrett og alle lengdegrader loddrett.
Det gjør det enkelt å kontrollere koordinater for observasjonene, men kartet er
dermed verken areal-, avstands- eller vinkeltro.
I kartets midtregion er det tilnærma arealtro.
Når kantene til utbredelsesområdet ser bua ut, er ikke det en feil, men skyldes
at rette linjer vises som buer i en sylinderprojeksjon.
Det fjerde panelet oppsummerer de statistiske antagelsene som den valgte modellen
er basert på. Antagelsene vil aldri være oppfylt til punkt ot prikke, men mindre
avvik er vanligvis uproblematisk. Store og systematiske avvik kan derimot medføre
at estimatene er villedende.
Grafen viser utviklinga til antallet kjente forekomster (svarte prikker).
Grafen har årstall på x-aksen, forekomstarealets (idealiserte) radius
på den venstre y-aksen (lineært skalert) og forekomstarealet
på den høyre y-aksen (kvadratrot-skalert).
Modellen som er tilpassa til de kjente forekomstene, vises som en blå, heltrukket linje.
Den estimerte ekspansjonen, som inkluderer ukjente forekomster, vises som en rød,
stipla linje. Konfidensintervaller er vist med prikka linjer.
Et eventuelt knekkpunkt (årstall for endring i oppdagbarhetsraten) vises som en
loddrett rosa, prikka linje.
Utmatinga består av estimater (forventningsverdi samt nedre og øvre konfidensgrense) for:
- ekspansjonshastighet i meter per år (m/a),
- kjent forekomstareal i km²,
- estimert forekomstareal i km² (kjent forekomstareal ganger mørketall),
- mørketall,
- utbredelsesområdet i km² (ikke korrigert for kyst og grenser),
- startåret for ekspansjonen,
- oppdagbarhetsraten(e),
- forklart varians (R²),
- Akaikes informasjonskriterium (AICc).
Programmet expansion er skrevet av
Hanno Sandvik ved
Norsk institutt for naturforskning (NINA).
Ta gjerne kontakt ved spørsmål, uventa feilmeldinger
eller for forslag, kritikk eller ros.
Programmet foreligger nå i versjon 3.2 (januar 2022).
Lisens
Expansion er tilgjengelig under en CC-BY-SA-4.0-lisens.
Siteringsmåte
Programmet kan siteres slik:
Siter gjerne også metodebeskrivelsen:
Takksigelse
Uten de tallrike og detaljerte tilbakemeldingene fra Hanne Hegre hadde
aldri programmet oppnådd den nåværende funksjonaliteten.
Versjonsoversikt:
- Versjon 3.2 (januar 2022)
- ny beregning av ekspansjonshastighet ved kortlevde forekomster
- raskere beregning når mørketall er angitt som intervall
- korrigert kartvisning og forbedra grafikk
- Versjon 3.1 (desember 2021)
- implementering av applikasjonens demo-versjon
- kartvisning også for funn utenfor Nord-Europa
- korreksjon for at utbredelsesområdets kanter er bua i en sylinderprojeksjon
- Versjon 3.0 (november 2021)
- Versjon 2.6 (september 2017)
- mulighet til å angi mørketall som intervall også under
p=2 og p=3
- justering i optimaliseringa som unngår altfor tidlige startår for ekspansjonen
- grafisk visning av konfidensintervallene
- Versjon 2.5 (august 2017)
- begrensning av mørketallenes konfidensintervall til de spesifiserte mørketallene
- angivelse av estimater som AICc-baserte modell-gjennomsnitt
- implementering av
p=3 (AICc-basert valg mellom p=1 og p=2 )
- Versjon 2.4 (april 2017)
- implementering av
ny.obs=FALSE
- mulighet til å overstyre den raske estimeringa ved
p=2
- retting av en "tege" ved beregning av utbredelsesområdet
- Versjon 2.3 (mars 2017)
- mulighet for å angi årlig innsamlingsinnsats som kovariat for oppdagbarhetsraten
- forbedra estimering av konfidensintervaller når mørketallet er angitt
- implementering av en raskere estimering ved
p=2
- Versjon 2.2 (februar 2017)
- utmating av utbredelsesområdet
- mulighet for utmating av datasettet bak grafen
- justering av konvergenstoleransen, slik at flere konfidensintervaller blir estimerbare
- Versjon 2.1 (januar 2017)
- beregning av konfidensintervaller
- mer intuitive standardinnstillinger
- retting av noen "teger" (bugs) som genererte unødvendige feilmeldinger
- Versjon 2.0 (desember 2016)
- Versjon 1.4 (juli 2012)
- Versjon 1.3 (januar 2012)
- Versjon 1.2 (november 2011)
- Versjon 1.1 (september 2011)
- Versjon 1.0 (august 2011)
|