månadsarkiv: februari 2008

Kartor och andra empiriska modeller

För att överhuvudtaget bringa någon som helst ordning på verkligheten behövs modeller. Den modell av världen som vi själva skapar inom oss, tänker vi inte så ofta på*. Däremot har vi en bättre förståelse för värdet av att kunna förenkla landskap till kartor och krascha helikoptrar i en simulator. Trots en mängd olikheter med verkligheten, kan modellerna vara ytterst användbara, förutsatt att de baseras på bra information (t.ex. ett bra flygfoto om det gäller en karta).

I min verktygslåda som naturgeograf finns både de mera handgripliga modellerna – i form av t.ex. kartor – och de mera abstrakta matematiska modeller som formuleras med en ekvation. De matematiska modellerna är särskilt användbara för att förstå mätbara variabler i miljön, som exempelvis hur sulfathalter eller andra försurningsparametrar varierar beroende på vattenflöden eller andra enkelt mätbara parametrar; och beroende på variablernas antal och egenskaper har jag använt både den klassiska modelleringsmetoden MLR och den modernare MVA, för sådant arbete.

MLR, Multipel linjär regression
Förutsatt att de ingående faktorerna är få och hyfsat oberoende av varandra kan multipel linjär regression (MLR) ge högst användbara modeller. MLR är ofta ett mycket bra val om man har data från en experimentell design (som i de flesta fall är utformade så att de undersökta variablerna är få och kan varieras oberoende av varandra). Om X-variablerna kodas ger modellens koefficienter tydliga indikationer om med vilken styrka och riktning som variablerna styr responsen. Saknas information om eventuella beroenden mellan faktorerna, får graden av beroende uppskattas med t.ex. variance inflation factor (VIF).

MVA, Multivariat analys
Viktig information kan finnas i korrelationer mellan variabler och riskerna med att hitta falska samband ökar med antalet variabler; dessa två faktum motiverar användningen av multivariat analys (MVA). Till skillnad från MLR krävs varken oberoende eller få variabler för att skapa användbara modeller. Eftersom de vanligaste multivariata teknikerna baseras på analys av principalkomponenter som extraheras från blocken av X- och Y-variabler blir tolkningen svårare än för en MLR-modell. Multivariata modeller tolkas oftast genom så kallade laddnings-plottar, som indikerar styrka och riktningar för enskilda faktorer. En sådan tolkning är ganska enkel för en till tre komponenter, men försvåras om fler än tre principalkomponenter i stor utsträckning bidrar till att förklara variansen (mätt genom R2-värdet). Oftast förklaras dock det mesta redan vid två komponenter, vilket gör att problemet är begränsat. Är man mindre intresserad av själva processen kan man dessutom välja att helt enkelt strunta i tolkningen och i stället bara utvärdera om modellen är robust.

Validering är VIKTIGT
Generellt för både MLR och MVA är att det är viktigt att testa om den producerade kartan stämmer med verkligheten, eller med andra ord att validera.

Intern validering
följer i stort sett med på köpet, och baseras på att modellen i kan jämföras med den sämsta modellen som kan skapas utifrån en delmängd av indata. Skillnaden ska inte vara stor och det resulterande R2 för prediktion (även kallat Q2) ska därmed ligga nära R2-värdet. Inom MVA-tekniken PLS går det att göra en form av intervalidering som bygger på att ett antal nya modeller beräknas utifrån att y-variablerna omkastats i slumpmässig ordning. R2 och Q2 för dessa nya modeller ska vara låga i förhållande till den ursprungliga modellen.

Extern validering är det bästa sättet för att se om en modell stämmer med verkligheten. Verkligheten mäts helt enkelt en gång till (eller parallellt) och jämförs med modellens förutsägelse. Detta är något som säkerligen kan göras oftare, men som också lika säkert kostar extra, eftersom det kräver ytterligare mätningar.

Lästips:

  • MLR e-bok: Essential regression (elektronisk textbok till XL-tillägget essential regression)
  • MVA hemsida: Chemometrics made easy. Kortfattad inledning till MVA.
  • MVA vanlig bok: L. Eriksson, E. Johansson, N. Kettaneh-Wold, J.Trygg, C. Wikström, and S. Wold. Multi- and Megavariate Data Analysis Part I: Basic Principles and Applications, Second revised and enlarged edition. UMETRICS AB, Umeå, Sweden, 2006. ISBN 91-973730-2-8

 

 

* i själva verket är ju människan i sig en slags modellmakare, som skapar sig en bild av verkligheten baserat på bara en liten delmängd av alla datasignaler som skulle kunna uppfattas. Allt vi uppfattar är därför snarare en modell, än den sanna verkligheten. Och det ska vi kanske vara glada för… Men den diskussionen hör mera till filosofin än till det praktiska vardagsarbetet, även om den också är allt annat än oväsentlig.