Vistazo general a métodos de modelamiento Catherine Graham y Pablo A. Menéndez con algunas diapositivas de Richard Pearson, A. Town Peterson, Enrique Martínez and Miguel Nakamura
Richard Pearson Postdoctoral Research Fellow, American Museum of Natural History Townsend Peterson Department of Ecology & Evolutionary Biology, The University of Kansas , Lawrence , Kansas Enrique Martínez Instituto de Biología, UNAM, Mexico Miguel Nakamura Instituto de Investigación en Matemáticas, Guanajuato, Mexico
Modelos de distribución de especies Modelos empíricos que predicen la distribución espacial de una especie a partir de las condiciones ambientales en los sitios donde se sabe que esta presente (o ausente) - Supue Supuest sto: o: El El ambie ambiente nte del siti sitio o donde donde ocurr ocurre e la especie representa su nicho ecológico - Son Son utiliz utilizada adas s una una multit multitud ud de apro aproxi ximac macio iones nes estadísticas
Modelamiento
Algunas aproximaciones que se han hecho: Method(s)
Model/software name
Species data type
Climatic envelope
BIOCLIM
Presence-only
Gower Metric
DOMAIN
Presence-only
Ecological Niche Factor Analysis (ENFA)
BIOMAPPER
Presence/background
Maximum Entropy
MAXENT
Presence/background
Genetic algorithm
GARP
Presence/pseudoabsence
Regression: Generalized linear model (GLM) and Generalized additive model (GAM)
GRASP
Presence/absence
Artificial Neural Network (ANN)
SPECIES
Presence/absence
Classification and regression trees (CART), GLM, GAM and ANN
BIOMOD
Presence/absence
Boosted decision trees
(implemented in R)
Presence/absence
Multivariate adaptive regression splines (MARS)
(implemented in R)
Presence/absence
Datos de distribución de especies: solo presencia o presencia/ausencia?
Registro de ‘presencia’ observada + + Registro de ‘ausencia’ observada
Uroplatus sp. (leaf-tailed gecko)
+
+
+ + +
Datos de distribución de especies: solo presencia o presencia/ausencia?
Registro de ‘presencia’ observada
? ?
’
? ? ? ?
?
?
?
?
?
?
?
?
Uroplatus sp. (leaf-tailed gecko)
?
?
?
? ?
? ?
?
? ?
? ?
?
?
?
?? ?
? ?
? ?
?
? “pseudo-ausencia’
Datos de distribución de especies: solo presencia o presencia/ausencia?
Registro de ‘presencia’ observada ‘Fondo’
Uroplatus sp. (leaf-tailed gecko)
Datos de distribución de especies ? ?
+ ? ?
?
+ +
?
?
+
Presencia/ ausencia
?
? ? ? ? ? ? ? ? ? ?? ? ? ? ? ? ? ? ? ? ? ? ?? ? ? ?
+
+
?
?
Solo presencia
Presencia/pseudo ausencia
Presencia/fondo
Cuándo una ausencia es realmente una ausencia? Una especie puede considerarse “ausente” en una localidad por varias razones: 1.
La especie no pudo ser detectada, aun estando presente
2.
La especie estaba ausente, aun cuando el ambiente es apropiado para su presencia (e.g. por limitaciones de dispersión, la especie no ha colonizado el área todavía o ha desaparecido)
3.
El ambiente realmente no es apropiado para la especie Tenga cuidado cuando use datos de “ausencia”
Tomado de Richard Pearson
Consideraciones generales: Explicación o predicción? •
Para explicación/entendimiento: una aproximación simple pero lo suficientemente buena es preferible
•
Para predicción: la mejor aproximación posible es preferida. Algunas aproximaciones, incluyendo redes neuronales artificiales y algoritmos genéticos pueden dar buenas predicciones pero pueden no ayudarnos a entender el sistema.
X Ambiente
Y = b0 + b1 X 1 + b2 X 2 + ... + bk X k
O caja negra?
Y Predicción
(M. Nakamura)
Consideraciones generales: Complejidad del modelo Truth Training sample Sample model Test points Training error Test error
Y
X
(M. Nakamura)
Consideraciones generales: Complejidad del modelo Truth Training sample Complex model Test points Training error Test error
Y
X
(M. Nakamura)
High Bias
Low Bias
Low Variance
High Variance
r o r r E n o i t c i d e r P
Test sample
Training sample
Low
High Model Complexity Hastie et al . (2001)
Algoritmos usando solo datos de presencia: Envoltura climática: BIOCLIM • Modelo “en caja” simple e intuitivo • Da igual peso a todas las variables • No tiene en cuenta interacciones potenciales entre las variables • Da predicciones binarias (no se requiere de umbral) • No puede usar variables categóricas • No permite extrapolaciones
Vea: Nix 1986… o Lindenmayer et al. 1991 J. Biogeog. 18: 371-383. Arcscript: http://arcscripts.esri.com/details.asp?dbid=13745 Diva GIS: http://diva-gis.org
TRES
DOS UNO
CERO
CERO CERO
0
2.5
5
95
percentiles
97.5
100
Algoritmos usando registros de presencia y datos de fondo: MAXENT: viene mucho más … ENFA (Análisis Factorial de Nicho Ecológico) • Implementación en Biomapper: http://www2.unil.ch/biomapper/ • No puede interpretar datos categóricos (discretos)
Vea: Hirzel et al. 2002 Ecology 83: 2027-2036.
Marginalidad =
mG
" mS
1.69! G ! G
Especialización =
!
S
Algoritmos usando registros de presencia y pseudo ausencias: GARP (Algoritmo Genético para un conjunto de predicciones) • Usa un algoritmo genético para producir reglas basadas, en parte, en envolturas climáticas y modelos lineales generales. • Muestrea 1250 localidades de pseudoausencias • Interfase de usuario amigable • Ampliamente empleada para tratar una variedad de preguntas • Computacionalmente intensivo • Pobre para interpretar datos categóricos Vea: Stockwell and Peters 1999 Int. J. Geographical Info. Systems 13: 143-158; Anderson et al. 2003 Ecological Modelling 162: 211-232 … y artículos de A. Town Peterson and colleagues http://www.lifemapper.org/desktopgarp/
Algoritmos usando registros de presencia y ausencia: Regresión: GLM (Modelo Lineal Generalizado) y GAM (Modelo Aditivo Generalizado) • Implementados en SPLUS y R por el grupo GRASP
(Generalized Regression Analysis and Spatial Prediction) • Aproximaciones estadísticas “transparentes” • GLMs asumen una relación lineal entre la respuesta y las variables de entrada
Vea Guisan et al. 2002 Ecological Modeling 157: 89-100 Lehman et al. 2002 Ecological Modeling 157: 189-207
http://www.cscf.ch/grasp/
Algoritmos usando registros de presencia y ausencia: ANN (Redes Neuronales Artificiales) • Una aproximación del aprendizaje automático (machine-learning), inspirado en la estructura del cerebro. • Teóricamente bueno identificando relaciones no lineales, y robusto al ruido • La estructura en red es difícil de interpretar, haciendo que esta aproximación sea fácilmente una “caja negra” • Pude adaptarse para interpretar datos categóricos • Existen varios paquetes de software, aunque recientemente fue implementado para el modelameinto de distribuciones en un programa del grupo de la Universidad de Oxford (modelo SPECIES)
Vea: Pearson et al. 2004 Ecography 27: 285-298 Hilbert and Ostendorf 2001 Ecological Modelling 146: 311-327
Otros algoritmos/modelos (contribuciones de grupos)… • Distancia de Mahalonobis: presencia-fondo; no categóricos; extensión de ArcView. • DOMAIN: distancia bray-curtis, DIVA-GIS • Aproximaciones de agrupamiento (clustering): multivariado • Envoltura difusa (Fuzzy envelope): Svenning & Skov • WhyWhere: David Stockwell • Random Forest: muchos árboles de regresión, sistemas salford • Aproximaciones Bayesianas
Entonces, cuál es el mejor método?
Evaluando metodologías alternativas para el modelamiento de nicho ecológico de especies y predicción de distribuciones geográficas National Center for Ecological Analysis and Synthesis (NCEAS)
Grupo de Trabajo: Robert Anderson, Thomas Edwards, Jane Elith, Simon Ferrier, Catherine Graham, Antoine Guisan, Robert Hijmans, David Hilbert, Falk Huettman, Chrissy Howell, Bette Loiselle, Antony Lehmann, John Leathwick, Jin Li, William Michener, Miro Dudik, Craig Moritz, Miguel Nakamura, Jake Overton, Steven Phillips, Karen Richarson, Ricardo Scachetti-Pereira, Townsend Peterson, Robert Schapire, Jorge Soberon, Stephen Williams, Mary Wisz, Nicolas Zimmerman
Descarga gratuita del sitio web de Ecography
Datos de Museo • Colectados no sistemáticamente a lo largo del espacio ambiental y geográfico • Sesgados y con ruido • Generalmente solo datos de ocurrencia de especies (no datos de ausencias)
Marco de Referencia • Datos de presencia y datos independientes de presencia/ausencia para evaluación de los modelos • Diferentes regiones (6) y varias especies (20-54 por región) • Expertos corrieron cada método de modelamiento
Regiones • Trópicos Húmedos Australianos (AWT; aves y plantas) • Ontario, Canadá (CAN; aves) • Nueva Gales del Sur (NSW; aves, reptiles, murciélagos y plantas) • Nueva Zelanda (NZ, plantas) • Sur América (SA; plantas, familia Bignoniaceae) • Suiza (SWI, árboles)
Método
Clase de modelo
Datos
Software
BIOCLIM DOMAIN LIVES
De envoltura Distancia multivariada Distancia multivariada
p p p
GLM
Regresión; modelo lineal generalizado Regresión; modelo aditivo generalizado Splines de regresión adaptativa multivariada
pa
DIVA-GIS DIVA-GIS Programa especializado no difundido S-Plus, GRASP add-on
pa
S-Plus, GRASP add-on
pa
Como mars; usa datos de comunidad Conjunto de reglas derivadas de algoritmos genéticos Árboles de regresión “boosted” máxima entropía Modelos de disimilaridad generalizada; usa datos de comunidad
pa
R, paquete mda más códigos nuevos para manejar respuestas binomiales Igual que el anterior
GAM MARS MARS. COMM DTGARP OMGARP BRT MAXENT GDM
pa pa pe pa
Versión revisada de desk-top GARP R, paquete brt Maxent Programa especializado no difundido; usa Arcview y Splus
Estadísticos de Evaluación Coeficiente de Correlación de Pearson
Receiving Operating Characteristic Curve (ROCarea)
Ophioscincus truncatus – Nueva Gales del Sur, AU 79 registros para modelamiento 74 presencia / 932 ausencia para evaluación
BIOCLIM
GARP
GAM
Poa sieberiana – Nueva Gales del sur, AU 53 registros para modelamiento 512 presencia / 797 ausencia para evaluación
Tendencias generales entre regiones y especies
Resultados regionales
Conclusiones • Modelos precisos de distribución de especies pueden generarse con datos de solo presencia. • Hay variación en el desempeño de los algoritmos. • Algunos métodos parecen arrojar resultados buenos de manera consistente. • La elección del modelo ha de depender de la pregunta, experiencia, etc.