¿Qué son los modelos de regresión espacial?
El detective GIS experto en tecnología ama la regresión espacial porque se usa para modelar relaciones espaciales. Los modelos de regresión investigan qué variables explican su ubicación.
Por ejemplo: si tiene ubicaciones de delitos en una ciudad, puede usar la regresión espacial para comprender los factores detrás de los patrones de delitos. Podemos usar la regresión espacial para comprender qué variables (ingresos, educación y más) explican las ubicaciones de los delitos.
A continuación, se puede utilizar un modelo de regresión espacial para la toma de decisiones. Por ejemplo, puede responder dónde están las ubicaciones adecuadas para las estaciones de policía. Los modelos de regresión espacial también se utilizan para predecir futuras ubicaciones de delitos e incluso en otras ciudades.
Entendamos algunas de las terminologías en los modelos de regresión.
- Variable dependiente (Y): ¿Qué estás tratando de predecir? (Ubicación de los crímenes)
- Variable independiente (X): Variables explicativas que explican la variable dependiente. (Ingresos, educación, etc.)
- Beta-coeficiente: Pesos que reflejan la relación entre las variables explicativas y dependientes.
- Residual: El valor no explicado por el modelo.
Fórmula de regresión:
y = 0 + ( 1 x 1 ) + ( 2 x 2 ) + + ( nxn ) +
Análisis de regresión espacial en ArcGIS
Pongamos en acción las herramientas de regresión de ArcGIS mediante la creación de un índice de idoneidad del hábitat (HSI), también conocido como función de selección de recursos (RSF). Con 308 ubicaciones GPS de ciervos de los pantanos, investigamos la relación entre los ciervos de los pantanos y su paisaje.
Importante tener en cuenta: Este es un escenario hipotético con datos inventados.
Respondemos preguntas como:
- ¿Qué recursos seleccionan o evitan los ciervos de los pantanos?
- ¿Cuáles son algunos de los factores que contribuyen a la ubicación del ciervo de los pantanos?
Índice de Idoneidad del Hábitat (HSI)
Índice de idoneidad del hábitat (HSI): un HSI es un índice numérico que representa la capacidad de un hábitat determinado para sustentar una especie seleccionada
¿Por qué crear un HSI?
Un administrador de recursos de la tierra utiliza HSI para tomar mejores decisiones sobre el paisaje. Si un HSI muestra que los ciervos de los pantanos prefieren los tipos de hábitat de humedales, un administrador de recursos terrestres puede preservar estos tipos de hábitat.
Un administrador de recursos de la tierra puede prohibir el desarrollo de infraestructura porque un HSI muestra la capacidad de un hábitat dado para albergar ciervos de los pantanos. Podemos extrapolar HSI para predecir ciervos de pantano en otros lugares.
Variables explicativas
¿Cuáles son las variables explicativas del ciervo de los pantanos? Esta puede ser la parte más difícil del modelo de regresión. Necesitamos investigar los posibles tipos de hábitat para los ciervos de los pantanos. Aquí es donde el asesoramiento de expertos es útil. Esto es lo que encontramos:
Los ciervos de los pantanos se encuentran en hábitats pantanosos, como llanuras aluviales, pastizales y bosques húmedos, y prefieren áreas con una buena cantidad de cobertura para protegerse, como cañaverales o donde los pastizales son altos. Esta especie se encuentra predominantemente cerca de fuentes permanentes de agua.
Con base en la literatura, los ciervos de los pantanos seleccionan la vegetación y el agua naturales. Pero, ¿existen características de la tierra que puedan perturbar potencialmente a los ciervos de los pantanos? Exploramos estas variables independientes utilizando nuestro análisis de regresión espacial.
Variables independientes y dependientes
Nuestra área de estudio se caracteriza por vegetación natural y aguas abiertas. Una carretera atraviesa las celdas A6-F6, lo que puede actuar como una perturbación potencial. Los campamentos también están presentes en las celdas B3, C7 y D7.
Marsh Deer Distribución y Campamentos
Cada punto representa la posición GPS del ciervo de los pantanos. Visualmente, parece haber menos ciervos de los pantanos cerca de las carreteras y los campamentos. Otra observación es que los ciervos de los pantanos parecen más densos en las celdas D2 y D3 donde hay humedales.
Análisis de puntos de acceso
Este mapa de puntos críticos confirma menos ciervos cerca de las carreteras en un grado de menos de -2 desviaciones estándar de la media. Los ciervos de los pantanos son más densos cerca de las celdas D2. Aparte de estos dos puntos bajos y puntos calientes, no parece haber más patrones espaciales en el área de estudio.
- ¿Por qué hay tantos ciervos en estos puntos calientes?
- ¿Cuáles son algunos de los factores que contribuyen a estos puntos calientes?
Podemos responder a este tipo de preguntas mediante el análisis de regresión. Usemos la regresión espacial para modelar las relaciones espaciales entre los ciervos de los pantanos y las características de la tierra.
Regresión de mínimos cuadrados ordinarios (OLS)
El primer paso es agrupar las variables independientes y dependientes por celda de cuadrícula. No podemos considerar las ubicaciones de los ciervos de Marsh como puntos. La tabla debe tener el número de venados, campamentos y humedales para cada celda de la cuadrícula. La siguiente tabla es un ejemplo de una tabla preprocesada usando OLS.
Usaremos la herramienta Regresión de mínimos cuadrados ordinarios en el kit de herramientas Modelado de relaciones espaciales.
Modelo de regresión de mínimos cuadrados ordinarios:
Clase de entidad de entrada: celdas de cuadrícula con datos agregados
ID único: un campo de ID único (por ejemplo, 1, 2, 3)
Clase de entidad de salida: ruta y nombre de la salida
Variable dependiente : Conteo de venados
Variables Explicativas: Campamentos, Caminos y Agua
Archivo de informe de salida: genera un archivo de informe.
Después de ejecutar la herramienta OLS, los residuos del modelo de predicción se agregarán a su pantalla. Los residuos son esencialmente el error en el modelo.
Echemos un vistazo más de cerca a lo que realmente es un residuo antes de seguir adelante. Si observamos la celda A1 (abajo a la izquierda), se encontraron 9 ciervos en esta celda de cuadrícula. El modelo OLS generó ponderaciones basadas en la cantidad de árboles, humedales, césped, caminos y campamentos en la celda. Estos pesos son los valores del coeficiente beta.
Cuando conectamos los pesos en la fórmula de regresión, había un estimado de 6.98 ciervos en la celda A1. Cuando restas 6,98 de 9, obtenemos un residuo de 2,01. En otras palabras, el modelo subestima el valor real en 2,01.
Valores de residuos de regresión de mínimos cuadrados ordinarios:
Variable | Beta-coeficiente | p < 0,05 | V.F.I. |
Interceptar | 0 = 5,916744 | 0.0000001* | |
Carreteras | 1 = -0.524393 | 0.0000001* | 1.150233 |
Agua | 2 = 0,056088 | 0.0000001* | 1.139367 |
Acampar | 3 = -3.558805 | 0.0000001* | 1.010354 |
Puede interpretar el bajo coeficiente beta negativo de los campamentos (-3,56) como áreas que evitan los ciervos de los pantanos. Las carreteras también tuvieron un valor negativo de -0,52, lo que significa que los ciervos no seleccionan estas cuadrículas. Los ciervos de los pantanos prefieren los humedales como hábitat adecuado. Este modelo confirma esta creencia.
Podemos conectar manualmente el modelo de coeficiente beta en el modelo de regresión. El resultado es el valor predicho. En nuestro caso, es el número predicho de ciervos en la celda de la cuadrícula.
y = 0 + ( 1 x 1 ) + ( 2 x 2 ) + + ( nxn ) +
A1 = 5,916744 + (-0,524393 0) + (0,056088 30) + (-3,558805 0)
A1 = 7,59
Este modelo OLS logra un valor R-cuadrado ajustado de 0,795. Con estos 3 factores podemos explicar el 79,5% de la variación que se está produciendo.
¿Qué le falta al modelo? Depredadores conocidos, edad del bosque, tipo de humedal.
Factor de inflación de varianza (VIF):
Otro estadístico de interés es el Factor de Inflación de la Varianza (VIF). Si el VIF > 7.5, esto indica redundancia entre las variables explicativas. Nuestro modelo HSI cumplió estos criterios con VIF < 2.0.
Probabilidad y Probabilidad Robusta:
Un asterisco (*) indica que el coeficiente es estadísticamente significativo (p < 0,05). El HSI de venado de Marsh tenía valores de p < 0,0001, lo que significa que los coeficientes son estadísticamente significativos.
Estadística de Jarque Bera:
Cuando esta prueba es estadísticamente significativa (p < 0,05), las predicciones del modelo están sesgadas (los residuos no se distribuyen normalmente). La puntuación de la Estadística de Jarque-Bera fue de 0,721. Cuando las herramientas de modelos de regresión OLS dan la ADVERTENCIA 000851 al final del informe, esto significa que la herramienta de autocorrelación espacial (Morans I) debe procesarse para garantizar que los residuos no estén autocorrelacionados espacialmente.
Autocorrelación espacial de Morans I
La autocorrelación espacial nos dirá si las predicciones por debajo o por encima son aleatorias. Ningún modelo puede predecir perfectamente y siempre sobreestimará o subestimará. La autocorrelación espacial investiga si el modelo OLS se distribuye aleatoriamente.
Autocorrelación espacial de Morans I:
Clase de entidad de entrada: salida OLS
Campo de entrada: Residual estándar (StdResid)
Generar informe: SÍ
Al hacer clic en Aceptar, la herramienta genera un informe. Haga doble clic en el informe y asegúrese de que los resultados sean aleatorios.
LEER MÁS: Autocorrelación espacial y Morans I en SIG
Resumen: modelos de regresión espacial
Construimos una relación espacial entre los ciervos de los pantanos, los campamentos, las carreteras y los humedales utilizando la herramienta de regresión espacial. Las herramientas de regresión investigaron la relación entre estos factores y generaron pesos para cada variable.
Estos pesos se conectaron a la fórmula de regresión para calcular y predecir el número de ciervos. El factor de inflación de la varianza, z-scores, Jarque-Bera y Morans I aseguraron robustez y significancia estadística en el modelo de regresión espacial.
El modelo de regresión muestra cómo los ciervos de los pantanos seleccionan los humedales como hábitat adecuado. También muestra que los ciervos de los pantanos tienden a evitar los campamentos y las carreteras.
Esto es útil para los administradores de recursos de tierras para restringir potencialmente el desarrollo de campamentos y caminos para conservar este tipo de venado. El modelo de regresión también puede predecir ciervos de los pantanos en otras áreas.
¿Qué es el modelo de regresión en SIG?
El análisis de regresión en ArcGIS Insights se modela utilizando el método de mínimos cuadrados ordinarios (OLS). El método OLS es una forma de regresión lineal múltiple, lo que significa que la relación entre las variables dependientes y las variables independientes debe modelarse ajustando una ecuación lineal a los datos observados.
¿Cuáles son las 4 condiciones para la regresión?
Linealidad: La relación entre X y la media de Y es lineal. Homocedasticidad: La varianza del residual es la misma para cualquier valor de X. Independencia: Las observaciones son independientes entre sí. Normalidad: para cualquier valor fijo de X, Y se distribuye normalmente.
¿Qué es la regresión en la teledetección?
La estimación de regresión consiste en usar primero un sensor de resolución espacial más grueso sobre un área grande. Para muestras seleccionadas, se realiza una segunda delimitación con un sistema de resolución espacial más fino que se supone que es más preciso.
¿Qué es la regresión espacial?
Modelos de regresión espacial, normalmente con una especificación aditiva lineal, en los que la relación entre unidades de área se especifica de forma exógena utilizando una matriz de ponderación que imita la estructura espacial y el patrón de interacción espacial.