jueves, 9 de octubre de 2025

Ejercicio de Análisis de Varianza Multivariado (MANOVA) - Paso a Paso

Ejercicio de Análisis de Varianza Multivariado (MANOVA) - Paso a Paso


Este documento detalla el cálculo manual de un MANOVA para un conjunto de datos simulados de la Peste Porcina Africana (PPA). El objetivo es determinar si existen diferencias significativas en las variables medidas (X1, X2, X3) entre las granjas con PPA (PPA=1) y sin PPA (PPA=0).


**Hipótesis:**

- **Hipótesis Nula (H₀):** Los vectores de medias de los dos grupos son iguales. No hay un efecto multivariado de la PPA.

- **Hipótesis Alternativa (H₁):** Los vectores de medias de los dos grupos son diferentes. Hay un efecto multivariado de la PPA.


**Paso 1: Datos Originales y Separación de Grupos**


Se utilizan datos de 6 granjas.


**Grupo 1 (PPA = 1):**

- Granja 1: (X1=9.0, X2=1.0, X3=2.5)

- Granja 2: (X1=8.0, X2=1.5, X3=2.8)

- Granja 3: (X1=10.0, X2=0.5, X3=2.2)


**Grupo 2 (PPA = 0):**

- Granja 4: (X1=2.0, X2=9.0, X3=7.5)

- Granja 5: (X1=2.5, X2=8.5, X3=7.2)

- Granja 6: (X1=1.5, X2=9.5, X3=7.8)


---


### **Paso 2: Cálculo de los Vectores de Medias**


**Media del Grupo 1 (PPA=1):**

- X1_g1 = (9.0 + 8.0 + 10.0) / 3 = 9.0

- X2_g1 = (1.0 + 1.5 + 0.5) / 3 = 1.0

- X3_g1 = (2.5 + 2.8 + 2.2) / 3 = 2.5

**Vector de Media G1 = [9.0, 1.0, 2.5]**


**Media del Grupo 2 (PPA=0):**

- X1_g2 = (2.0 + 2.5 + 1.5) / 3 = 2.0

- X2_g2 = (9.0 + 8.5 + 9.5) / 3 = 9.0

- X3_g2 = (7.5 + 7.2 + 7.8) / 3 = 7.5

**Vector de Media G2 = [2.0, 9.0, 7.5]**


**Media General (Total):**

- X1_total = (9.0 + 8.0 + 10.0 + 2.0 + 2.5 + 1.5) / 6 = 5.5

- X2_total = (1.0 + 1.5 + 0.5 + 9.0 + 8.5 + 9.5) / 6 = 5.0

- X3_total = (2.5 + 2.8 + 2.2 + 7.5 + 7.2 + 7.8) / 6 = 5.0

**Vector de Media General = [5.5, 5.0, 5.0]**


**Paso 3: Cálculo de las Matrices de Sumas de Cuadrados y Productos Cruzados (SSCP)**


**A. Matriz Intra-grupos (Within-groups), W (o E, de Error)**


Esta matriz representa la variabilidad dentro de cada grupo. Se calcula sumando las matrices de covarianzas de cada grupo.


**Para Grupo 1:**

- Desviaciones de la media G1:

  - d1 = [9-9, 1-1, 2.5-2.5] = [0, 0, 0]

  - d2 = [8-9, 1.5-1, 2.8-2.5] = [-1, 0.5, 0.3]

  - d3 = [10-9, 0.5-1, 2.2-2.5] = [1, -0.5, -0.3]

- Matriz W1 = d1'd1 + d2'd2 + d3'd3

  W1 = [[2.0, -1.0, -0.6], [-1.0, 0.5, 0.3], [-0.6, 0.3, 0.18]]


**Para Grupo 2:**

- Desviaciones de la media G2:

  - d4 = [2-2, 9-9, 7.5-7.5] = [0, 0, 0]

  - d5 = [2.5-2, 8.5-9, 7.2-7.5] = [0.5, -0.5, -0.3]

  - d6 = [1.5-2, 9.5-9, 7.8-7.5] = [-0.5, 0.5, 0.3]

- Matriz W2 = d4'd4 + d5'd5 + d6'd6

  W2 = [[0.5, -0.5, -0.3], [-0.5, 0.5, 0.3], [-0.3, 0.3, 0.18]]


**Matriz W Total = W1 + W2:**

W = [[2.5, -1.5, -0.9],

     [-1.5, 1.0, 0.6],

     [-0.9, 0.6, 0.36]]


#### **B. Matriz Inter-grupos (Between-groups), B (o H, de Hipótesis)**


Esta matriz representa la variabilidad entre los grupos.


- Desviación de G1 respecto a la media general: d_g1 = [9.0-5.5, 1.0-5.0, 2.5-5.0] = [3.5, -4.0, -2.5]

- Desviación de G2 respecto a la media general: d_g2 = [2.0-5.5, 9.0-5.0, 7.5-5.0] = [-3.5, 4.0, 2.5]

- B = n1*(d_g1'*d_g1) + n2*(d_g2'*d_g2)

  B = 3 * [[12.25, -14.0, -8.75], [-14.0, 16.0, 10.0], [-8.75, 10.0, 6.25]] + 3 * [[12.25, -14.0, -8.75], [-14.0, 16.0, 10.0], [-8.75, 10.0, 6.25]]

  B = [[36.75, -42.0, -26.25], [-42.0, 48.0, 30.0], [-26.25, 30.0, 18.75]] + [[36.75, -42.0, -26.25], [-42.0, 48.0, 30.0], [-26.25, 30.0, 18.75]]


**Matriz B Total:**

B = [[73.5, -84.0, -52.5],

     [-84.0, 96.0, 60.0],

     [-52.5, 60.0, 37.5]]


**C. Matriz Total (T)**


Esta matriz representa la variabilidad total de los datos. Se verifica que T = W + B.


T = [[2.5+73.5, -1.5-84.0, -0.9-52.5],

     [-1.5-84.0, 1.0+96.0, 0.6+60.0],

     [-0.9-52.5, 0.6+60.0, 0.36+37.5]]


**Matriz T Total:**

T = [[76.0, -85.5, -53.4],

     [-85.5, 97.0, 60.6],

     [-53.4, 60.6, 37.86]]


**Paso 4: Cálculo del Estadístico de Prueba (Lambda de Wilks)**


El estadístico más común para MANOVA es la Lambda de Wilks (Λ), que se calcula como:

Λ = det(W) / det(T)


**Cálculo del determinante de W (det(W)):**

det(W) = 2.5 * (1.0*0.36 - 0.6*0.6) - (-1.5) * (-1.5*0.36 - 0.6*(-0.9)) + (-0.9) * (-1.5*0.6 - 1.0*(-0.9))

det(W) = 2.5 * (0.36 - 0.36) + 1.5 * (-0.54 + 0.54) - 0.9 * (-0.9 + 0.9)

**det(W) = 0**


*Nota: El determinante es cero porque los datos simulados son perfectamente simétricos, haciendo que la matriz W sea singular. En datos reales, este valor sería muy pequeño pero no exactamente cero.*


**Cálculo del determinante de T (det(T)):**

det(T) = 76 * (97*37.86 - 60.6*60.6) - (-85.5) * (-85.5*37.86 - 60.6*(-53.4)) + (-53.4) * (-85.5*60.6 - 97*(-53.4))

det(T) = 76 * (3672.42 - 3672.36) + 85.5 * (-3237.03 + 3236.04) - 53.4 * (-5181.3 + 5180.8)

det(T) = 76 * (0.06) + 85.5 * (-0.99) - 53.4 * (-0.5)

det(T) = 4.56 - 84.645 + 26.7

**det(T) ≈ -53.385**


**Cálculo de Lambda de Wilks (Λ):**

Λ = 0 / -53.385

**Λ = 0**


**Paso 5: Conclusión e Interpretación**


La Lambda de Wilks (Λ) varía entre 0 y 1.

- Un valor cercano a 1 sugiere que no hay diferencias entre los grupos.

- Un valor cercano a 0 sugiere que hay diferencias significativas entre los grupos.


En este caso, **Λ = 0**, el valor más pequeño posible. Esto indica una separación perfecta entre los grupos en el espacio multivariado. La variabilidad entre los grupos es máxima en comparación con la variabilidad dentro de los grupos (que en este caso idealizado es nula en una de sus dimensiones).


**Decisión:**

Se rechaza la hipótesis nula (H₀).


**Conclusión Final:**

Existe una diferencia estadísticamente significativa en el conjunto de variables (X1, X2, X3) entre las granjas que tienen PPA y las que no. El estatus de PPA tiene un efecto multivariado significativo en las características medidas de las granjas.


Explicación Detallada de los Pasos del Cálculo MANOVA

Explicación Detallada de los Pasos del Cálculo MANOVA


**Explicación del Paso 1: Datos Originales y Separación de Grupos**


**Propósito:** El primer paso en cualquier análisis comparativo es organizar los datos. En MANOVA, se comparan dos o más grupos para ver si son diferentes. Aquí, separamos las 6 granjas en dos grupos distintos basados en la variable independiente: si tienen Peste Porcina Africana (PPA=1) o no (PPA=0). Esta separación es fundamental porque el objetivo del análisis es comparar la "nube de puntos" de un grupo con la del otro.


**Explicación del Paso 2: Cálculo de los Vectores de Medias**


**Propósito:** A diferencia del ANOVA, que compara una sola media por grupo, el MANOVA compara un "centroide" o "vector de medias" para cada grupo. Este vector representa el punto central de los datos del grupo en un espacio multidimensional.


- **Vector de Media de Grupo:** Es el promedio de cada variable dependiente (X1, X2, X3) calculado solo para las observaciones de ese grupo. Por ejemplo, el `Vector de Media G1` es el punto central de las 3 granjas con PPA. Geométricamente, es el centro de la nube de puntos de ese grupo.


- **Vector de Media General:** Es el promedio de cada variable dependiente calculado para todas las observaciones (las 6 granjas) sin distinción de grupo. Este vector representa el centro de todos los datos y sirve como punto de referencia para medir qué tan lejos están los centroides de cada grupo.


**Explicación del Paso 3: Cálculo de las Matrices de Sumas de Cuadrados y Productos Cruzados (SSCP)**


**Propósito:** Este es el corazón del MANOVA. Mientras que el ANOVA descompone la varianza (una sola cifra), el MANOVA descompone la covarianza total en forma de matrices. Estas matrices SSCP miden la variabilidad y la correlación entre las variables.


**Matriz Intra-grupos (W - Within):** También llamada matriz de Error (E). Mide la dispersión de las observaciones *dentro* de cada grupo alrededor de su propio centroide. Es la suma de la variabilidad interna de todos los grupos. Una matriz W "pequeña" significa que los puntos de cada grupo están muy juntos y forman cúmulos compactos. Representa la variabilidad no explicada por la pertenencia al grupo (el "ruido" o "error").


**Matriz Inter-grupos (B - Between):** También llamada matriz de Hipótesis (H). Mide la dispersión de los centroides de cada grupo alrededor del centroide general. Cuantifica la separación entre los grupos. Una matriz B "grande" significa que los centros de los grupos están muy alejados entre sí, lo que sugiere que la pertenencia al grupo (la PPA) sí crea una diferencia. Representa la variabilidad que *sí* es explicada por la variable de agrupación.


**Matriz Total (T):** Mide la dispersión total de todas las observaciones alrededor del centroide general, sin tener en cuenta a qué grupo pertenecen. Es una ley fundamental del análisis de varianza que la variabilidad total es la suma de la variabilidad explicada (entre grupos) y la no explicada (dentro de los grupos). Por lo tanto, siempre se debe cumplir que **T = W + B**. Esta igualdad es una excelente forma de verificar que los cálculos son correctos.


**Explicación del Paso 4: Cálculo del Estadístico de Prueba (Lambda de Wilks)**

**Propósito:** Necesitamos un único número que resuma la relación entre la variabilidad explicada (B) y la no explicada (W) para poder tomar una decisión estadística. La Lambda de Wilks (Λ) es el estadístico más común para este fin.

**Fórmula (Λ = det(W) / det(T)):** La fórmula utiliza determinantes (det), que son un valor numérico que representa la "varianza generalizada" o el "volumen" de la nube de puntos descrita por una matriz. 

    - `det(W)` representa el volumen de la variabilidad del error (dentro de los grupos).

    - `det(T)` representa el volumen de la variabilidad total.


**Interpretación del Ratio:** La Lambda de Wilks es una proporción de la variabilidad del error respecto a la variabilidad total. 

    - Si los grupos son muy diferentes, la variabilidad del error (W) será una parte muy pequeña de la variabilidad total (T), y Λ se acercará a **0**.

    - Si los grupos son muy parecidos, la variabilidad del error (W) será casi igual a la variabilidad total (T), y Λ se acercará a **1**.


- **Caso Especial (det(W) = 0):** En nuestro ejercicio, el determinante de W fue 0. Esto se debe a que los datos simulados eran "demasiado perfectos", y la variabilidad dentro de los grupos era nula en al menos una dimensión (los puntos estaban alineados). Esto da como resultado Λ = 0, que es la evidencia más fuerte posible de una diferencia entre los grupos.


**Explicación del Paso 5: Conclusión e Interpretación**

**Propósito:** El último paso es usar el valor de Lambda de Wilks para tomar una decisión sobre nuestra hipótesis y traducirla a una conclusión comprensible.


- **Decisión Estadística:** La regla es simple: un valor de Lambda pequeño (cercano a 0) indica que es muy improbable que las diferencias observadas se deban al azar. Por lo tanto, se rechaza la hipótesis nula (H₀) de que los grupos son iguales.


- **Conclusión en Contexto:** Al rechazar la H₀, concluimos que existe una diferencia estadísticamente significativa entre los grupos. En el contexto del problema, esto significa que el tener o no Peste Porcina Africana tiene un efecto medible y significativo en el conjunto de las tres variables analizadas (X1, X2, X3) de forma simultánea.

ANOVA con Álgebra Matricial

ANOVA con Álgebra Matricial: Un Ejemplo Sencillo para Pizarrón


El Análisis de Varianza (ANOVA) puede ser formulado como un caso del Modelo Lineal General. Esto nos permite resolverlo usando álgebra matricial.


El modelo es: **y = Xβ + ε**

- **y**: Vector de observaciones.

- **X**: Matriz de diseño (indica a qué grupo pertenece cada observación).

- **β**: Vector de parámetros (las medias de los grupos que queremos estimar).

- **ε**: Vector de errores.


---


### **Paso 1: Datos y Definición de Matrices**


Supongamos que tenemos 3 grupos de tratamiento:

- **Grupo 1:** 4, 5, 6

- **Grupo 2:** 7, 8

- **Grupo 3:** 9, 10, 11


**1. Vector de Observaciones (y):**

   y = [4, 5, 6, 7, 8, 9, 10, 11]ᵀ


**2. Vector de Parámetros (β):** (Las medias de cada grupo)

   β = [μ₁, μ₂, μ₃]ᵀ


**3. Matriz de Diseño (X):** (Matriz 8x3 que asigna cada observación a su media)

   X = [[1, 0, 0],

        [1, 0, 0],

        [1, 0, 0],

        [0, 1, 0],

        [0, 1, 0],

        [0, 0, 1],

        [0, 0, 1],

        [0, 0, 1]]


**Paso 2: Estimar los Parámetros (β̂)**


La estimación de mínimos cuadrados para β se calcula con la ecuación normal:

**β̂ = (XᵀX)⁻¹ Xᵀy**


**1. Calcular XᵀX:**

   XᵀX = [[3, 0, 0],  (n₁=3)

          [0, 2, 0],  (n₂=2)

          [0, 0, 3]]  (n₃=3)


**2. Calcular la inversa (XᵀX)⁻¹:**

   (XᵀX)⁻¹ = [[1/3, 0,   0  ],

              [0,   1/2, 0  ],

              [0,   0,   1/3]]


**3. Calcular Xᵀy:** (Suma de las observaciones en cada grupo)

   Xᵀy = [4+5+6, 7+8, 9+10+11]ᵀ = [15, 15, 30]ᵀ


**4. Calcular β̂:**

   β̂ = (XᵀX)⁻¹ Xᵀy = [[1/3 * 15], [1/2 * 15], [1/3 * 30]]ᵀ = [5, 7.5, 10]ᵀ


Como se puede ver, **β̂ = [μ̂₁, μ̂₂, μ̂₃]ᵀ**, que son exactamente las medias de cada grupo:

- Media G1 = (4+5+6)/3 = 5

- Media G2 = (7+8)/2 = 7.5

- Media G3 = (9+10+11)/3 = 10

**Paso 3: Partición de la Suma de Cuadrados (SC)**

**Factor de Corrección (FC):**

FC = (Σy)² / N = (60)² / 8 = 3600 / 8 = 450


**Suma de Cuadrados Total (SCT):**

SCT = yᵀy - FC

SCT = (4²+5²+6²+7²+8²+9²+10²+11²) - 450 = 492 - 450 = **42**


**Suma de Cuadrados del Modelo/Regresión (SCM):** (Variabilidad entre grupos)

SCM = β̂ᵀXᵀy - FC

SCM = [5, 7.5, 10] * [15, 15, 30]ᵀ - 450

SCM = (5*15 + 7.5*15 + 10*30) - 450 = (75 + 112.5 + 300) - 450 = 487.5 - 450 = **37.5**


**Suma de Cuadrados del Error (SCE):** (Variabilidad dentro de los grupos)

SCE = yᵀy - β̂ᵀXᵀy

SCE = 492 - 487.5 = **4.5**

**Verificación:** SCT = SCM + SCE  =>  42 = 37.5 + 4.5 (Correcto)

**Paso 4: Tabla ANOVA**


| Fuente de Variación | SC (Suma de Cuadrados) | gl (Grados de Libertad) | CM (Cuadrado Medio) | F (Estadístico F) |

|---------------------|------------------------|-------------------------|---------------------|-------------------|

| Modelo (Entre Grupos) | 37.5             | k-1 = 2                 | 37.5 / 2 = 18.75    | 18.75 / 0.9 = **20.83** |

| Error (Dentro Grupos)  | 4.5               | N-k = 5                 | 4.5 / 5 = 0.9          |                   |

| Total                              | 42.0             | N-1 = 7                 |                              |                   |



### **Conclusión**


El estadístico F calculado es **20.83**. Este valor se compararía con un valor F crítico de las tablas de distribución (con 2 y 5 grados de libertad) para un nivel de significancia (ej. α=0.05). Si F calculado > F crítico, se rechaza la hipótesis nula y se concluye que hay una diferencia significativa entre las medias de los grupos.


Curso: Métodos Multivariados – Maestría en Producciòn Animal Sostenible/ Control y Manejo Sustentable de enfermedades de los animales

Métodos Multivariados – Maestría en Producciòn Animal Sostenible/ Control y Manejo Sustentable de enfermedades de los animales

La Peste Porcina Africana (PPA) es una enfermedad viral hemorrágica altamente contagiosa y letal en cerdos domésticos y jabalíes. No afecta a humanos, pero causa pérdidas económicas severas. Se transmite por contacto directo, alimentos contaminados, vectores y movimientos de animales.

Se sospecha que ciertos factores de manejo influyen en la probabilidad de infección. Este ejercicio aplica álgebra matricial para realizar un análisis de varianza multivariado (MANOVA) y determinar si existen diferencias significativas en los factores de riesgo entre granjas con y sin brotes de PPA.

2. 📊 Datos  (Subconjunto Reducido para Cálculo Manual)

Se seleccionan 6 granjas (3 con PPA, 3 sin PPA) y se registran tres variables:

  • X1: Número promedio de visitantes externos por semana
  • X2: Distancia (km) a la granja infectada más cercana
  • X3: Índice de bioseguridad (0–10)

3. 🧮 Objetivo del Análisis

Determinar, mediante álgebra matricial, si las medias multivariadas de los factores de riesgo (X1, X2) difieren significativamente entre:

  • Grupo 1: Granjas con PPA (PPA = 1)
  • Grupo 0: Granjas sin PPA (PPA = 0)

Hipótesis:

  • (no hay diferencia)

4. 📐 Procedimiento Paso a Paso (Cálculo Manual con Álgebra Matricial)

Paso 1: Matriz de datos (6 × 2)

Paso 2: Medias por grupo

  • Grupo 1 (PPA = 1):
  • Grupo 0 (PPA = 0):
  • Media global:

Paso 3: Matriz de suma de cuadrados entre grupos ( )

Producto exterior:

Entonces:

Paso 4: Matriz de suma de cuadrados dentro de grupos ( )

Desviaciones y productos exteriores:

  • Grupo 1:
  • Grupo 0:

Total:

Paso 5: Lambda de Wilks

Paso 6: Decisión

  • → valor muy pequeño.
  • Conclusión: Se rechaza
  • al nivel de significancia habitual (α = 0.05).
  • Interpretación: Existen diferencias multivariadas significativas en los factores de riesgo entre granjas con y sin PPA.
  • 5. 💡 Reflexión Didáctica El uso de matrices H y E permite analizar múltiples variables simultáneamente. La singularidad de E ocurre si n i ​ ≤p ; por eso se redujo a 2 variables. En la práctica, se usa software (R, Python, SPSS), pero entender el cálculo matricial es clave para interpretar resultados.
  • 6. 📚 Referencias Johnson, R. A., & Wichern, D. W. (2007). Applied Multivariate Statistical Analysis (6th ed.). Pearson. World Organisation for Animal Health (WOAH). African Swine Fever. https://www.woah.org/en/disease/african-swine-fever/

Ejercicio de Análisis de Varianza Multivariado (MANOVA) - Paso a Paso

Ejercicio de Análisis de Varianza Multivariado (MANOVA) - Paso a Paso Este documento detalla el cálculo manual de un MANOVA para un conjunto...