Poniéndome al día con la literatura sobre mi nuevo proyecto he dado con una idea que aprendí durante mi doctorado y que ha sido recurrente en mi cabeza desde entonces. Como pasa con frecuencia, es de esas ideas que luego crees verla por todos lados. De hecho, pondré un ejemplo no biológico.

Imaginad que estudiamos dos variables cuantitativas (numéricas) en ocho países que pertenecieron a la antigua Unión Soviética. Pueden ser dos variables económicas (la variable X puede ser impuestos recaudados y la variable Y el PIB) o de otro tipo (la inversión en educación y los resultados de un examen tipo PISA).

screen-shot-2016-10-08-at-16-14-42

En la izquierda tenemos el grupo de ocho países que nos son de interés. Cada nodo terminal representa un país en la actualidad. Cada línea representa la evolución histórica desde que todos formaban la Unión Soviética (el ‘antecesor común’, el último país que agrupaba a todos los países de interés) hasta hoy. Ya que todos estos países comparten el mismo origen, las observaciones que tomamos hoy (gráfico de la derecha) son independientes. Así, podríamos ver una correlación entre nuestras dos variables de estudio sugiriendo que están relacionadas de algún modo. ¡Los impuestos recaudados influyen positivamente sobre el PIB! / ¡La inversión en educación redunda positivamente sobre la calidad de la enseñanza!

Sin embargo, la situación puede ser mucho más problemática (y de hecho normalmente lo es). Imaginemos ahora que estudiamos un grupo diferente de países:

screen-shot-2016-10-08-at-16-14-55

En el gráfico de la derecha tenemos los mismos valores, sugiriendo la misma correlación. Sin embargo, puede parecer injusto extraer las mismas conclusiones de los dos gráficos. La razón está en el gráfico de la izquierda, donde los orígenes de los países están representados. Hay dos grupos de 4 países, cada uno con un ‘antecesor común’, el imperio español (A) y el imperio francés (B). No tenemos 8 observaciones independientes, sino dos grupos de 4 observaciones independientes. En realidad, las variables cambiaron conjuntamente una sola vez, en la rama que separa A y B. Esas variables no están correlacionadas en los países actuales: se ve cómo los 4 países, desde que se separaron, han cambiado igual hacia la izquierda, la derecha, arriba y abajo de sus respectivos imperios. ¡Los impuestos recaudados influyeron sobre el PIB, ya no! / ¡La inversión en educación influyó en la calidad de la enseñanza, ya no!

El problema, al final, es que normalmente nuestros datos no son independientes, están relacionados (los de los sudamericanos de un lado y los de los países de origen francoparlante de otro). Deberíamos estandarizarlos primero con una técnica estadística obteniendo lo que se llama contrastes. Porque si no estaremos reuniendo países en base a su historia y no en base a las variables que nos interesan como en el segundo caso. ¿Verdad que cuando veis gráficas de este tipo en el periódico veis grupos de países relacionados en el mismo área?

Anuncios