On the dimensionality in morphometrics

High-dimensional and Multivariate stuff

Few years ago I started to read and listen that shape is a high-dimensional AND multivariate character (e. g. in Klingenberg & Gidazewski Sys Bio 2010 or in a talk by Dean Adams at the SMEF 16 in Paris). To my embarrassment it wasn’t until some time afterwards that I understood why these adjectives weren’t synonyms. Shape is usually described by a large set of variables or measurements, which makes it high-dimensional, but these variables need to be considered altogether when analyzed statistically, which makes shape multivariate. The alternative would be to assess variation on each variable independently, but that would be less efficient (you would lose track of covariation among variables, to visualize that I love the figure in Albretch Am Zool 1980). Also, the multiple univariate assessment of shape variables would be conceptually incorrect for geometric morphometrics (what’s the meaning of one or few landmarks when the superimposition was run for all of them?).

Curse of the dimensionality

So shape analyses consist on the variation of many variables on many individuals, all at the same time. Intuitively, we could think that the more variables the better: a more accurate description of the individual shape would maximize the differences among the individuals and therefore obtain the important features in the sample shape variability. Graphical representations would have more resolution too.

Now, the question is how many individuals per variable. Is that important? Let’s use a toy example with two individuals and two variables. Imagine we were interested in looking at the association between these two shape variables in our sample of 2 individuals:

So: imagine we want to test an association between two shape variables x and y and two individuals. Know what? Always a perfect association.

There are two ways of thinking at this. One I borrow from Chris Klingenberg: you will always find a perfect association between two variables with just two individuals because you can always find a straight line connecting two points. From a different perspective : to *fairly* test for an association between variables, you need a sample size that allows you *not* to find an association. That means a sample size that could show equal variation in all the directions of the bidimensional space (i. e. draw a circumference).

With two more individuals would be enough not to find an association between variables. *If these new individuals were perpendicular to the association between the first two,* the association represented by the red line wouldn’t be more likely than any other association. Ok, just four ind. might still not be ideal, but at least we aren’t sure about the result in advance.

Ok, maybe you’re not interested in testing the association among shape variables. But what about a PCA? Everybody has done a PCA on shape variables. Haven’t you realized that the number of PCs obtained are either 2k-4 for 2D datasets (k = number of landmarks, 3k-7 for 3D datasets) or N-1 (N number of individuals)? That depends on the number of individuals per variable. The PCA is an ordination method where orthogonal axes of variation are estimated: as in our toy example, the number of axes of variation will depend on the individuals per variable. In the case of two individuals and two variables, there is just one axis of variation, so one PC (N-1 PCs). If we add more individuals then a second axis of variation will show up and then we’ll get two PCs (2k-4 for 2D landmark data).

In our first figure (just 2 ind.) we would find just one axis of variation (PC1), so the number of PCs = N-1. With two more ind. we would add a second PC, so the number of PCs = number of variables. In GMM, to the total number of variables we remove 4 (2D) or 7 (3D) because of the superimposition.

It makes sense, doesn’t it? With a PCA we remove all the directions of the phenotypic space in which there isn’t evidence of variation and we just keep the least possible variation per variable (i. e. only the variation differentiating our individuals), a line for two variables, a plane for three, etc. Actually, we sort of do that in our daily life: if I start to talk about my group of friends I will probably give you the least amount of information needed to differentiate each one of them, even though each one is different from the rest in millions of ways.

This has important consequences: first, that some of the variation we have theoretically considered with the addition of each variable is removed afterwards. If we run subsequent analyses on our PCs, we will not consider this theoretical variation. In addition, for certain statistical analyses (as covariation tests) we will always have an over-estimation of our estimates if our sample size is smaller or similar to our number of variables (remember? Always a perfect line between two points no matter the dimensionality).

Related to that, using more variables than individuals there will always be a combination of variables separating no matter which group of individuals we’re interested in (a problem leading to overfitting in regression and machine learning techniques): try to describe two people with two parameters (x and y), which can take values either 0 or 1. Only rule: both parameters can’t take the same values for both people (that wouldn’t count as 2 parameters). Spoiler: (at least) one of the parameters will be different for each person (so yes, for 2 individuals in 2D there’s just one PC with all the variance).

CVG

Epistasis regulates the developmental stability of the mouse craniofacial shape: ¿eso qué significa?

El artículo trata sobre la genética de la estabilidad del desarrollo en el cráneo de ratones. Tranquilidad, vamos por partes.

La estabilidad del desarrollo es la insensibilidad del organismo a las perturbaciones ambientales durante el desarrollo. Por ejemplo, a las embarazadas se les recomiendan unos alimentos y se les desaconseja otros para que el feto se desarrolle de la mejor manera posible, de la manera más estable posible. ¿Qué pasaría si el feto tuviera unos genes que lo hicieran ‘imperturbable’ por las condiciones ambientales en que se desarrolla? Que si tu hijo tuviera esos genes podrías, por ejemplo, inflarte a cerveza durante tu embarazo. Sí, pero más importante: que habría personas mejor preparadas genéticamente para desarrollarse en lugares donde hay malnutrición y falta de recursos en general (por ejemplo).

¿Y cómo se mide la estabilidad del desarrollo?

Por la cantidad de asimetría. Si los genes son los mismos en el lado derecho y en el lado izquierdo del cráneo y las condiciones ambientales también, ¿por qué hay individuos más asimétricos que otros? Por el desarrollo: aquellos individuos que han sufrido más perturbaciones durante su desarrollo serán más asimétricos y los individuos que han estado más tranquilos serán más simétricos. Imaginad que el cráneo es un edificio, una catedral: los planos dicen que la catedral es simétrica y los materiales han sido los mismos para los dos lados de la catedral, si la catedral ha salido hecha un churro (asimétrica) ha sido culpa de… los albañiles, claro. Cuando a los albañiles les pagas bien y les das su tiempo apropiado de descanso la catedral sale mejor. Cuando los tienes estresados y desconcentrados sale lo que sale. Así que una medida del estrés de los albañiles (es decir, de la estabilidad del desarrollo) puede ser la simetría de la catedral.

¿Y entonces qué hicimos?

Teníamos casi 700 ratones y de cada uno de ellos teníamos su genoma y una estimación de su asimetría. Para cada gen del genoma (el genoma tenía unos 80.000 genes) vimos si los individuos con una variante genética eran más simétricos que los que tenían otra variante (esto es, si habían tenido más estabilidad durante el desarrollo)*.

Y no. De los 80.000 genes ninguna variante se asociaba.

Jo. ¿Qué ha pasado aquí?

Pues seguramente que como ya habían intuido otros antes, no existen genes individuales que ayuden a estabilizar el desarrollo. En realidad es la interacción entre varios genes la que controla el desarrollo: un poco como los equipos de fútbol. Si intentas buscar jugadores que te garanticen victorias vas a encontrar muy pocos, a lo mejor Ronaldo o Messi, pero si buscas grupos de jugadores que interaccionando te garanticen victorias entonces es más fácil: Ronaldo y Modric, Messi y Rakitic, Modric y Rakitic… ¿Qué hacemos entonces? Ver si la presencia de ciertos pares de variantes genéticas se relacionan con una mayor o menor cantidad de asimetría.

¡Y bingo! Existen muchas combinaciones entre variantes genéticas de distintos genes que se relacionan estadísticamente con un aumento o descenso de la asimetría (de la estabilidad del desarrollo). Tantas combinaciones que pudimos crear una red: una red de genes**, que sería la estructura que controlaría la estabilidad del desarrollo.

¿Así que ahora qué? Pues que lo sentimos, que no existe EL GEN que permite a las embarazadas atiborrarse a cerveza. Quienes tienen una combinación concreta se desarrollan de una manera más estable: la estabilidad del desarrollo es un juego de equipo.

CVG

*No necesariamente un gen se asocie con la estabilidad del desarrollo quiere decir que ese gen determina la estabilidad del desarrollo, ni siquiera que la influya. Puede que haya algún factor que esté afectando a las dos cosas o que haya sido azar. Para saber la relación exacta harían falta experimentos. Nosotros queríamos saber la genética a gran escala (en general), así que con esto nos conformamos.

**En el estudio mencionamos genes concretos con nombres, apellidos y función probable, pero eso tan concreto es más especulativo. La certeza es que hay una red de genes que interactúan para controlar el desarrollo, qué genes y cómo lo hacen es otro tema.

Editado el 28/5: Gracias a Antón por indicarme que, de una manera más precisa, nuestro objeto de estudio más que los genes han sido las variantes genéticas dentro de cada gen (los alelos, para quién se acuerde de la biología de secundaria).

Dos nuevas categorías: ‘¿eso qué significa?’ y ‘Make-off’

Empezaré el blog explicando un par de tipos de textos que publicaré de vez en cuando por aquí, que espero que os entretengan:

Por un lado estarán los ‘¿eso qué significa?‘. Como entiendo que habrá gente sin formación científica o que no sea especialista de mi área que entre en esta web (sí, mayoritariamente familia, amigos y algún curioso), he decidido escribir reseñas de los artículos que publico con un lenguaje mucho menos técnico y con todo explicado de manera más sencilla. Así por lo menos no se me podrá acusar de no transmitir los resultados de mi trabajo a la sociedad y además podré culpar sin piedad a mi entorno cercano por no interesarse por mi trabajo. Entiendo los riesgos que tomo con esto, que son todos los derivados de no ser un especialista de la comunicación científica: por ejemplo, no ser todo lo preciso que debería o sobre-simplificar y que alguien que sí entienda el trabajo original piense que no entiendo mi propio trabajo. Supongo que si esa persona sí entiende el trabajo original eso debería bastarle.
Por otro lado estarán los ‘Making off‘, donde explicaré un poco el desarrollo del trabajo que dio lugar al artículo. Espero que esto ayude a desmitificar el trabajo científico y que pueda enseñar que esto es un oficio como cualquier otro. Además creo que habrá gente a la que le gustará entrar un poco en mi día a día, aunque necesariamente habrá cosas que las personas ajenas al gremio no entenderán bien (aunque espero que cada vez sean menos). El peligro de este tipo de texto es el inherente a admitir meteduras de pata, frustraciones y otros sentimientos que no se admiten en los mitos: las personas menos inteligentes confundirán los errores por falta de trabajo y las frustraciones por debilidad. No tengo el suficiente ego como para que ello me preocupe, la verdad. Ojalá algún día algún colega llegue a una de estas entradas desanimado y vea que aquí tiene a un compañero que intenta cosas y se equivoca. Y espero que mi trabajo se entienda mejor así también, porque mi trabajo también está hecho con todas las veces que me equivoqué.

No prometo hacer un texto de cada tipo para cada artículo que publique, pero espero por lo menos hacer unos cuantos. Espero que os gusten.

CVG