Hace un par de semanas publiqué en este blog un post sobre la distribución de Pareto, sobre el que me gustaría volver para introducir el concepto de colas largas. Mi intención al escribir estos posts es contribuir a vulgarizar ciertos conceptos propios de la estadística de uso poco común entre el gran público, pero antes sea probablemente bueno recordar términos como media y varianza que di entonces por sentados.
La media aritmética es probablemente la medida estadística más conocida y cualquiera que haya estudiado primaria está familiarizado con el término. Si tomamos como ejemplo un dado bien calibrado, el valor medio de un lanzamiento es la suma de los valores sus caras (21) dividida por el número de caras (6), es decir, 3,5.
La desviación típica (o raíz cuadrada de la varianza) es una medida igualmente conocida por cualquiera que haya estudiado estadística, lo que lamentablemente reduce el campo de juego, pero cualquier lector con buena voluntad podrá entender el concepto con un muy pequeño esfuerzo, ya que la desviación típica es simplemente la diferencia que puede esperarse en promedio entre un elemento de la muestra elegido al azar y la media de la misma muestra.
En el post antes mencionado señalé que la media es una medida peligrosa porque a menudo nos dice menos de lo que tendemos a creer. El Sr Bru (mi profesor de ciencias del instituto) solía ilustrar este principio con el ejemplo de la abuela, en virtud del cual si normalmente la temperatura de mi abuela es de 36 grados y medio, con una desviación típica de uno o dos grados (por la diferencia de temperatura entre su boca y sus pies), y a continuación mi abuela mete la cabeza en el horno y sus pies en el congelador, su temperatura media quizás continuará siendo la misma pero su desviación típica habrá aumentado a treinta o cuarenta grados, por lo que cabe esperar que su salud se resienta.
La larga cola es una expresión popularizada por el editor en jefe de la revista Wired en un artículo muy citado que hacía referencia a modelos de negocio similares a Amazon, que internet ha hecho posibles explotando las 'colas' de distribuciones similares a la de Pareto mencionada arriba. Observemos el gráfico siguiente atentamente:
Fuente: Hay Kranen (Wikicommons).
Si retomamos el ejemplo de la distribución de rentas paretiana, el eje horizontal del gráfico representaría la renta bruta y el vertical el número de familias, por lo que la mayor parte de las familias tienen rentas bajas o medias y unas pocas familias unas rentas muy altas. Si en vez de pensar en rentas nos imaginamos que el gráfico representa las ventas de libros en su eje vertical, y el número de autores en el horizontal, e interpretamos el área bajo la curva como los beneficios de las ventas, podemos ver que unos pocos autores (el Dan Brown o la E. L. James de turno) tienen unas ventas enormes, y un gran número de autores tienen en cambio muy poquitas ventas.
La estrategia de la mayor parte de librerías consiste en centrar la mayor parte de las ventas en los autores de best-sellers, de manera que se sigue casi a la letra el principio 80-20 (un 20% de los libros genera el 80% de las ventas). Amazon, en cambio, explota a fondo la cola de la distribución, y las ventas de libros de nicho representan casi el 40% de las ventas. Es decir, la librería tradicional hace grandes ventas de muy pocos libros (explotando la cabeza o el área verde de la distribución) mientras que Amazon hace muchas pequeñas ventas de muchos libros (explotando el área amarilla en la cola del gráfico, casi igual de amplia que la verde). Por una regla de tres similar, un negocio que explote mercados de nicho (por ejemplo: la venta de vestidos para perros o de parafernalia de la Guerra de Sucesión) es más viable en internet que si abre una tienda en la esquina de Serrano con Hermosilla.
En las distribuciones de probabilidad como las de Pareto la forma de la larga cola es extraordinariamente sensible a cambios en la desviación típica, de manera que pequeñas variaciones de la desviación estándar aumentan considerablemente el tamaño de la cola. Larry Summers, afamado economista y secretario del Tesoro de los Estados Unidos de 1999 a 2001 bajo la presidencia de Bill Clinton, hizo unas declaraciones muy polémicas en este sentido en 2005, cuando era Presidente de la Universidad Harvard y que le acabaron costando el puesto.
Es bien sabido por todos que las mujeres están infrarrepresentadas en los puestos de decisión y en las disciplinas científicas. Normalmente se explica este hecho aludiendo a la discriminación innegable que sufren las mujeres: las estructuras patriarcales dominantes son, en principio, reacias a integrar nuevos miembros en su establishment.
Summers avanzó otra posibilidad, considerando que las aptitudes cognitivas entre sexos se diferencian en sus dimensiones media y desviación típica, es decir, si bien la competencia media de las mujeres es ligeramente superior a la de los hombres, la desviación típica de los hombres sería ligeramente superior a la de las mujeres.
Diversos datos parecen corroborar la primera afirmación relativa a la competencia media, sirva como ejemplo que el 54,2% de los estudiantes universitarios del curso 2008/09 en España eran mujeres y su número llegaba hasta el 61% si nos fijamos únicamente en los titulados universitarios. Summers defendió la afirmación concerniente a la desviación típica mostrando los resultados de tests de inteligencia de adolescentes americanos, que mostraban en efecto una mayor presencia de chicos en los extremos o "colas largas" de la distribución de probabilidad.
La observación de Summers de que la desviación típica en las poblaciones de hombres y de mujeres difiere merece que se le dedique por lo menos un poco de atención, ya que si asumimos que la desviación típica de ellos es sólo ligeramente mayor que la de ellas podemos explicar muy fácilmente por qué una abrumadora mayoría de los galardonados con el Premio Nobel son varones, por ejemplo, considerando que los galardonados son una muestra representativa de la 'cola larga' de la distribución de probabilidad, y exactamente el mismo argumento se podría utilizar para explicar por qué la población penitenciaria es eminentemente masculina y en porcentajes muy similares a la de los galardonados con el Nobel.
La opinión de este bloguero es que Larry Summers acierta en su descripción de la población de hombres y de mujeres en términos estadísticos, pero ello no permite inferir gran cosa en lo que a las relaciones causa-efecto se refiere. Media y desviación típica son, además, medidas dinámicas y no necesariamente inherentes a la variable 'sexo', y si la media de las mujeres españolas de hoy están más capacitadas que sus pares varones cabe esperar que políticas continuadas en pro de la igualdad logren igualmente convergencias de la desviación estándar. ¿Pesan más los genes en la diferencia observada en la desviación típica que la fuerza de los estereotipos, como de forma deliberadamente provocadora dio a entender Summers? La opinión no experta de este bloguero es que no y que, si bien descartar la existencia de un componente hormonal en la diferencia de la desviación típica entre sexos sería precipitado, la relación entre ambas no es con seguridad monocausal. El Sr. Bru, y tantos otros profesores excelentes como él, siguen siendo mejores despertando vocaciones científicas en ellos que en ellas y, seguramente, el hecho de que el Sr. Bru acuñara el ejemplo de la abuela en vez del ejemplo del abuelo tiene algo que ver en el asunto.
No me voy a extender más por hoy. Mi intención al escribir este post sobre desviación típica y colas largas era ligar estos dos conceptos con lo que ha ocurrido recientemente en Suiza, en donde la mayoría de la población ha apoyado una iniciativa contra la inmigración en masa, y con el auge de la xenofobia que se está produciendo más generalmente en Europa, pero la falta de espacio me obliga a tratar el tema la semana que viene más detenidamente.
La media aritmética es probablemente la medida estadística más conocida y cualquiera que haya estudiado primaria está familiarizado con el término. Si tomamos como ejemplo un dado bien calibrado, el valor medio de un lanzamiento es la suma de los valores sus caras (21) dividida por el número de caras (6), es decir, 3,5.
La desviación típica (o raíz cuadrada de la varianza) es una medida igualmente conocida por cualquiera que haya estudiado estadística, lo que lamentablemente reduce el campo de juego, pero cualquier lector con buena voluntad podrá entender el concepto con un muy pequeño esfuerzo, ya que la desviación típica es simplemente la diferencia que puede esperarse en promedio entre un elemento de la muestra elegido al azar y la media de la misma muestra.
En el post antes mencionado señalé que la media es una medida peligrosa porque a menudo nos dice menos de lo que tendemos a creer. El Sr Bru (mi profesor de ciencias del instituto) solía ilustrar este principio con el ejemplo de la abuela, en virtud del cual si normalmente la temperatura de mi abuela es de 36 grados y medio, con una desviación típica de uno o dos grados (por la diferencia de temperatura entre su boca y sus pies), y a continuación mi abuela mete la cabeza en el horno y sus pies en el congelador, su temperatura media quizás continuará siendo la misma pero su desviación típica habrá aumentado a treinta o cuarenta grados, por lo que cabe esperar que su salud se resienta.
La larga cola es una expresión popularizada por el editor en jefe de la revista Wired en un artículo muy citado que hacía referencia a modelos de negocio similares a Amazon, que internet ha hecho posibles explotando las 'colas' de distribuciones similares a la de Pareto mencionada arriba. Observemos el gráfico siguiente atentamente:
Fuente: Hay Kranen (Wikicommons).
Si retomamos el ejemplo de la distribución de rentas paretiana, el eje horizontal del gráfico representaría la renta bruta y el vertical el número de familias, por lo que la mayor parte de las familias tienen rentas bajas o medias y unas pocas familias unas rentas muy altas. Si en vez de pensar en rentas nos imaginamos que el gráfico representa las ventas de libros en su eje vertical, y el número de autores en el horizontal, e interpretamos el área bajo la curva como los beneficios de las ventas, podemos ver que unos pocos autores (el Dan Brown o la E. L. James de turno) tienen unas ventas enormes, y un gran número de autores tienen en cambio muy poquitas ventas.
La estrategia de la mayor parte de librerías consiste en centrar la mayor parte de las ventas en los autores de best-sellers, de manera que se sigue casi a la letra el principio 80-20 (un 20% de los libros genera el 80% de las ventas). Amazon, en cambio, explota a fondo la cola de la distribución, y las ventas de libros de nicho representan casi el 40% de las ventas. Es decir, la librería tradicional hace grandes ventas de muy pocos libros (explotando la cabeza o el área verde de la distribución) mientras que Amazon hace muchas pequeñas ventas de muchos libros (explotando el área amarilla en la cola del gráfico, casi igual de amplia que la verde). Por una regla de tres similar, un negocio que explote mercados de nicho (por ejemplo: la venta de vestidos para perros o de parafernalia de la Guerra de Sucesión) es más viable en internet que si abre una tienda en la esquina de Serrano con Hermosilla.
En las distribuciones de probabilidad como las de Pareto la forma de la larga cola es extraordinariamente sensible a cambios en la desviación típica, de manera que pequeñas variaciones de la desviación estándar aumentan considerablemente el tamaño de la cola. Larry Summers, afamado economista y secretario del Tesoro de los Estados Unidos de 1999 a 2001 bajo la presidencia de Bill Clinton, hizo unas declaraciones muy polémicas en este sentido en 2005, cuando era Presidente de la Universidad Harvard y que le acabaron costando el puesto.
Es bien sabido por todos que las mujeres están infrarrepresentadas en los puestos de decisión y en las disciplinas científicas. Normalmente se explica este hecho aludiendo a la discriminación innegable que sufren las mujeres: las estructuras patriarcales dominantes son, en principio, reacias a integrar nuevos miembros en su establishment.
Summers avanzó otra posibilidad, considerando que las aptitudes cognitivas entre sexos se diferencian en sus dimensiones media y desviación típica, es decir, si bien la competencia media de las mujeres es ligeramente superior a la de los hombres, la desviación típica de los hombres sería ligeramente superior a la de las mujeres.
Diversos datos parecen corroborar la primera afirmación relativa a la competencia media, sirva como ejemplo que el 54,2% de los estudiantes universitarios del curso 2008/09 en España eran mujeres y su número llegaba hasta el 61% si nos fijamos únicamente en los titulados universitarios. Summers defendió la afirmación concerniente a la desviación típica mostrando los resultados de tests de inteligencia de adolescentes americanos, que mostraban en efecto una mayor presencia de chicos en los extremos o "colas largas" de la distribución de probabilidad.
La observación de Summers de que la desviación típica en las poblaciones de hombres y de mujeres difiere merece que se le dedique por lo menos un poco de atención, ya que si asumimos que la desviación típica de ellos es sólo ligeramente mayor que la de ellas podemos explicar muy fácilmente por qué una abrumadora mayoría de los galardonados con el Premio Nobel son varones, por ejemplo, considerando que los galardonados son una muestra representativa de la 'cola larga' de la distribución de probabilidad, y exactamente el mismo argumento se podría utilizar para explicar por qué la población penitenciaria es eminentemente masculina y en porcentajes muy similares a la de los galardonados con el Nobel.
La opinión de este bloguero es que Larry Summers acierta en su descripción de la población de hombres y de mujeres en términos estadísticos, pero ello no permite inferir gran cosa en lo que a las relaciones causa-efecto se refiere. Media y desviación típica son, además, medidas dinámicas y no necesariamente inherentes a la variable 'sexo', y si la media de las mujeres españolas de hoy están más capacitadas que sus pares varones cabe esperar que políticas continuadas en pro de la igualdad logren igualmente convergencias de la desviación estándar. ¿Pesan más los genes en la diferencia observada en la desviación típica que la fuerza de los estereotipos, como de forma deliberadamente provocadora dio a entender Summers? La opinión no experta de este bloguero es que no y que, si bien descartar la existencia de un componente hormonal en la diferencia de la desviación típica entre sexos sería precipitado, la relación entre ambas no es con seguridad monocausal. El Sr. Bru, y tantos otros profesores excelentes como él, siguen siendo mejores despertando vocaciones científicas en ellos que en ellas y, seguramente, el hecho de que el Sr. Bru acuñara el ejemplo de la abuela en vez del ejemplo del abuelo tiene algo que ver en el asunto.
No me voy a extender más por hoy. Mi intención al escribir este post sobre desviación típica y colas largas era ligar estos dos conceptos con lo que ha ocurrido recientemente en Suiza, en donde la mayoría de la población ha apoyado una iniciativa contra la inmigración en masa, y con el auge de la xenofobia que se está produciendo más generalmente en Europa, pero la falta de espacio me obliga a tratar el tema la semana que viene más detenidamente.