En varias regiones del país hay una pequeña correlación negativa entre las defunciones por cada mil habitantes y las tasas de divorcio por cada cien matrimonios. A más divorcio, menos mortalidad. Aquí también un tercer factor, la distribución de edad de las distintas regiones, nos puede apuntar una explicación. Las parejas casadas de personas mayores tienen una probabilidad menor de divorciarse y una probabilidad mayor de morir que las parejas de jóvenes. De hecho, como el divorcio es una experiencia tan desgarradora y produce tanta tensión nerviosa, probablemente comporte un aumento del riesgo de muerte, con lo que en realidad ocurre algo completamente distinto de lo sugerido por esa correlación engañosa. Otro ejemplo en el que correlación se ha confundido con causa: en las islas Nuevas Hébridas, los piojos eran considerados causa de buena salud. Como muchas otras observaciones populares, ésta se apoyaba en evidencias sólidas. Cuando la gente se ponía enferma, le subía la temperatura y esto hacía que los piojos buscaran un huésped más acogedor. Los piojos y la buena salud se marchaban con la llegada de la fiebre. Análogamente, la correlación entre la calidad de los programas de guarderías de un estado y la tasa de denuncias de abusos sexuales infantiles no es ciertamente causal, sino que simplemente indica que cuanto mejor es la supervisión, más diligentemente se denuncian unos incidentes que indudablemente ocurren.
Algunas veces dos cantidades correlacionadas tienen también una relación causal, pero ésta es enmascarada por otros factores extraños. Una correlación negativa por ejemplo, entre el grado académico alcanzado por una persona (licenciatura, master o doctorado) y su primer salario: se puede entender si se tiene en cuenta el factor enmascarante de las distintas clases de empleos. Es más probable que un doctor acepte un empleo académico relativamente mal pagado que personas con una licenciatura o un master, que seguramente irán a trabajar a la industria. De ahí que un grado académico más alto y este último factor expliquen que el primer salario sea inferior. Fumar es, sin la menor duda, una causa importante que contribuye al cáncer y a las enfermedades de pulmón y corazón, pero hay factores encubridores relacionados con el modo de vida y el entorno que enmascararon parcialmente este hecho durante algunos años.
Hay una pequeña correlación entre el hecho de que una mujer sea soltera y el haber ido a la universidad. Sin embargo, hay muchos factores enmascarantes, y no está claro si hay alguna relación causal entre ambos fenómenos y, de haberla, cuál de ellos es la causa y cuál el efecto. Podría ser que la tendencia de una mujer a la «soltería» sea una causa que contribuye a que vaya a la universidad, en vez de lo contrario. A propósito, en cierta ocasión Newsweek publicó que las probabilidades que tenía de casarse una mujer universitaria, soltera y con más de treinta y cinco años, eran menores que las de ser asesinada por un terrorista. Probablemente la observación era una hipérbole intencionada, pero la he oído también citada como una realidad por algunas personas que trabajan en los medios informativos. Si existiera el premio al «Anumerismo del año», la afirmación anterior sería una firme candidata.
Finalmente, hay muchas correlaciones puramente accidentales. Los estudios que dan pequeñas correlaciones no-nulas, lo que en realidad están dando en muchos casos son fluctuaciones del azar, y son poco más o menos tan significativas como el hecho de haber lanzado una moneda cincuenta veces y que no hayan salido exactamente veinticinco caras. Gran parte de la investigación que se hace en el campo de las ciencias sociales no es, en realidad, más que una recopilación estúpida de datos irrelevantes de este estilo. Si la propiedad X (por ejemplo, el sentido del humor) se define así (número de risas provocadas por una serie de chistes) y la propiedad Y (por ejemplo, el amor propio) se define asá (número de respuestas afirmativas a una lista de rasgos positivos), entonces el coeficiente de correlación entre el sentido del humor y el amor propio es 0,217. Paparruchas.
La regresión lineal, que tiene por objeto relacionar los valores de la cantidad X con los de la cantidad Y, es una herramienta muy importante en estadística, pero frecuentemente se emplea mal. Demasiado a menudo se obtienen resultados como los vistos en los ejemplos anteriores o algo por el estilo de Y = 2,3X + R, donde R es una cantidad aleatoria con una variabilidad tan grande como para abrumar la supuesta relación entre X e Y.
Tales estudios defectuosos constituyen frecuentemente la base de los tests psicotécnicos para la prospección de empleo, las tarifas de las pólizas de seguros o el interés de un crédito. Uno puede ser un buen empleado, merecer primas bajas o ser digno de un crédito a bajo interés, pero si de algún modo se nota que no hay correlativos, lo tendrá también difícil.
Cáncer de mama, timos y salarios: errores estadísticos simples
El contraste de hipótesis y las estimaciones de fiabilidad, la regresión lineal, y la correlación son susceptibles de ser mal interpretados, pero en los solecismos estadísticos más comunes no intervienen cosas más complicadas que fracciones y porcentajes. En esta sección presentaremos unas cuantas ilustraciones típicas.
Un dato muy citado es que una de cada once mujeres contraerá cáncer de mama. Sin embargo, esta cifra puede inducir a error, pues sólo vale para una muestra imaginaria de mujeres que vayan a llegar a los ochenta y cinco años y para las que la incidencia de contracción del cáncer de mama, a cualquier edad, coincida con la tasa de incidencia actual para esa edad. Sólo una minoría de mujeres llega a los ochenta y cinco años, y las tasas de incidencia son variables, siendo mayores con la edad.
A los cuarenta años, aproximadamente una mujer de cada mil contrae cáncer de mama anualmente, mientras que a los sesenta, la tasa aumenta a una de cada quinientas. Una mujer típica de cuarenta años corre un riesgo aproximado del 1,4% de coger la enfermedad antes de los cincuenta, y un 3,3% de contraerla antes de los sesenta. Exagerando un poco, la cifra «una de cada once» es un poco como decir que a nueve de cada diez personas les saldrán manchas en la piel con la edad, cosa que no ha de ser un motivo de preocupación importante para quienes tengan treinta años.
Otro ejemplo de dato estadístico correcto y sin embargo mal interpretado es el hecho de que las enfermedades cardíacas y el cáncer son los dos principales asesinos de los Estados Unidos. No cabe duda de que es verdad, pero según los Centros de Control de Enfermedad, las muertes accidentales por accidente de tráfico, envenenamiento, caída, ahogo, incendio y accidente con armas de fuego son la causa de más años de vida potencial perdidos, pues la media de edad de estas víctimas es considerablemente inferior a la de las víctimas del cáncer y las enfermedades cardíacas.
El de los porcentajes es un tema de la escuela elemental que constantemente se aplica mal. A pesar de que muchos opinen lo contrario, el precio de un artículo que ha sufrido un aumento del 50% y luego un recorte del 50%, ha experimentado una reducción neta del 25%. Un vestido cuyo precio se haya rebajado en un 40% y luego en otro 40%, habrá sido rebajado en total en un 64, no en un 80%.
La nueva pasta dentífrica que reduce las caries en un 200% probablemente será capaz de eliminar dos veces todas las caries que uno tenga, quizá primero las rellene y luego deje bultitos sobre los dientes allí donde había caries. La cifra del 200%, si es que significa algo, quizás indique que la nueva pasta dentífrica reduce las caries en, pongamos, un 30%, y se la compare con determinada pasta dentífrica estándar que las reduzca en un 10% (una reducción del 30% significa un aumento del 200% sobre la reducción del 10%). La última frase, aunque menos engañosa, es también menos impresionante, y por esta razón no se usa.
Es bueno adoptar el simple recurso de preguntarse siempre: «¿Porcentaje, de qué?». Si los beneficios son el 12%, por ejemplo, ¿se trata del 12% de los costes, de las ventas, de los beneficios del año anterior, o de qué?
Las fracciones son otra fuente de frustración para muchas personas anuméricas. Se dijo que un candidato a la presidencia en las elecciones de 1980 preguntó a su séquito de prensa si alguien sabía convertir 2/7 a tanto por ciento, diciendo que era un problema de los deberes de su hijo. Tanto si la anécdota es verídica como si no lo es, estoy convencido de que una minoría importante de norteamericanos adultos no pasaría un examen sencillo sobre porcentajes, decimales, fracciones y las conversiones entre los mismos. A veces, cuando oigo que una cosa se vende a una fracción de su precio normal, comento que probablemente esa fracción sea 4/3, y me encuentro con una mirada perdida.
Un hombre es atracado en el centro de la ciudad y afirma que el atracador es negro. Sin embargo, cuando un juzgado que investiga el caso reconstruye varias veces la escena, bajo unas condiciones de iluminación parecidas, la víctima sólo identifica correctamente la raza del asaltante aproximadamente el 80% de las veces. ¿Cuál es la probabilidad de que el asaltante fuera efectivamente negro?
Mucha gente dirá, naturalmente, que dicha probabilidad es del 80%, pero la respuesta correcta, aceptando ciertas suposiciones razonables, es considerablemente menor. Nuestras suposiciones son que aproximadamente el 90% de la población es blanca y sólo el 10% negra, que la población del barrio en el que se ha producido el atraco tiene esta composición racial, que no hay una raza más atracadora que la otra y que es tan probable que la víctima cometa errores de identificación en un sentido (blanco por negro) como en el otro (negro por blanco). Dadas estas premisas, en cien asaltos cometidos en circunstancias parecidas, la víctima identificará como negros a veintiséis de los asaltantes, 80% de los diez que eran efectivamente negros, es decir ocho, más el 20% de los noventa que eran blancos, es decir dieciocho, que da un total de veintiséis. Por tanto, como sólo eran negros ocho del total de veintiséis identificados como negros, la probabilidad de que la víctima fuera realmente asaltada por un negro, habiéndolo identificado así, es sólo 8/26, o aproximadamente ¡el 31%!
El cálculo es similar al de los falsos resultados positivos en la detección del consumo de drogas y, como aquél, demuestra que interpretar mal las fracciones puede a veces ser cuestión de vida o muerte.
Según datos del gobierno estadounidense publicados en 1980, una mujer gana el 59% de lo que gana un hombre. Aunque la cifra se ha citado muchísimo desde entonces, la estadística no es lo bastante sólida como para sostener toda la carga que se ha depositado en ella. Sin más datos detallados, que el estudio no incluía, no está claro qué conclusiones estaban justificadas. ¿Significa esa cifra que desempeñando exactamente el mismo empleo que un hombre, el salario de una mujer es el 59% del de éste? ¿Tiene esa cifra en cuenta el número creciente de mujeres en el mercado de trabajo, así como su edad y experiencia? ¿Tiene en cuenta los empleos relativamente mal pagados que tienen muchas mujeres (recepcionistas, maestras, enfermeras, etc.)? ¿Tiene en cuenta el hecho de que generalmente el empleo del marido determina el lugar de residencia de una pareja? ¿Tiene en cuenta el alto porcentaje de mujeres que trabajan para un objetivo a corto plazo? La respuesta a todas estas cuestiones es no. La pura cifra publicada decía, simplemente, que los ingresos medios de una mujer trabajando a jornada completa eran el 59% de los de un hombre en las mismas condiciones.
La intención de las preguntas anteriores no es negar que haya sexismo, que es ciertamente bastante real, sino señalar un ejemplo de dato estadístico que, por sí solo, no es demasiado informativo. Sin embargo, siempre se cita y se ha convertido en lo que el estadístico Darrell Huff ha llamado cifra «semiagregada», un número que se saca de contexto con poca o ninguna información acerca de cómo se ha obtenido o de cuál es su significado.
Cuando los datos estadísticos se presentan tan desnudos, sin ninguna información del tamaño y composición de la muestra, de los protocolos metodológicos y las definiciones, de los intervalos de fiabilidad, los niveles de significación, etc., casi lo único que podemos hacer es encogernos de hombros o, si tenemos ganas, tratar de determinar el contexto por nosotros mismos. Otro tipo de dato estadístico que a menudo se presenta sin más acompañamientos tiene la forma siguiente: el X por ciento de la población posee el Y por ciento de la riqueza del país, siendo X chocantemente pequeño e Y chocantemente grande. La mayoría de estadísticas de este tipo son chocantemente engañosas, aunque tampoco ahora pretenda yo negar que en este país hay muchísimas desigualdades económicas. Los capitales de las familias y de los individuos ricos raramente son líquidos, y tampoco tienen un valor o una relevancia puramente personales. Los procedimientos contables empleados para medir estos capitales son, con frecuencia, muy artificiosos, y la situación se complica por otros factores que resultan evidentes a poco que uno piense en ello.
Ya sea pública o privada, la contabilidad es una combinación peculiar de realidades y procedimientos arbitrarios que normalmente hay que descifrar. Las cifras del gobierno acerca del nivel de empleo experimentaron un salto importante en 1983, pero esto no reflejaba otra cosa que la decisión de contabilizar a los militares entre los empleados. Análogamente, los casos heterosexuales de SIDA crecieron espectacularmente cuando la categoría haitiana fue absorbida en la categoría heterosexual.
Aunque sea lo más fácil y agradable, sumar no es siempre lo más apropiado. Si cada uno de los diez artículos necesarios para la manufactura de cierto producto ha aumentado en el 8%, el precio total ha aumentado sólo un 8% y no el 80. Como he contado antes, en cierta ocasión el hombre del tiempo de un canal local informó que la probabilidad de que lloviera el sábado era del 50% y la de que lloviera el domingo, el 50% también, y por tanto, concluyó, «parece que la probabilidad de que llueva este fin de semana es del 100%». Otro hombre del tiempo anunció que el día siguiente iba a hacer el doble de calor, pues la temperatura pasaría de 5° a 10°C.
Hay una demostración graciosa según la cual a los niños no les quedan días para ir a la escuela. Una tercera parte del tiempo la pasan durmiendo, lo que da unos 122 días. Durante una octava parte del tiempo están comiendo (unas tres horas al día), lo que representa unos 45 días. Las vacaciones de verano y las otras que hay a lo largo del año representan una cuarta parte del tiempo, unos 91 días. Y dos séptimas partes del año, 104 días, son fin de semana. La suma da aproximadamente un año, con lo que no les queda tiempo para asistir a la escuela.