Muchos datos y poco conocimiento

En este año electoral surgirán muchos datos y muchos analistas con instinto prestidigitador para pronosticar los resultados de una contienda tan cerrada; sin embargo, es importante saber interpretar y cuestionar lo que presentan como resultados.

Por: David Lampón (@dvdlmpn)

Alguna vez en la universidad, un profesor de historia nos acompañó a una reunión; hubo alcohol y al profe se le pasaron las copas a tal grado que empezó a describir su percepción de algunos de los compañeros de la clase. Le tocó el turno a un alumno que, desde mi perspectiva destacaba por sus conocimientos. Le hice ver al desinhibido profesor la genialidad de mi compañero y me contestó con una frase que describe muy bien la sensación que tengo de este mundo invadido por datos sin sentido: Ese tipo es solo un tumbaburros.

Al tratar de entender la percepción del profesor sobre mi destacado compañero me di cuenta a lo que se refería con ese adjetivo. Esta persona era un cúmulo de datos que recitaba a la menor provocación, sin embargo, no existía en su discurso un procesamiento que pudiera generar algo en su conversación, una idea contrastada, una opinión bien informada, un conocimiento que resulta de tal cantidad de información y de las reflexiones que se pudieran generar del mismo.

La sociedad invadida de datos corre el riesgo de ser ese alumno genial que deslumbra las mentes ingenuas como la mía en mis épocas de estudiante, o peor aún, una sociedad con el alcance a la mano de herramientas tecnológicas y datos de dudoso procesamiento, puede generar malinformación, como las encuestas en Twitter que desvelan “chayoteras” personalidades en favor de uno u otro precandidato.

En este año electoral surgirán muchos datos y muchos analistas con instinto prestidigitador para pronosticar los resultados de una contienda tan cerrada, sin embargo, es importante saber interpretar y cuestionar lo que presentan como resultados. Es aquí donde surge el concepto de alfabetización de datos o data literacy que básicamente Wikipedia lo define como la habilidad de leer, crear y comunicar datos como información útil, dada la importancia que han adoptado los datos en las noticias, los negocios y los gobiernos de países alrededor del mundo. Esta definición simplista puede quedar mucho más clara mediante el siguiente video:

Y aunado a la importancia de saber interpretar un dato, es también relevante saber cuestionar una fuente de datos, como la clase que se presenta en el siguiente video para detectar noticias falsas, y que nos permite identificar si un contenido es noticia, opinión, entretenimiento, propaganda o algo más:

Solo para cerrar la importancia de cuestionar un dato y quedar satisfecho con la respuesta, me tomé la libertad de hacer un ejercicio en el que es es necesario conocer la diferencia entre la media y la mediana. Si tenemos un conjunto de cinco datos: X = {1, 1.5, 2, 3.8, 25.1} la media o promedio de estos datos nos proporciona un resumen de los cinco datos y nos dicen que los valores de X están “alrededor” de 6.7. Si estos datos fueran ingresos de un conjunto de cinco personas estaríamos diciendo que ganan 6.7 más o menos. Este “más o menos” da lugar a una muy buena pregunta que sería ¿y qué tanto varían? Sin embargo, la respuesta no sería satisfactoria porque la respuesta obvia es: ganan 6.7 más/menos 10.4.

Cuando hablamos de ingresos, con tanta variabilidad que pudiera existir, el promedio no es una buena medida de centralidad que resume los datos, ya que si existe un dato alto, este podría jalar los datos hacia arriba pareciendo que ganamos más (genera un sesgo en nuestra estimación). En este caso, para hablar de lo que “representan” estos datos es importante mencionar a la mediana de X, que no es más que ordenar el conjunto de datos de menor a mayor (mañosamente ya estaba ordenado) y tomar el valor del centro, como son cinco datos tomaríamos el dato de la tercera posición. En este caso la respuesta sería ganan “alrededor” de 2; el que menos gana, gana 1, y el que más gana, gana 25.1. Y con esta respuesta queda bastante claro que el tipo que gana 25.1 es un bicho raro que no representa a X aunque pertenezca a X.

Este ejemplo simple sirve para entender cuál es el ingreso aproximado de los mexicanos, que de acuerdo con la Encuesta Nacional de Ingresos y Gastos de los Hogares 2016 en su reporte de resultados cita textualmente: “El ingreso corriente promedio trimestral por hogar en 2016 resultó en 46,521 pesos”, es decir, más o menos $15,507 pesos al mes. Si nos ponemos pesados y preguntamos ¿cómo se distribuyen estos datos? podemos obtener la mediana, el mínimo y el máximo de los datos (ponderados por su factor de expansión) y responder: los hogares en México ganan alrededor de $10,552 pesos al mes; el que menos gana en ingreso corriente, gana $0 pesos al mes; y el que más gana en ingreso corriente, gana $11,941,371 pesos al mes. Y con esto darnos cuenta que sí existen esos bichos raros que ganan una millonada al mes, no más, como 12.

 

* David Lampón es Científico de Datos y Matemático Aplicado por el ITAM. Actualmente es socio fundador del Centro de Análisis de Datos AC, organización especializada en el procesamiento y análisis de información mediante el uso de modelos estadísticos y algoritmos computacionales aplicados a temas de salud pública y desarrollo social.

Close
Comentarios