Big Data: racionalidad o fantasía

El artículo trata acerca de la actualidad del fenómeno Big Data y del Machine Learning dentro de la premisa de una sociedad donde la información y los individuos son 100% objetivos y racionales. Esta situación es completamente contraria al mundo de hoy en día y a través del estudio de la subjetividad del ser humano se pone en duda la viabilidad de este tipo de métodos y la necesidad de una mejora sustancial de los mismos.

Cuando pensé en escribir un post sobre este tema mi idea era intentar transmitir las muchas mejoras que el uso de tecnologías como el “Machine Learning” y el “Big data” pueden significar para la sociedad de hoy en día en términos socioeconómicos, pero, a medida que avanzaba en el estudio de este fenómeno, me he dado cuenta de la cantidad de riesgos que existen si se toma al conjunto social desde un punto de vista puramente racional.

Se puede definir como Machine Liaoning al conjunto de métodos que detectan patrones para predecir resultados futuros. Una forma de hacerlo sería tomar todo en universo de datos (el universo del Big data) y combinarlos de todas las maneras posibles hasta dar con el resultado buscado.  Este conjunto de métodos puede ser de dos tipos: Supervisado, cuando el objetivo final es determinado; o no supervisado, cuando no hay nada concreto que se quiera predecir o determinar.

Fuente: Pixabay.

A inicios del 2010, las compañías y startups del entorno fintech comenzaron a desarrollar modelos propios de predicción o evaluación del riesgo crediticio.

Esta carrera por tener el modelo más preciso y avanzado entre el entorno fintech es la que lleva a las compañías a ser completamente opacas en su proceso de construcción exacta. Si los modelos de predicción fuesen públicos y transparentes no existirían incentivos para obtener una ventaja competitiva con respecto a los competidores. Otro problema derivado de la falta de transparencia es su incidencia en la educación financiera de la sociedad de hoy en día.

Datos de partida erróneos 

En EE. UU., el fenómeno del “Big Data” y el “Machine Learning” no justifica la utilización errónea de datos. Conviene ejemplificar este caso con la frase de Göbbels “una mentira repetida mil veces se convierte en una verdad”. En ocasiones, Big Data está sujeto a datos de partida erróneos que por muy exactos que sean sus cálculos en la obtención de resultados, estos son puramente erróneos. Cuando los datos de partida erróneos son de carácter económico-financiero, las consecuencias pueden ser terribles.

Este es el caso del estudio del año 2013 llevado a cabo por la Federal Trade Comision donde al menos el 26% de los encuestados habían detectado errores en los datos utilizados para determinar su situación en el sistema de calificación de créditos (Credit Scoring) para determinar la viabilidad de poder acceder a un crédito bancario. Una de las claves principales del problema radica en que es responsabilidad del propio evaluado y no del evaluador de detectar errores en los datos, denunciarlos y velar por su correcta corrección.

A pesar del riesgo del uso de datos erróneos, la aplicación de los métodos de Credit Scoring está permitiendo evaluar a aquellos colectivos que, por falta de datos, no por falta de capacidad de pago, no podían contar con acceso a financiación.

Desde España, a pesar de la opacidad anteriormente mencionada, las nuevas compañías dedicadas a explotar el potencial del “Big Data” y “Machine Learning” si parecen haber mejorado los sistemas tradicionales reduciendo el impago, aumentando la velocidad de los procesos y aumentando la tasa de aprobación para poder dar acceso a financiación a parte de la población española que antes estaba excluida de los medios de financiación tradicional.

El reto, dentro del sector financiero-tecnológico, estaría en desarrollar metodologías suficientemente transparentes y justas que se puedan emplear de forma apropiada, objetiva y no discriminatoria.

El componente humano

Con todo lo anteriormente expuesto hay que destacar que, si fuésemos seres 100% racionales, hay ciertos resultados que serían completamente distintos a los que observamos hoy en día. Un ejemplo sería que en EE. UU. gobernaría Hillary Clinton.

Siguiendo el representativo caso de Harry Enten, analista de la página web FiveThirtyEight, podríamos recordar cómo según los datos obtenidos en plena campaña electoral, existía un 71% de probabilidad de que Hillary Clinton fuese la futura presidenta de Estados Unidos a pocas horas de que acabase la campaña electoral y que esta fuese derrotada por Donald Trump.

Basarse de manera ciega en un modelo estadístico para concluir con escenarios futuros no es del todo recomendable puesto que nosotros nos dejamos guiar por emociones y conductas que no son puramente racionales.

Volviendo al caso norteamericano, muy pocos medios de comunicación relevantes apostaban por una victoria de Trump horas antes de que se cerrasen las urnas. Tras el resultado obtenido, todos los analistas reacios al “Big Data” mostraron su júbilo a través de las redes sociales, no por el resultado en sí sino por el modelo que había dado lugar a conclusiones erróneas.

“Tal vez podríamos haber pronosticado una victoria de Donald Trump basándonos en la intuición, la experiencia y el sentido común; concede, pero nuestro modelo, el análisis ponderado y minucioso de información disponible, contaba una historia muy distinta, y nos aferramos a él hasta el final” – Harry Enten

Inspirándome en los estudios de Will Oremus, se explica como en el 2012 el fenómeno de “Big Data” era acogido con gran interés y que su interés ha sido exponencial hasta el 2017, año clave en la tendencia por este fenómeno donde retornamos a técnicas de análisis donde se tiene en cuenta la importancia de las variables cualitativas. Todo ello para contemplar versiones más eficaces del “Big Data” donde se atienda a la importancia e imprevisibilidad del comportamiento humano.

Oremus nos recuerda casos insólitos como el estudio (basado en correlaciones estadísticas fruto del “Big Data”) que aseguraba que los solicitantes de hipotecas que escriben su solicitud utilizando solo mayúsculas son más proclives a dejar de pagar las cuotas. Desde el punto de vista económico-social, este estudio no tiene sentido alguno. Seguimos convencidos de que en cuestiones hipotecarias se sigue teniendo en cuenta la solvencia teórica del cliente. El hecho de estas teorías con correlaciones propias de la fantasía invita a más de uno a pensar hasta que punto ha llegado el fervor por el fenómeno del “Big Data” (rozando en algunos casos la propia irracionalidad).

Tras estudiar multitud de estudios con hipótesis fantasiosas puedo destacar que actualmente la sociedad ha caído en una constante pleitesía a los modelos estadísticos basado que, en muchas veces, han sido eficaces en la predicción de resultados (sobre todo, en los deportivos). A pesar de ello creo que para poder acercarse más al mundo real y tener más eficacia predictiva, el “Big Data” tiene que encontrar un modo de integrar en su análisis esas variables subjetivas y características del ser humano como son la intuición, la experiencia y el sentido común.

Imagen extraída a partir de Pixabay.

Un último curioso ejemplo del fenómeno “Big Data” y conclusiones incongruentes. En 1967, el secretario de defensa estadounidense Robert McNamara pidió al Pentágono que introdujese en sus ordenadores todos los datos disponibles sobre la guerra de Vietnam por ambos bandos. La respuesta de los ordenadores fue que EE. UU. ganaría la guerra en 1965. Nada más lejos de la realidad.

Creo que la clave frente a la actualidad del “Big Data” radica en la tendencia del Small Data donde todas las variables (tanto objetivas como subjetivas) tienen la misma relevancia. Gran parte de los estudios de las empresas de gran consumo se basan en estudios cualitativos para sus estrategias de venta de productos donde se tiene siempre en el punto de mira las variables subjetivas propias de la conducta humana. Estos son los modelos del futuro puesto que equilibran con eficacia los criterios cualitativos y los cuantitativos para así complementar el espíritu técnico del “Big Data”.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *