Claves y aspectos abiertos de la regulación europea sobre uso de datos e IA (parte II)

A menudo la realidad tras los datos resulta muy incómoda desde el punto de vista ético.

Juan Murillo

17 octubre, 2021 03:09

En el artículo anterior decíamos que las claves de la nueva regulación sobre Inteligencia Artificial de la Unión Europea son asegurar la trazabilidad y las responsabilidades en los procesos de desarrollo de los sistemas que hagan uso de la IA, garantizar su transparencia, y conseguir que no amplifiquen o perpetúen sesgos para evitar la discriminación de los ciudadanos sometidos a decisiones algorítmicas.

Sin embargo este último objetivo, loable en sí mismo, se enfrenta con muchísimos escollos en el camino, empezando por la falta de definición de conceptos básicos. Por supuesto, la regulación no ha de bajar al detalle de los cómos (no es su propósito), pero sí debería marcar el campo de juego a través directrices aterrizables posteriormente al desarrollo de casos concretos, por eso sorprende que en su artículo 3 -dedicado a glosar las definiciones que posteriormente facilitan la comprensión de la propuesta legislativa- no se aborden los conceptos de bias, fairness, o no se distinga la discriminación lícita de la discriminación injusta.

Ante este vacío cabe hacer las siguientes reflexiones:

En primer lugar podemos definir la equidad como el objetivo de no tratar a alguien de forma diferente en función de un determinado conjunto de características que el marco jurídico considera discriminatorias. Aquí habría que remitirse a las constituciones nacionales, pero como estas son dispares, el marco común es la Carta de Derechos Fundamentales de la Unión Europea, que en su artículo 21 apunta: “Se prohíbe toda discriminación, y en particular la ejercida por razón de sexo, raza, color, orígenes étnicos o sociales, características genéticas, lengua, religión o convicciones, opiniones políticas o de cualquier otro tipo, pertenencia a una minoría nacional, patrimonio, nacimiento, discapacidad, edad u orientación sexual.” Por lo tanto, si dos personas son iguales en todo, salvo en alguno de estos 16 atributos, deberían recibir el mismo trato en su acceso a servicios básicos (ya sea un algoritmo el que decida este acceso, o un humano, aún no nos hemos metido en el uso de datos e IA).

Sin embargo debemos tener en cuenta que hay varios tipos de elementos que pueden perjudicar la equidad:

1] El primer tipo de problema a evitar sería el uso directo de una característica discriminatoria en el desarrollo de sistemas de IA. Por tanto, si entrenamos un modelo matemático con un conjunto de datos, a priori deberíamos evitar cualquiera de los 16 atributos citados anteriormente estén presentes o actúen como discriminantes. La solución para combatir este riesgo es, obviamente, evitar directamente el registro y el uso de las características específicas enumeradas por las leyes contra la discriminación, algunos de los cuales además suelen ser datos personales sensibles sometidos a fuertes restricciones. Otros no, y me pregunto cómo un sistema de salud puede priorizar su lista de espera de transplantes sin considerar la edad del receptor como una variable más de su modelo, o cómo puede un banco hacer una asignación crediticia responsable y de bajo riesgo sin considerar el patrimonio del solicitante.

2] El segundo tipo de problema se da cuando la característica discriminatoria está ausente, no es un campo en el conjunto de datos, por lo que no se puede utilizar directamente. Sin embargo hay características “proxy” altamente correlacionadas con la característica prohibida que un algoritmo de aprendizaje automático puede inferir, creando clusters de clientes que agrupen a quienes tienen esa característica (sin que esa fuese la intención del científico de datos). Por ejemplo, se ha demostrado que el código postal de residencia podría ser un proxy de la etnia en algunos entornos urbanos segregados. Las evaluación ex post para evitar esto suele ser muy difícil de conseguir, ya que faltan datos de contraste y estas correlaciones están ocultas en la mayoría de los casos.

Para añadir una capa de complejidad adicional, tanto si hacemos un uso directo (1) o indirecto (2) de la característica sensible, podemos enfrentarnos a otro tipo de problemas a los que a menudo se hace referencia bajo el mismo término de "sesgos", y que sin embargo pueden ser de naturaleza muy diferente. Los revisaremos a continuación.

A] Los sesgos relacionados con la mala calidad de los datos y su escasa representatividad, que pueden conducir a una mala predicción algorítmica. Un elevado número de falsos positivos o falsos negativos en la predicción de un modelo suele estar relacionada con la falta de capacidad descriptiva que tiene el conjunto de datos de entrenamiento sobre el grupo al que no queremos discriminar. Por ejemplo: las personas mayores suelen dejar una huella digital muy baja, lo que significa que son "invisibles" para los modelos de aprendizaje automático. La solución a este problema es comprobar si el conjunto de datos de entrenamiento utilizado está bien equilibrado con respecto a la distribución de la población general, y si no lo está, ampliar la información. Trabajando con Big Data solemos hacer un gran esfuerzo de inferencia, pero a veces se pueden hacer preguntas directas a los afectados para obtener una visión más precisa sobre los puntos ciegos.

Un efecto adicional son los casos de falsos positivos o falsos negativos de individuos que se asignan con las mismas características del grupo al que pertenecen, cuando en realidad son valores atípicos dentro de su clase, y esta generalización o tendencia a la media realizada por el modelo analítico les perjudica. Como los datos no son más que una sombra tenue y parcial de la realidad que representan, la clasificación en grandes grupos suele fallar en algún momento, y cuanto más granular es una taxonomía, más preciso es el resultado

B] Sesgos sociales. Más allá de los problemas antes mencionados, causados por un mal rendimiento técnico o por la falta de capacidad descriptiva de los datos, ahora vamos a abordar una cuestión completamente diferente: el caso en que los datos y los algoritmos funcionan perfectamente bien, pero es la realidad objetiva que hay detrás de los datos la que resulta muy incómoda desde el punto de vista ético. Nuestro sistema socioeconómico dista mucho de ser perfecto, hay muchas desigualdades en él, y los datos no son más que la proyección de esa realidad en un espacio virtual. Los modelos pueden encontrar esos hechos y basar las decisiones en ellos, por ejemplo: las faltas de ortografía en los formularios de solicitud de crédito pueden correlacionarse objetivamente con mayores tasas de impago. Las mujeres pueden tener mayores gastos médicos de los hombres, ¿el sistema les puede asignar una mayor prima de seguro médico? ¿Qué hacemos con esas imperfecciones, ya que no son errores analíticos? (recordemos que edad y género están entre las 16 variables del artículo 21)

Las respuestas no son triviales, y tocan de pleno el campo de la política. En algunos casos, como el del acceso de las minorías a la educación en Estados Unidos, se ha forzado una discriminación positiva mediante cuotas de acceso para paliar el hecho de que, de media, las puntuaciones de la población vulnerable sean histórica y objetivamente inferiores a las esperadas. Está claro que el estado puede ejercer esta discriminación positiva para equilibrar las imperfecciones en nuestra sociedad, pero ¿debe forzar a las empresas a hacerlo, cuando ello conllevaría un deterioro de su cuenta de resultados? ¿y qué tiene que ver la IA con todo ello? ¿por qué aprovechamos la automatización de procesos para sacar cuestiones que llevan décadas entre nosotros?

Quizá el texto que salga del proceso parlamentario ofrezca respuestas a estas cuestiones. Estaremos atentos para comentarlo cuando llegue el día.

Juan Murillo es consultor estratégico en materia de datos, inteligencia artificial, sostenibilidad y ciudades inteligentes