La construcción de un modelo para el análisis de datos basado en IA requiere de un entrenamiento supervisado por personas para evitar sesgos y efectos no deseados
De acuerdo con la Fundación Cotec, el 65% de las empresas corren el riesgo de convertirse en irrelevantes o no competitivas si no adoptan estrategias de big data, un sector que en España crece un 30% cada año.
Cuando abordamos un proyecto que tiene a los datos como centro, hay una etapa que se suele pasar por alto: la de la construcción del modelo. El modelo es capaz de crear procedimientos y reglas sistemáticas en torno a los datos para hallar la solución a un problema. Una vez construido el modelo, es posible delinear escenarios a partir de cualquier información disponible.
En este sentido, Machine Learning es una gran revolución porque el uso de algoritmos informáticos permite que los modelos aprendan automáticamente a través de la experiencia . De hecho, la calidad y la cantidad de ese aprendizaje tiene tanto que ver con el éxito del proyecto de datos como con los propios algoritmos. Sin embargo, este aprendizaje no debe darse en completa “soledad” y en este punto quiero detenerme.
Los algoritmos de Machine Learning aprenden de los datos, comparando relaciones, desarrollando comprensión, tomando decisiones y evaluando a partir de los datos que reciben pero ese entrenamiento requiere necesariamente un acompañamiento humano: cuando digo que el modelo no aprende solo viene a mi mente el ejemplo paradigmático de Microsoft y Tay, el bot experimental con el que se pretendía conocer más sobre la interacción entre computadoras y seres humanos en las redes sociales. El experimento salió mal y a las pocas horas y debido a la interacción con ciertos usuarios en tiempo real, el bot se volvió xenófobo y racista y tuvo que ser retirado. Su entrenamiento no había recibido el monitoreo humano suficiente.
Volviendo al entrenamiento, cuanto mejor sea la calidad y la cantidad de datos para su aprendizaje, mejor se desempeñará el modelo. Pero incluso si el modelo cuenta con una gran cantidad de datos bien estructurados eso no asegura un correcto entrenamiento. Por ejemplo, los vehículos autónomos no sólo necesitan imágenes de una calle, necesitan imágenes etiquetadas de cada automóvil, peatón, letrero de la calle, entre otros. Los proyectos de análisis de sentimientos requieren etiquetas que ayuden a un algoritmo a comprender cuándo alguien está usando ironía o sarcasmo. Los chatbots necesitan entender el análisis sintáctico, tonos, entre otros.
Por supuesto, los casos de uso más complicados generalmente requieren más datos y entrenamiento que los menos complejos. Cuanto más específico tenga que ser el modelo, más ejemplos necesitará para entrenarse. Si por ejemplo tenemos una herramienta de identificación que solo busca identificar alimentos versus una que intenta identificar objetos, la primera por regla general necesita menos datos.
Lo que sobreviene es la pregunta sobre cómo preparar los datos para que el entrenamiento del modelo sea exitoso. La mejor manera es tan simple como involucrar humanos en el circuito que sean capaces de etiquetar la mayor cantidad de datos de manera precisa y eficiente. De esta manera se acompaña el aprendizaje, se corrigen las posibles desviaciones y se evitan así los efectos colaterales de un aprendizaje “en soledad”.
El proceso de etiquetado de datos suele llevar mucho tiempo. Probablemente y de acuerdo a la escala del proyecto, se necesiten gran cantidad de recursos para un etiquetado de datos y una supervisión del aprendizaje adecuada, pero es la manera más certera de crear un modelo de Machine Learning confiable y efectivo.
Julio César Blanco – 12 de agosto del 2022