Máquinas que hablan, máquinas que ven

En esta ocasión, uno de los fundadores de Numens, Pablo Castiella, socio fundador y Managing Partner de baobab soluciones, nos contará a través de su propia experiencia profesional la evolución de los sistemas de reconocimiento de voz (y de imágenes) y cómo hemos pasado de los “contestadores automáticos” a “Alexa”, “Siri” u “Ok Google” en solo unos años.

Comencé mi carrera profesional en una empresa que, a principios del siglo XXI, era puntera en sistemas de reconocimiento de voz. Era una época en la que el hecho de que una máquina pudiera interpretar respuestas a preguntas del tipo “¿qué desea?” parecía magia. Casi todo lo que existía en el mercado era denominado (y odiado) por la sociedad como “contestadores automáticos”. Aquella empresa fue una de las primeras en utilizar lenguaje natural (NLP) en España. En el interior de aquel software, programado en C++ (otras empresas utilizaban Java) había algoritmos (cadenas) de Markov, y además, para mejorar la experiencia del cliente, se apoyaban en “operadores transparentes” (personas que están detrás de los algoritmos escuchando las respuestas si los resultados de los algoritmos no tenían suficiente calidad) y dando una solución al sistema para que continuara con la interacción.

Los sistemas estaban preparados para entender respuestas de este estilo: “quería comprar un billete de Madrid a Salamanca para mañana a las 8” a lo que la máquina, después de interpretar el origen, destino fecha y hora,  respondía “¿quiere también la vuelta?.

Estas respuestas de la máquina, eran una concatenación de síntesis de voz y audios naturales pregrabados. Esta síntesis es, en realidad, una grabación de fonemas, difonemas y trifonemas que se realiza por un locutor en un estudio y se puede utilizar para leer cualquier texto (en YouTube se pueden encontrar miles de videos cuyo audio es sintético). En los casos en los que el locutor de la síntesis y el audio natural es el mismo, la calidad percibida por el usuario (lo que hoy todos llamamos UX) es muy alta, hasta tal punto que ciertas personas no eran conscientes de que estaban hablando con una “inteligencia artificial”, o lo que es lo mismo, con una máquina de principios de siglo.

Volviendo al ingenioso punto de los operadores transparentes, éstos fueron muy útiles ya que con las respuestas que daban los operadores al sistema, se podía entrenar a los propios algoritmos, mejorando sus resultados con el paso del tiempo al aumentar la cantidad de datos (lo que llamamos set de datos de training, en nuestros días). Era una forma muy ingeniosa (y económica) de reducir costes desde el momento de la implantación de la IVR (Interactive voice recognition, que es como se llaman en el argot estos sistemas), sin tener que hacer un modelo de aprendizaje previo. Fue muy utilizado en banca y venta telefónica, entornos donde la operativa e interacción con el usuario más limitada que, por ejemplo, en centros de atención a usuarios.

En aquella primera empresa, conocí a mi primer compañero de trabajo, que se sentaba en la mesa de al lado. Él había trabajado previamente en una empresa de sistemas de reconocimiento de matrículas de vehículos, sector que estaba mucho más avanzado que el reconocimiento de voz, y donde no hacía falta asistencia humana, solo que hubiera suficiente luz y la matrícula no estuviera muy sucia o deteriorada. Hoy en día están implantadas en todos los parkings que utilizamos y en los vehículos que patrullan las calles de grandes ciudades para verificar si hemos pagado el estacionamiento regulado.

Aquellos principios del siglo XXI presagiaban lo que ocurriría más adelante, sobre todo a partir de que comenzara el uso masivo de teléfonos inteligentes y de que Google pasara de ser un buscador para incluir otros tipos de aplicaciones dentro de sus servicios.

Uno de ellos, que, en parte, me hizo replantearme mi carrera profesional, fue el sistema de reconocimiento de voz incluido en los sistemas Android, que tenía una gran precisión (para ser justos, la calidad que recibe un micrófono de un terminal móvil es muy superior a la de un audio que viaja a través del teléfono), y no necesitaban de ayuda humana. Esos sistemas se han mejorado tanto que, en nuestros días, es perfectamente posible dar instrucciones por voz o incluso dictar textos a sistemas de reconocimiento de voz, con unos errores muy bajos.

En cuanto a aquellas cámaras para reconocer matrículas, de nuevo Google ha perfeccionado los algoritmos de visión artificial para reconocer objetos, personas, textos y casi cualquier cosa que necesitemos desde nuestro smartphone.

Por supuesto Google no es la única empresa que hace uso de este tipo de técnicas, pero es un ejemplo de la evolución de la inteligencia artificial en este siglo XXI.

Empresas como las que participan en la asociación Numens, tienen por objetivo ayudar a formarse en este tipo de técnicas (y otras también relacionadas con la analítica avanzada), pero sobre todo, a saber aplicarlas a problemas reales. Uno de los grandes problemas asociados al machine learning, y a la IA en general, no está en que los técnicos no conozcan las herramientas, sino que no sepan interpretar los problemas, o peor aún, las soluciones encontradas. El objeto de estas formaciones es aprender a enfocar correctamente tanto los problemas como los resultados y así poder orientarse al desarrollo de aplicaciones de procesamiento de lenguaje natural o de visión artificial en sectores específicos. Como ejemplo, podemos hablar de aplicaciones que, con imágenes obtenidas por drones que sobrevuelan nuestros bosques, nos permitan conocer la salud de los mismos, identificando especies, frondosidad o incluso enfermedades o el uso del NLP para identificar fake news sobre el cáncer. Por supuesto, esto no lo hacen los modelos de Google, sino que hace falta realizar desarrollos a medida y entrenar (y saber interpretar) modelos que den resultados correctos.

También puedes seguirnos en las redes sociales: LinkedIn Twitter

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *