Por qué la interfaz de voz es un callejón sin salida evolutivo y el futuro está en el "pensamiento"
Por qué la interfaz de voz es un callejón sin salida evolutivo y el futuro está en el "pensamiento"
Imaginen esta escena, que quizás para muchos no sea imaginación, sino vívida realidad: se encuentran en un espacio abierto inmenso, nacido de la fantasía de un diseñador que creía que la transparencia y la colaboración eran la clave para la innovación. A su alrededor hay decenas de colegas, cada uno inmerso en su propia pantalla, con auriculares coloridos y con cancelación de ruido, teclados mecánicos, teléfonos que suenan y personas que hablan y ríen de pie en medio de la sala.
Justo en ese momento necesitan interactuar con su IA favorita, deben responder a un correo electrónico o tener un resumen de la última reunión, deben decirle a su esposa que para Navidad quieren regalar un "turrón" a su suegro, pero la IA sigue entendiendo "tontorrón" y les recuerda que es un término poco agradable para referirse a un pariente.
¿Qué hacen? ¿Gritan como un loco "¡hagan silencio!", van a un rincón aislado del edificio esperando que no pase nadie a interrumpirles, van al baño y se encierran dentro esperando que nadie les crea un loco?
El síndrome del capitán Kirk
La infancia pasada viendo los episodios de Star Trek, donde el capitán Kirk lograba impartir órdenes complejas al ordenador de a bordo en el absoluto silencio del puente de mando del Enterprise, no puede más que representar la romántica expectativa de un futuro que es realizable solamente en el silencio de la propia habitación, pero casi irrealizable en un mundo donde el espacio abierto reina como única herramienta de socialización y la privacidad es una necesidad para casi todos.
Reflexionemos: ¿estamos convencidos de que este sea el futuro? ¿Estamos seguros de que el apogeo de la evolución tecnológica consista en hablar solos en una habitación vacía o en gritar comandos en un ambiente ruidoso esperando que un algoritmo de Procesamiento de Lenguaje Natural entienda la diferencia entre "turrón" y "tontorrón" cuando hablan con su pareja?
¿Y si fuera todo un problema de entrada?
Si analizamos con atención toda la tecnología que hemos producido en los últimos años, nos damos cuenta de una asimetría preocupante. Hemos construido una infraestructura de salida excepcional, pero nos hemos quedado en la edad de piedra en lo que respecta a la entrada.
Intentemos plantearnos una pregunta: ¿y si lo estuviéramos haciendo todo mal? ¿Y si la era de los asistentes de voz no fuera el punto de llegada, sino solo una torpe fase de transición, el clásico parche temporal a la espera de una solución verdadera? ¿Y si estuviéramos todavía en una especie de era primitiva donde nuestras cuerdas vocales que vibran trabajosamente en el aire son las tarjetas perforadas de todo este sistema?
Exploremos un tipo de entrada diferente, donde el futuro no sea "hablar", sino "pensar". Si lo pensamos bien, la voz es un cuello de botella insostenible para el ancho de banda de nuestro cerebro: tiene toda una serie de restricciones ligadas a cómo emitimos los sonidos, al ambiente, a la pronunciación. El pensamiento no: es más rápido que la palabra, su comprensión no se ve influenciada por los ruidos y tiene una privacidad igual al 100% de lo que debemos decir.
Prepárense para cuestionar su altavoz inteligente y para mirar sus auriculares con ojos diferentes. En uno de los futuros hipotéticos de nuestro metaverso, hablar con los ordenadores causará el mismo asombro que está causando hoy el uso del teléfono de disco a los chicos de la Generación Z.
La asimetría de la interfaz hombre-máquina
Para entender el problema de las interfaces actuales debemos primero analizar el contexto en el que operamos. Vivimos en una paradoja tecnológica: hemos resuelto de modo brillante la mitad del problema de la comunicación: logramos generar video, audio, texto a la velocidad de la luz, produciendo montañas de datos, pero dejamos la otra mitad en un estado de caos disfuncional.
En los últimos años se han invertido miles de millones para perfeccionar la manera en que las máquinas envían información a nuestro cerebro a través del canal auditivo. Nuevo hardware y algoritmos evolucionados nos han permitido tener experiencias de escucha tan inmersivas que podemos cerrar los ojos e imaginarnos en otros mundos: no estamos todavía en los Holodecks, pero el camino es ese.
Desde los altavoces chirriantes de los gramófonos a los dispositivos portátiles de altísima fidelidad que encontramos en nuestros bolsillos, el salto ha sido enorme. Una de las innovaciones clave ha sido la difusión de la Cancelación Activa de Ruido, una tecnología capaz de "escuchar" el caos en el que estamos inmersos—tráfico, colegas ruidosos, aspiradoras—y anularlo en tiempo real con una onda sonora de fase opuesta.
Esta tecnología crea una "burbuja de privacidad" acústica haciéndonos percibir solo el sonido que llega de los auriculares que llevamos puestos, aunque nos aísla completamente del mundo exterior.
¿Qué hemos obtenido de este progreso tecnológico? Tres beneficios clave:
-
Intimidad digital: la tecnología de conducción ósea y los auriculares "open ear" permiten superponer el audio digital a la realidad física sin bloquear el canal auditivo. Podemos escuchar a su esposa preguntándoles dónde han puesto la sal mientras están en una reunión y la voz de sus colegas les llega al cerebro como si fuera un pensamiento implantado.
-
Ubicuidad del canal: podemos recibir salida en cualquier lugar. Escuchar un audiolibro mientras hacemos la compra, recibir la lectura de una notificación de WhatsApp durante una reunión, o dejarnos guiar por el GPS mientras vamos en bicicleta.
-
Calidad y humanización: la síntesis vocal ha alcanzado niveles de realismo embarazosos. Si repensamos en las primeras voces robóticas, los actuales modelos neuronales generan voces indistinguibles de las humanas, con inflexiones emotivas, pausas para respirar, variaciones de tono.
Por lo que respecta a la salida, la tecnología ha dado pasos de gigante.
El fracaso de la entrada: el cuello de botella de la voz
Bien, fantástico, excepcional: podemos recibir muchos más datos de cuantos somos capaces de asimilar. Pero cuando debemos dar nosotros los datos, ¿qué pasa? En este caso la tecnología tropieza. La entrada vocal sufre de limitaciones físicas, sociales y cognitivas que por el momento ninguna tecnología parece poder resolver a corto plazo.
No es un problema de herramientas: es un problema de interfaz física. Las interfaces vocales presuponen un ambiente ideal que raramente existe en la vida real: el silencio o un ruido controlado. Sin este punto de partida el riesgo de mezclar datos reales con datos fuera de contexto es muy alto.
El mundo real está lleno de caos acústico: música de fondo, toses, televisores encendidos, vecinos que hablan. En este contexto, la entrada vocal se vuelve problemática y poco fiable.
Los problemas se dividen en tres macro-categorías:
-
El efecto Cocktail Party: el cerebro humano logra aislar una sola voz en una habitación abarrotada; es un proceso natural llamado "atención selectiva". Es el motivo por el cual cuando hablamos en la mesa de un restaurante con nuestros comensales logramos aislarnos, pero si queremos podemos concentrarnos totalmente en las conversaciones de nuestros vecinos. Para un micrófono, es un desafío algorítmico enorme. A pesar de las tecnologías actuales, la tasa de error aumenta exponencialmente en ambientes ruidosos.
-
La guerra de los volúmenes: en un ambiente ruidoso quien quiere imponerse sobre el ruido de los otros tiende a alzar la voz. Esto transforma una interacción que debería ser fluida en un enfrentamiento físico, que expone a alto estrés y a una progresiva reducción de la privacidad.
-
Fatiga vocal y cognitiva: hablar con un ordenador requiere esfuerzo. Las palabras deben ser articuladas, las frases creadas de manera que sean mayormente comprensibles, evitando los sobreentendidos para no arriesgarse a tener que repetir mil veces la misma frase. Esto crea una carga cognitiva y física que no existe con el pensamiento fluido o con la digitación.
La ausencia de privacidad de la entrada vocal
¿Cuántas veces se han encontrado en medio de un grupo de personas y han sentido vergüenza de reservar una visita proctológica? ¿Cuántas veces no querían hacer saber que estaban buscando casa, o que tenían problemas en familia?
Existe una barrera psicológica insuperable en el uso de la voz en público:
-
Violación de la privacidad: mandar un mensaje de voz con la contraseña de su cuenta compartida en medio de un vagón de tren no es la mejor opción. Preguntar a una IA cómo curar enfermedades venéreas podría crear rumores incontrolados sobre su cuenta entre los colegas. Mandar un mensaje a su propio contable sobre cuestiones fiscales delicadas podría hacer emerger información que no quieren que el mundo sepa. La interfaz vocal hace público lo que debería ser privado.
-
Molestia a la tranquilidad: en algunos lugares públicos rige la regla del "silencio". En una oficina "moderna", si todos hablaran con sus IA contemporáneamente para gestionar correos, calendarios y búsquedas, el nivel de ruido haría imposible trabajar. En muchos espacios abiertos existe la prohibición explícita de las conversaciones a alto volumen, haciendo la interfaz vocal socialmente inaceptable.
-
El síndrome del loco: hablar con un objeto, aunque esta práctica empiece a volverse socialmente aceptada, les hace parecer locos. ¿Nunca han pensado en esto viendo a alguien en el coche que gritaba y gesticulaba solo?
Alcance de los canales de entrada
Si pensamos en las modalidades con las cuales el hombre produce entrada hacia las máquinas, podemos clasificar las interfaces en tres métodos principales:
- Pensamiento: el flujo de datos más rápido y natural, que ocurre directamente en el cerebro, multimodal y paralelo.
- Voz: lenta, ambigua, influenciada por el ambiente, requiere esfuerzo físico y cognitivo.
- Escritura: muy lenta, requiere el uso de las manos, pero precisa y estructurada.
Hablar es como intentar descargar una película en 4K usando la conexión de un viejo módem. Si usamos la voz como entrada debemos tomar un concepto complejo, comprimirlo en palabras imperfectas y esperar que la máquina comprenda correctamente el mensaje y nos devuelva un resultado pertinente.
Es una compresión con pérdida en la que gran parte de los matices se pierden: usar de este modo la voz degrada inexorablemente la calidad.
¿Somos primitivos?
Probablemente estamos intentando montar un motor de curvatura en un carruaje de caballos. Estamos deslumbrados por la potencia del motor, pero olvidamos que el sistema de transmisión es obsoleto.
Estamos en un momento histórico particular. Estamos dando acceso ilimitado a los Grandes Modelos de Lenguaje (LLM) y como el capitán Kirk pensamos vivir en un futuro avanzado, pero la interfaz con la que alimentamos esta máquina es vieja de milenios. El aparato vocal humano ha evolucionado para la comunicación tribal de corto alcance. Este tipo de comunicación no está pensada para la interacción hombre-máquina a alta velocidad y alta densidad de datos.
Estamos por tanto inclinados a reducir la complejidad de la interacción, tendemos a simplificar y linealizar la información, ocultando las opciones y los matices que una interfaz visual o textual podría mostrar. Yendo en esta dirección estamos entrenando a las IA a ser oráculos sintéticos y superficiales en lugar de herramientas de análisis profundo, simplemente porque pedir cosas complejas de voz es extremadamente fatigoso.
Si queremos movernos más rápidamente debemos repensar la interfaz de entrada, a un mecanismo que nos permita comunicarnos con las máquinas a una velocidad mayor.
¿Y si usáramos el pensamiento?
La entrada más eficiente de la que disponemos es el pensamiento: rápido, preciso, silencioso y privado. ¿Por qué entonces no sustituir la herramienta de entrada vocal con una herramienta de entrada basada en el pensamiento?
Alguien se ha planteado esta pregunta y ha empezado a trabajar en dos grandes escuelas de pensamiento tecnológico:
- El enfoque no invasivo: utilizando los micro movimientos del rostro
- El enfoque directo e invasivo: sensores implantados en el cerebro
Existe un proyecto del MIT llamado AlterEgo (https://www.media.mit.edu/projects/alterego/overview/) que utiliza la subvocalización como entrada.
El concepto es bastante simple: leer la intención motora de la palabra. Cuando leemos en silencio o hablamos "en nuestra cabeza", nuestro cerebro envía señales neuromusculares muy débiles a los órganos fonadores y, aunque no emitamos ningún sonido, es posible interceptar estas señales. Este fenómeno fisiológico se llama subvocalización.
El dispositivo se parece a unos auriculares con micrófono que desde la oreja llegan a la barbilla, intercepta las señales eléctricas emitidas por el cerebro y las traduce en palabras.
Con un objeto de este tipo resolvemos de modo elegante una serie de problemas ligados a la voz, sin utilizar aparatos dañinos e invasivos. Ningún problema de privacidad, ningún problema de ruido, ningún problema de vergüenza social.
Si en cambio permitimos a una empresa hacernos un pequeño agujero en la cabeza, podemos experimentar la última frontera de la tecnología: las Interfaces Cerebro-Computadora (BCI). Si AlterEgo lee los músculos, las BCI leen directamente las neuronas.
Empresas como Neuralink, Synchron, Precision Neuroscience y otras están tratando de saltar completamente la mediación física del cuerpo.
El objetivo es saltarse completamente la boca y las manos y leer directamente las señales eléctricas del cerebro, decodificarlas y enviarlas al ordenador: mayor velocidad de pensamiento, ningún ruido, ningún problema de privacidad, efectos inmediatos entre hombre y máquina.
Este futuro está todavía lejano, pero los progresos hechos en los últimos años son impresionantes y nos hacen intuir todas las problemáticas ligadas a esta tecnología y a un eventual control social.
El objetivo hacia el cual todos están intentando ir es el de aumentar el ancho de banda desde la raíz. Si logramos interceptar la intención antes de que se propague en el cuerpo, lograremos comunicarnos con las máquinas a la velocidad del pensamiento.
¿Cuán lejos estamos de la fusión hombre-máquina?
Algunos estudios de la Universidad de Stanford (https://www.lescienze.it/news/2023/08/30/news/paralizzato_dispositivi_lettura_cervello_parlare-13239619/) han demostrado que la capacidad de decodificar el habla imaginada es similar a la velocidad de la conversación natural y supera la de la digitación media en smartphones.
A diferencia de AlterEgo, las BCI de alto rendimiento requieren intervenciones quirúrgicas invasivas. Mientras este "pequeño" problema no sea resuelto, las BCI permanecerán confinadas a casos médicos extremos: tetrapléjicos, pacientes con ELA o de todos modos situaciones no sanables con la medicina normal. Difícil, pero no imposible, que una persona sana decida hacerse implantar un chip en el cerebro para mejorar su propia productividad laboral.
Lamentablemente, o quizás sería mejor decir "afortunadamente", nuestro cráneo ha sido pensado para proteger el cerebro de daños externos, y cualquier intervención quirúrgica conlleva riesgos significativos de infección, rechazo y daños neurológicos.
Es cierto también que existen BCI no invasivas, aunque por el momento no tienen las mismas "prestaciones" respecto a una intervención invasiva.
¿Y cuándo nos convertiremos en máquinas?
Una vez comprendido que los actuales mecanismos de entrada son poco eficientes, y que la tecnología mediante masivas campañas de marketing podría hacernos parecer natural aceptar unas BCI invasivas o no, debemos empezar a preguntarnos cuáles son los pros y los contras de estas tecnologías.
Desde cierto punto de vista la cosa da miedo, también porque la lentitud siempre ha sido una protección contra eventuales desastres: ¿qué sucederá si no tenemos más esta barrera? Estamos realizando el guante de Thanos y lo estamos dando en mano a cualquiera.
Debemos interrogarnos sobre todos los pensamientos "involontarios" que podrían ser interceptados por estos dispositivos: ¿estamos seguros de querer abrir la puerta de nuestra mente? ¿Cuántas veces han pensado algo vergonzoso y no lo han dicho en voz alta? ¿Y si un dispositivo fuera capaz de interceptar estos pensamientos? Probablemente casi todos nosotros iríamos a prisión por algún delito de pensamiento.
Piensen en todos los momentos de odio en los cuales habrían matado a su jefe tirándolo por la ventana, o a un eventual autómata conectado a su pensamiento: ¿cuán distópico sería nuestro futuro?
Y hablemos de hacking: bastaría manipular un pensamiento para crear daños enormes.
Un gran poder conlleva una gran responsabilidad
¿El transhumanismo es nuestro futuro?
Para quien sostiene las BCI el mantra más escuchado es: "Si no puedes con ellos, únete a ellos".
En un mundo donde las máquinas, poco a poco, se volverán más inteligentes y rápidas que nosotros, es inútil tratar de competir: debemos fundir nuestra mente con la suya. La reina Borg estaría orgullosa de nosotros.
Aumentar la mole de datos de nosotros a las máquinas nos permite tener interacciones cada vez más rápidas y eficientes y esto "debería" mejorar nuestra vida.
Estamos en pleno refactoring evolutivo
¿Estamos listos para dejar el "ruido" para abrazar la "señal"?
El derecho a la lentitud, a la reflexión, a tomarse el tiempo para pensar, es algo que millones de años de evolución nos han donado para protegernos de los errores. Lo que vemos como un límite podría ser en realidad nuestra ancla de salvación.
Dentro de veinte años, cuando nuestros hijos nos pregunten por qué digitamos todavía en el teclado en lugar de pensar directamente al ordenador, ¿qué responderemos?
¿Somos unos cavernícolas que han aprendido a jugar con la arena o somos personas conscientes que han entendido que movernos a la velocidad del pensamiento puede crear más daños que oportunidades?
El futuro no es inevitable. El futuro es una sumatoria de elecciones que hacemos cada día. Podemos elegir qué tipo de interfaz utilizar para conectarnos con un aparato que hemos construido, pero cada vez que hacemos estas elecciones tomamos una decisión que nos define.
La interfaz vocal es tecnológicamente limitada, pero representa un compromiso fundamental: mantener una distancia entre nosotros y lo que hemos creado.
Las nuevas interfaces nos prometen eliminar este filtro, lo pintan como un límite, pero quizás es precisamente el límite lo que nos protege y evita la pérdida de contacto humano.
El clean code nos ha enseñado que el mejor refactoring es el que nos ayuda a entender mejor lo que hacemos, no el que nos hace acelerar a costa de la comprensibilidad. Es lo que nos ayuda a no cometer errores, no lo que nos hace hacer más cosas en menos tiempo.
La lentitud, la imperfección y los errores son un símbolo de humanidad, un aspecto que debemos preservar y no deberíamos nunca querer optimizar.