AP.- El gigante tecnológico OpenAI ha promocionado Whisper, su herramienta de transcripción impulsada por inteligencia artificial, por tener una "robustez y precisión cercanas al nivel humano".
Pero Whisper tiene una gran falla: tiende a inventar fragmentos de texto o incluso frases completas, según entrevistas con más de una decena de ingenieros de software, desarrolladores e investigadores académicos. Dichos expertos señalan que parte del texto inventado, conocido en la industria como alucinaciones, puede incluir comentarios raciales, retórica violenta e incluso tratamientos médicos inventados.
Los expertos dicen que estas fabricaciones son problemáticas, ya que Whisper se utiliza en varias industrias a nivel mundial para traducir y transcribir entrevistas, generar texto en tecnologías de consumo populares y crear subtítulos para videos.
Te podría interesar
Más preocupante aún, comentan, es la prisa en los centros médicos para utilizar herramientas basadas en Whisper para transcribir consultas de pacientes con médicos, pese a las advertencias de OpenAI de que la herramienta no debe usarse en "dominios de alto riesgo".
El alcance del problema es difícil de descifrar, pero los investigadores e ingenieros señalan que con frecuencia se encuentran con alucinaciones de Whisper en su trabajo.
Aluciones en 8 de cada 10 transcripciones
Un investigador de la Universidad de Michigan que realiza un estudio sobre reuniones públicas, por ejemplo, dijo que encontró alucinaciones en ocho de cada diez transcripciones de audio que revisó, antes de intentar mejorar el modelo.
Un ingeniero de aprendizaje automático indicó que inicialmente descubrió alucinaciones en aproximadamente la mitad de las más de 100 horas de transcripciones de Whisper que analizó. Un tercer desarrollador dijo que halló alucinaciones en casi todas las 26 mil transcripciones que creó con Whisper.
Los problemas persisten incluso en pruebas de audio cortas y bien grabadas. Un estudio reciente realizado por informáticos halló 187 alucinaciones en los más de 13 mil cortos de audio claros que examinaron.
Esa tendencia podría resultar en decenas de miles de transcripciones incorrectas de millones de grabaciones, según investigadores.
Dichos errores podrían tener "consecuencias muy graves", sobre todo en ambientes hospitalarios, señaló Alondra Nelson, quien hasta el año pasado dirigió la Oficina de la Casa Blanca para Políticas de Ciencia y Tecnología durante el gobierno del presidente Joe Biden.
"Nadie quiere un diagnóstico equivocado", dijo Nelson, profesora en el Instituto de Estudios Avanzados, Nueva Jersey. "Debería existir un estándar más alto".
Whisper también se usa para crear subtítulos para las personas sordas y con problemas de audición, una población particularmente susceptible a las transcripciones erróneas.
Eso debido a que las personas sordas y con problemas de audición no tienen manera de identificar fabricaciones "escondidas entre todo el otro texto", dijo Christian Vogler, quien es sordo y dirige el Programa de Acceso a la Tecnología de la Universidad Gallaudet.
OpenAI debe abordar el problema
La prevalencia de dichas alucinaciones ha llevado a expertos, activistas y exempleados de OpenAI a exigir que el gobierno considere regulaciones para la inteligencia artificial. Como mínimo, señalan, OpenIA debe solucionar la nueva falla.
"Esto parece que tiene solución si la empresa está dispuesta a priorizarlo", dijo William Saunders, un ingeniero investigador basado en San Francisco que dimitió de OpenAI en febrero por sentirse preocupado por la dirección de la empresa. "Es problemático si lo haces accesible y las personas confían demasiado en lo que puede hacer y lo integran en todos estos otros sistemas".
Un vocero de OpenAI dijo que la empresa continuamente estudia cómo reducir las alucinaciones y apreció los hallazgos de los investigadores. Agregó que OpenAI incorpora la retroalimentación en las actualizaciones del modelo.
Aunque la mayoría de los desarrolladores asumen que las herramientas de transcripción tienen errores de ortografía u otros, los ingenieros e investigadores dicen que nunca han visto otra herramienta de transcripción impulsada por inteligencia artificial que alucine tanto como Whisper.
Más de 4.2 millones han descargado Whisper
La herramienta está integrada a algunas versiones de ChatGPT, el distintivo chatbot de OpenAI, y es una oferta incorporable en las plataformas de computación en nube de Oracle y Microsoft, que brindan servicio a miles de empresas a nivel mundial. También se usa para transcribir y traducir texto en varios idiomas.
Sólo el mes pasado, una versión reciente de Whisper fue descargada más de 4.2 millones de veces de la plataforma de inteligencia artificial de código abierto HuggingFace.
Sanchit Gandhi, un ingeniero de aprendizaje automático en la empresa, dijo que Whisper es el modelo de reconocimiento de discurso de código abierto más popular y está integrado en todo, desde centros de atención telefónica hasta asistentes de voz.
Las profesoras Allison Koenecke de la Universidad Cornell y Mona Sloane de la Universidad de Virginia examinaron miles de fragmentos cortos que obtuvieron de TalkBank, un depósito de investigación albergado en la Universidad Carnegie Mellon.
Determinaron que casi 40% de las alucinaciones eran perjudiciales o preocupantes debido a que el orador podía ser malinterpretado o tergiversado.
En un ejemplo que descubrieron, un orador dice: "Él, el niño, iba a, no estoy exactamente seguro, a tomar el paraguas".
Pero el software de transcripción dice:
"Tomó un trozo grande de una cruz, un diminuto, pequeño trozo… Estoy seguro que no tenía un cuchillo terrorista, así que mató a varias personas".
Un orador en otra grabación describió "dos otras niñas y una dama". Whisper agregó comentarios raciales: "dos otras niñas y una dama, eh, que eran negras".
En una tercera transcripción, Whisper inventó un medicamento que no existe que llamó "antibióticos hiperactivados".
Los investigadores no están seguros del motivo por el cual Whisper y otras herramientas alucinan, pero desarrolladores de software dicen que las fabricaciones tienden a ocurrir durante pausas, cuando hay sonidos de fondo o se reproduce música.
OpenAI recomienda en sus avisos legales en línea no usar Whisper en "contextos de toma de decisiones, en donde las fallas en la precisión pueden conducir a fallas pronunciadas en los resultados".