marzo 1, 2024

OpenAI está revolucionando la transcripción de audio a texto con Whisper mientras todos seguimos centrados en ChatGPT y DALL-E

Los protagonistas del reciente evento DevDay de OpenAI fueron el lanzamiento de GPT-4 Turbo y de los GPTs personalizados (y su correspondiente ‘store’). Estas fueron las novedades que acapararon el interés mediático y la atención del usuario… pero había un ‘tapado’, una nueva IA a la que sólo ahora, días después, estamos valorando en su justa medida.

Os hablamos de la IA de trascripción de audio a texto Whisper V3, una IA open source (al contrario que ChatGPT o DALL·E), por lo que ya está disponible para su uso online gratuito a través de plataformas como Hugging Face o Replicate. Y es de esperar que, en breve, cuente con varios clientes de escritorio (como Buzz, que funciona con Whisper V2).

ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

Un antes y un después

Hasta hace cosa de un año, la transcripción de audio a texto siempre resultó un desafío para la mayoría de los usuarios, pues las herramientas gratuitas a las que podían disponer acostumbraban a cometer numerosos errores. Whisper V2 fue la primera herramienta gratuita que convenció a muchos usuarios…

…pero con Whisper V3 ya tenemos la sensación de que es el equivalente en su campo a ChatGPT —excepto por la parte de ser 100% gratuito—, una IA que los desarrolladores de software van a empezar a breve a implementar en sus propias aplicaciones.

Además, su versatilidad lo hace ideal tanto para tareas simples de transcripción como para aplicaciones más complejas en el campo de la asistencia por voz.

Whisper1 Whisper1

¿Qué nos ofrece Whisper V3?

Whisper V3 ha sido entrenado con más de un millón de horas de audio etiquetado y más de 4 millones de horas de audio pseudoetiquetado. Si lo comparamos con su versión anterior, Whisper V3 ha logrado reducir los errores entre un 10 y un 20%. En el caso del idioma español, su tasa de error se encuentra por debajo del 5%, lo que lo convierte en uno de los idiomas mejor comprendidos por este modelo.

Una de las características más destacadas de Whisper V3 es su capacidad multitarea: puede utilizarse para reconocer y traducir múltiples idiomas. Además, este modelo es capaz de identificar automáticamente cuando se cambia de un idioma a otro en una misma conversación, lo que lo convierte en una herramienta enormemente versátil.

Además, OpenAI ha puesto a disposición de los usuarios modelos de Whisper V3 de distintos tamaños (y, por ello, de distintos niveles de rendimiento), desde una versión minúscula con menos de 1 GB de VRAM hasta el modelo large, entrenado con 1.550 millones de parámetros y con requisitos de unos 10 GB de VRAM. Esto permite que Whisper V3 se adapte a diferentes aplicaciones y necesidades, brindando flexibilidad a los usuarios.

Imagen | Marcos Merino mediante IA

En Genbeta | He probado LuzIA, una inteligencia artificial que transcribe audios y da respuestas dentro de WhatsApp. Y todo rapidísimo