La inteligencia artificial ya forma parte de muchas tareas cotidianas, y una de las más útiles es la transcripción de audios almacenados en nuestros dispositivos. Servicios como ChatGPT pueden convertir horas de voz en texto en cuestión de minutos. Sin embargo, este proceso no es gratuito: transcribir audios con IA tiene un coste asociado, que se factura en función de los llamados tokens. A más duración del audio, más tokens se consumen y más tiempo se requiere para obtener la transcripción.
Pero… ¿y si pudiéramos hacer los minutos “más cortos”? Esta fue la pregunta que se hizo el desarrollador George Mandis, quien ha compartido en su blog un truco sorprendentemente sencillo y eficaz para reducir tanto el coste como el tiempo de las transcripciones con inteligencia artificial, como la de OpenAI. Y lo más interesante es que lo descubrió por casualidad.
Un truco fundamental para transcribir audios con eficiencia
Mandis quería transcribir y resumir una charla del investigador de IA Andrej Karpathy. Normalmente utilizaba las transcripciones automáticas de YouTube, pero esta vez no estaban disponibles. Además, al intentar usar GPT-4o, se topó con una limitación: solo podía subir audios de 25 minutos como máximo. Una solución clásica habría sido dividir el archivo en partes más pequeñas. Pero antes de hacerlo, decidió probar algo diferente.
Usó FFmpeg, una herramienta de código abierto que permite procesar archivos de audio y vídeo mediante comandos, para acelerar el audio. Probó a duplicar e incluso triplicar la velocidad. El resultado fue mejor de lo esperado: la pérdida de calidad fue mínima, y la IA fue capaz de transcribir el contenido acelerado sin problemas. Así logró eludir la limitación de tiempo y, además, gastó menos tokens.
Eso sí, Mandis advierte que a partir de una velocidad 4x la calidad se resiente demasiado, y la IA comienza a tener dificultades para comprender el contenido.
¿Por qué funciona este truco?
Los modelos de transcripción como Whisper —también utilizado por Mandis— están entrenados para reconocer patrones de voz, de forma similar a cómo lo hace el cerebro humano. Incluso si la voz no es perfectamente clara, estos modelos son capaces de “rellenar los huecos” y deducir lo que se dijo.
Cuando aceleramos el audio, reducimos su duración en minutos, y por tanto la cantidad de datos que la IA necesita procesar. Esto no solo acorta el tiempo necesario para la transcripción, sino que reduce el coste.
Mandis compartió las cifras de su experimento:
- Audio a velocidad 1x (original): 0,24 dólares en tokens de entrada.
- Audio a velocidad 2x: 0,07 dólares en tokens de entrada.
- Audio a velocidad 3x: 0,04 dólares en tokens de entrada (un 33% de ahorro).
Un ahorro notable, especialmente para profesionales como periodistas, investigadores o estudiantes que trabajan habitualmente con grabaciones de voz.
Cómo puedes hacerlo tú mismo
Para replicar este truco, lo primero de todo es estar cómodo trabajando con líneas de comandos, que es lo que explica este desarrollador en su entrada. Para ello, se necesitan tres herramientas:
- yt-dlp para descargar el audio de una plataforma como YouTube.
- ffmpeg que actúa como una auténtica navaja suiza para procesar audio y vídeo que se encarga, entre otras cosas, de acelerar el audio.
Una vez llegados hasta aquí, el comando que se debe introducir en ffmpeg para poder aumentar la velocidad es el siguiente:
ffmpeg -i audio.mp3 -filter:a “atempo=3.0” audio_3x.mp3
Después solo quedará enviar el audio a ChatGPT para iniciar la transcripción. Aunque lógicamente se pueden usar otras herramientas que puedan ser más accesibles para poder acelerar el audio, aunque siempre que estemos seguros que no se sacrifica mucho la calidad.
Imágenes | Kelly Sikkema Salah Darwish Solen Feyissa
En Genbeta | Así puedes descargar y convertir vídeos de YouTube a MP3 con VLC
(function() { window._JS_MODULES = window._JS_MODULES || {}; var headElement = document.getElementsByTagName(‘head’)[0]; if (_JS_MODULES.instagram) { var instagramScript = document.createElement(‘script’); instagramScript.src = ‘https://platform.instagram.com/en_US/embeds.js’; instagramScript.async = true; instagramScript.defer = true; headElement.appendChild(instagramScript); } })();
–
La noticia OpenAI cobra por cada minuto que transcribe su IA, así que alguien inventó el ‘hack’ definitivo para ahorrar al usarla fue publicada originalmente en Genbeta por José Alberto Lizana .
Más historias
El primer Android compatible con el Apple Watch es oficial, pero su compatibilidad con el ecosistema de Apple va más allá
El ataque de EEUU sobre Irán fue un mensaje contundente al desarrollo de armas nucleares. Menos para Corea del Norte
“No intentéis invadir nuestros propios sistemas”. Renault y otros cuatro fabricantes rompen con Apple y no traerán CarPlay Ultra