June 6, 2025

Cómo Transcribir Audio a Texto Gratis con Inteligencia Artificial

Si necesitas convertir una grabación de voz, una entrevista o un vídeo a texto en este articulo te enseño a como hacerlo con una solución rápida, eficiente y totalmente gratuita.

Para ello usaremos Whisper, una herramienta de inteligencia artificial de OpenAi que transcribe audio a texto automáticamente.

Para que puedes usarla?

Subtítulos para YouTube: Si creas contenido en vídeo, esta herramienta te ayudará a generar subtítulos automáticamente, y al tener un formato de texto, lo puedes pasar por el traductor para tener subtítulos en varios idiomas

Entrenamiento de IA: Si trabajas con modelos de lenguaje, podrás usar las transcripciones como fuente de datos para alimentar al modelo con datos personalizados.

Búsqueda rápida: ¿Necesitas encontrar un fragmento específico en un podcast o entrevista? Con el texto, podrás buscar palabras clave al instante.

Solo necesitas seguir 4 pasos

El proceso es muy sencillo y no requiere conocimientos técnicos . Solo necesitas hacer unos clicks

0. Obtención del Video / Datos

Este paso es el de obtener el video que quieres transformar, me imagino que tu ya tienes el tuyo, pero si lo que quieres es coger uno de ejemplo para hacer la prueba, te dejo un link con una web para descargar videos de youtube.

1. Accede a la Herramienta

Primero, dirígete este enlace de Google Colab donde está alojado el script/programa de transcripción automática.

⚠️

AVISO: También es importante mencionar que este entorno de trabajo caduca cada 6h, por lo que si lo queremos hacer días después, deberemos repetir el proceso completo

2. Instala el Programa

El código ya está preparado, pero necesitarás ejecutar unos comandos para instalar las dependencias básicas. No te preocupes, son 2 clicks.

Ejecutamos el paso 1:

Pulsamos el icono de “play” para ejecutar el programa.

Ejecutamos el paso 2:

Cuando veamos que ha finalizado el paso uno, podremos ejecutar el paso 2.

3. Carga tu Archivo de Audio

Subiremos nuestro fichero a la parte de Archivos. Para subir el fichero, simplemente lo arrastraremos y soltaremos a lado de de sample_data (no dentro).

Podemos subir .mp3, .mp4, .webm…

Como consejo te recomiendo cambiar el nombre del fichero a “audio.mp4” o algo por el estilo:

Sección para subir ficheros de google colab

4. Configura la Salida

Este es el paso en el que configuraremos la salida que queremos que nos de el programa (formato .txt, .srt …).

Indicar el nombre de nuestro video

Por un lado deberemos poner el nombre del fichero (no borres las comillas ” “ en el caso de que lo cambies) ya que esta el la forma de indicarle al programa que fichero debe coger.

!whisper "nombre_de_tu_video.mp4" ...

//En nuestro caso será 
!whisper "audio.mp4" ...

Formato de Salida

Luego despues de —output_format pondremos el formato deseado, para mi lo ideal es dejar el txt, pero si necesitas otro puedes cambiarlo.

--output_format txt // Cambia el txt por el formato que necesites

Idioma

y por ultimo tenemos que indicar el idioma en el que está nuestro video, para facilitar al modelo la comprensión de este:

Lanzar el programa

Una vez hayamos configurado el programa a nuestro gusto, ejecutaremos el código como hicimos en el paso 1 y 2 (pulsando el botón de play).

Al poco rato, después de ver una barra de carga, comenzaremos a ver la transcripción del video:

Written by Pol Valle

I am particularly drawn to developing applications that are not only functional but also visually appealing and easy to use. I accomplish this by implementing SOLID principles and clean architecture, and applying testing to ensure quality.