Si necesitas convertir una grabación de voz, una entrevista o un vídeo a texto en este articulo te enseño a como hacerlo con una solución rápida, eficiente y totalmente gratuita.
Para ello usaremos Whisper, una herramienta de inteligencia artificial de OpenAi que transcribe audio a texto automáticamente.
El proceso es muy sencillo y no requiere conocimientos técnicos . Solo necesitas hacer unos clicks
Este paso es el de obtener el video que quieres transformar, me imagino que tu ya tienes el tuyo, pero si lo que quieres es coger uno de ejemplo para hacer la prueba, te dejo un link con una web para descargar videos de youtube.
Primero, dirígete este enlace de Google Colab donde está alojado el script/programa de transcripción automática.
AVISO: También es importante mencionar que este entorno de trabajo caduca cada 6h, por lo que si lo queremos hacer días después, deberemos repetir el proceso completo
El código ya está preparado, pero necesitarás ejecutar unos comandos para instalar las dependencias básicas. No te preocupes, son 2 clicks.
Pulsamos el icono de “play” para ejecutar el programa.
Cuando veamos que ha finalizado el paso uno, podremos ejecutar el paso 2.
Subiremos nuestro fichero a la parte de Archivos. Para subir el fichero, simplemente lo arrastraremos y soltaremos a lado de de sample_data (no dentro).
Podemos subir .mp3, .mp4, .webm…
Como consejo te recomiendo cambiar el nombre del fichero a “audio.mp4” o algo por el estilo:
Este es el paso en el que configuraremos la salida que queremos que nos de el programa (formato .txt, .srt …).
Por un lado deberemos poner el nombre del fichero (no borres las comillas ” “ en el caso de que lo cambies) ya que esta el la forma de indicarle al programa que fichero debe coger.
!whisper "nombre_de_tu_video.mp4" ...
//En nuestro caso será
!whisper "audio.mp4" ...
Luego despues de —output_format pondremos el formato deseado, para mi lo ideal es dejar el txt, pero si necesitas otro puedes cambiarlo.
--output_format txt // Cambia el txt por el formato que necesites
y por ultimo tenemos que indicar el idioma en el que está nuestro video, para facilitar al modelo la comprensión de este:
Una vez hayamos configurado el programa a nuestro gusto, ejecutaremos el código como hicimos en el paso 1 y 2 (pulsando el botón de play).
Al poco rato, después de ver una barra de carga, comenzaremos a ver la transcripción del video:
I am particularly drawn to developing applications that are not only functional but also visually appealing and easy to use. I accomplish this by implementing SOLID principles and clean architecture, and applying testing to ensure quality.