Siempre me han gustado los asistentes de voz, me parecen bastante utiles, pero me gustaría que supieran todo sobre mi para poderse ajustar mejor a mis necesidades. Por lo cual la mejor (o peor) decisión es hacer mi propio asistente virtual ya que no quiero ceder todos mis datos a una empresa.
Este articulo es un complemento a mi video de YouTube y esta compuesto por todos los comandos de configuración e instalación que utilice en el video. En este articulo solo veremos cómo configurar y correr Whisper de Open AI, para poder convertir todo lo que digo a texto y así el asistente virtual pueda entenderme.
Correr contenedor de docker (Opcional)
Opté por correr todo en contenedores de docker para evitar problemas de versionamiento ya que conforme avance este proyecto estaré teniendo un monton de paqueterías y modelos corriendo de manera simultanea en la misma Jetson AGX Orin
sudo docker run -it --rm --runtime NVIDIA -v $(pwd):/VA --network host \
nvcr.io/nvidia/l4t-pytorch:r35.1.0-pth1.13-py3
Instalar Whisper y las dependencias
La instalación y configuración de Whisper es bastante sencilla, con estos comandos instalarás Whisper en la máquina al igual que todas las dependenciar requeridas.
sudo apt update && sudo apt install ffmpeg
pip install git+https://github.com/openai/whisper.git
Correr prueba de Whisper
Lo único que tienes que hacer aquí es cambiar el archivo de audio para procesar el que quieras.
whisper test1.wav --languaje Spanish --model base
Adaptar Whisper para procesar audio en "tiempo real"
Whisper solo puede procesar audios que ya estan grabados, por lo cual procesarlo en tiempo real no es viable, así que decidí hacer un código el cual grabe de 10 en 10 segundos, salve el audio y lo procese con Whisper, para esto solo tienes que clonar el repo de Github y correr estos comandos de instalación de las paqueterías requeridas.
Para esto debes tener conectado un microfono o webcam en la maquina que estará procesando el audio.
pip install sounddevice
sudo apt install libportaudio2
pip install scipy
# Correr código
python3 main.py