Skip to content

Instantly share code, notes, and snippets.

Show Gist options
  • Save turicas/da12b3c8e67a27e088d12d9c41be65d9 to your computer and use it in GitHub Desktop.
Save turicas/da12b3c8e67a27e088d12d9c41be65d9 to your computer and use it in GitHub Desktop.
Transcrição de textos em Português com whisper (OpenAI)
{
"cells": [
{
"cell_type": "markdown",
"source": [
"# Transcrição de textos em Português com whisper (OpenAI)\n",
"\n",
"Tutorial desenvolvido por [Álvaro Justen](https://twitter.com/turicas).\n",
"\n",
"Esse tutorial foi desenvolvido para ser executado no ambiente do [Google Colab](https://colab.research.google.com/). Acesse a [versão original do notebook](https://colab.research.google.com/drive/1hDJJNBsl4I3awJuAV2oTKyU0zUUttS_9#scrollTo=Rh3UMmOE3oFk) para facilitar o uso.\n",
"\n",
"Para transcrever um áudio e baixar os arquivos (tanto da transcrição quanto da legenda, que possui os tempos), execute os seguintes passos:\n",
"1. Copie esse notebook para seu Drive (menu \"File\" > \"Save a copy in Drive\");\n",
"1. Com a sua cópia desse notebook aberta, feche essa versão e suba o arquivo de áudio que deseja transcrever. Você pode fazer isso de 2 formas diferentes:\n",
" - Clique no ícone de pasta ![Gerenciador de arquivos]() no canto esquerdo, depois no ícone de seta para cima ![Upload de arquivos]() e escolha o arquivo; ou\n",
" - Clique no ícone de pasta no canto esquerdo ![Gerenciador de arquivos]() e arraste o arquivo para a área abaixo do ícone da pasta (onde a pasta `sample_data` está);\n",
"1. Coloque o nome do arquivo que deseja transcrever na célula de código ao fim do notebook: troque `nome do arquivo.mp3` pelo nome do arquivo que você fez upload no passo anterior. Maiúsculas são diferentes de minúsculas; mantenha as aspas;\n",
"1. Escolha um dos modelos disponíveis (mais detalhes abaixo) e edite a célula de código, trocando `medium` pelo modelo desejado. Mantenha as aspas. Maiúsculas são diferentes de minúsculas; mantenha as aspas. O modelo `small` costuma ter boa acurácia com baixo tempo de processamento;\n",
"1. Clique no botão *play* ![2023-03-28_09-35.png]() que fica no canto superior esquerdo da célula de código;\n",
"1. Aguarde o código terminar de executar - o botão *play* vira *stop* durante a execução e volta a ser *play* quando ela termina, precedido pelo tempo que o código demorou para executar. ![2023-03-28_09-37.png]()\n",
"1. Abra o gerenciador de arquivos ![Gerenciador de arquivos]() e procure por uma pasta que começa com \"output\". Lá estarão os arquivos da transcrição em vários formatos (`.txt` é apenas o texto, `.vtt` e `.srt` é legenda, com os tempos). Baixe os que desejar clicando nos três pontos ![2023-03-28_09-36.png]() e depois na opção \"Download\".\n",
"1. Depois de um tempo o notebook \"desconecta\" e todos os arquivos (tanto os que você enviou quanto os que foram gerados) se perdem. Baixe as transcrições tão logo o processo finalize para não perdê-las.\n",
"\n",
"\n",
"## Modelos disponíveis\n",
"\n",
"Você pode escolher qual o tamanho de modelo deseja usar. Os tamanhos impactam na qualidade do resultado e no tempo de processamento (quanto melhor a qualidade, mais tempo de processamento). A escolha entre eles também está à qualidade do áudio: se poluído com ruídos, provavelmente será necessário um modelo com maior qualidade para conseguir transcrever corretamente.\n",
"\n",
"A lista de possíveis modelos é, do mais rápido para o fim o maior qualidade:\n",
"\n",
"- tiny\n",
"- base\n",
"- small\n",
"- medium\n",
"- large\n",
"\n",
"\n",
"## Acelerando a execução do código\n",
"\n",
"A execução desse modelo é bem mais rápida em uma GPU. Você pode tentar usar uma GPU gratuitamente aqui no Colab clicando no menu \"Runtime\" > \"Change runtime type\". Depois disso, selecione \"GPU\" em \"Hardware Accelerator\":\n",
"\n",
"![2023-03-28_09-42.png]()\n",
"\n",
"> Nota: caso você esteja utilizando a versão gratuita do Colab a opção \"GPU class\" não estará habilitada e a disponibilidade de GPUs não é garantida."
],
"metadata": {
"id": "Rh3UMmOE3oFk"
}
},
{
"cell_type": "code",
"source": [
"!pip install openai-whisper\n",
"import subprocess\n",
"\n",
"filename = \"nome do arquivo.mp3\"\n",
"model_name = \"medium\"\n",
"subprocess.run(\n",
" [\n",
" \"whisper\", \n",
" \"--language\", \"pt\", \n",
" \"--word_timestamps\", \"True\",\n",
" \"--model\", model_name, \n",
" \"--output_dir\", f\"output-{model_name}\", \n",
" filename\n",
" ]\n",
")"
],
"metadata": {
"id": "fEOS5MIhxWSI"
},
"execution_count": null,
"outputs": []
}
],
"metadata": {
"accelerator": "GPU",
"colab": {
"provenance": []
},
"gpuClass": "premium",
"kernelspec": {
"display_name": "Python 3",
"name": "python3"
},
"language_info": {
"name": "python"
}
},
"nbformat": 4,
"nbformat_minor": 0
}
@lucastexr
Copy link

Tá porra, tu é o cara mesmo! Porra que mão na roda kkkkkk

@ezaul
Copy link

ezaul commented Jul 12, 2023

Sabe nos dizer quando sairá linguagem pt-br? pois estou usando em meu home assistant e o whisper com pt converte muito errado

@turicas
Copy link
Author

turicas commented Jul 12, 2023

Sabe nos dizer quando sairá linguagem pt-br? pois estou usando em meu home assistant e o whisper com pt converte muito errado

O whisper já suporta Português do Brasil. Você pode alterar o tamanho do modelo para ter resultados melhores (o large, que demora mais, dá resultados mais precisos).

@RenataARamos
Copy link

Oi Turicas. Meu nome e Renata. Esta e a minha primeira vez usando este espaco. Encontrei o seu post no Google enquanto explorando maneiras de transcrever audios gravados via Zoom em portugues (Brasil). Eu uso Rev Max AI para transcricoes em ingles e a fidelidade e bem alta. Mas as que enviei em portugues, a fidelidade e muito baixa. Portanto aqui vai a minha perguta: este whisper, se eu conseguir usa-lo, resolvera o meu problema de fidelidade de transcricao?
Todos os audios foram gravados pelo Zoom em portugues falado no Brasil.
Muito Obrigada.

@lucastexr
Copy link

@RenataARamos eu usei o Whisper (assim como o Turicas colocou no console) e a fidelidade foi bem alta para PT-BR –o que fora impressionante visto que já havia testado em outras plataformas e nenhuma reconhecia o áudio da gravação;

Além do mais a execução é bem rápida (Minha gravação de 30 minutos demorou 4 minutos para ser transcrita) vale a pena tentar :)

@RenataARamos
Copy link

@RenataARamos eu usei o Whisper (assim como o Turicas colocou no console) e a fidelidade foi bem alta para PT-BR –o que fora impressionante visto que já havia testado em outras plataformas e nenhuma reconhecia o áudio da gravação;

Além do mais a execução é bem rápida (Minha gravação de 30 minutos demorou 4 minutos para ser transcrita) vale a pena tentar :)

@lucastexr Obrigada. Estou tentando. Mas meu limitado conhecimento em Google Colab ou qq lgg computacional esta atrapalhando o processo. De qq forma uma gravacao de 2 hrs esta a mais de uma hora rodando. Vamos ver....

@mrfurquim
Copy link

Isso aqui é a elite.

@johnidm
Copy link

johnidm commented Aug 2, 2023

Pessoal, apenas para contribuir com a thread tem uma versão que roda com mais performance - https://github.com/guillaumekln/faster-whisper

@edjunhoscj
Copy link

Que coisa fantástica!! Meu parabéns e reconhecimento!!!

@jmsmoreira
Copy link

Olá, Turicas. Pesquisando como transcrever áudio em texto, caí aqui em seu tutorial. Consegui usar a transcrição no Drive+Colab. Será que pode me ajudar? Tem fazer transcrição por parágrafos com o Whiper? Ele dá as frases com quebra de linha, seria possível ele gerar a transcrição por parágrafos? Obrigado pela ajuda. Abraço

@ivanpfigueiredo
Copy link

obrigado.

@johnidm
Copy link

johnidm commented Oct 23, 2023

@jmsmoreira acredito que você não vai conseguir fazer isso com o Whiper.

O Whiper devolve a transcrição com pontuação. Voce pode fazer a quebra por paragrafos com bibliotecas como o NLTK e spaCy. Isso normalmente é conhecido como sentence tokenizer.

@jmsmoreira
Copy link

@johnidm Muito obrigado pela resposta. Abraço.

@airtonac
Copy link

airtonac commented Dec 5, 2023

Olá @turicas ,
Tentei rodar o modelo small e medium, mas em ambos ocorreu algum tipo de erro, acredito que por falta de dependências. Vou colar o output do console aqui.

Esta parte apareceu em vermelho:
ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. llmx 0.0.15a0 requires cohere, which is not installed. llmx 0.0.15a0 requires openai, which is not installed.

No fim a ferramenta criou as pastas output-xxx, mas não criou nenhum arquivo.

Abraço,
Airton

Collecting openai-whisper Downloading openai-whisper-20231117.tar.gz (798 kB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 798.6/798.6 kB 6.0 MB/s eta 0:00:00 Installing build dependencies ... done Getting requirements to build wheel ... done Preparing metadata (pyproject.toml) ... done Requirement already satisfied: triton<3,>=2.0.0 in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (2.1.0) Requirement already satisfied: numba in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (0.58.1) Requirement already satisfied: numpy in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (1.23.5) Requirement already satisfied: torch in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (2.1.0+cu118) Requirement already satisfied: tqdm in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (4.66.1) Requirement already satisfied: more-itertools in /usr/local/lib/python3.10/dist-packages (from openai-whisper) (10.1.0) Collecting tiktoken (from openai-whisper) Downloading tiktoken-0.5.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 2.0/2.0 MB 29.4 MB/s eta 0:00:00 Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from triton<3,>=2.0.0->openai-whisper) (3.13.1) Requirement already satisfied: llvmlite<0.42,>=0.41.0dev0 in /usr/local/lib/python3.10/dist-packages (from numba->openai-whisper) (0.41.1) Requirement already satisfied: regex>=2022.1.18 in /usr/local/lib/python3.10/dist-packages (from tiktoken->openai-whisper) (2023.6.3) Requirement already satisfied: requests>=2.26.0 in /usr/local/lib/python3.10/dist-packages (from tiktoken->openai-whisper) (2.31.0) Requirement already satisfied: typing-extensions in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (4.5.0) Requirement already satisfied: sympy in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (1.12) Requirement already satisfied: networkx in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (3.2.1) Requirement already satisfied: jinja2 in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (3.1.2) Requirement already satisfied: fsspec in /usr/local/lib/python3.10/dist-packages (from torch->openai-whisper) (2023.6.0) Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (3.3.2) Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (3.6) Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (2.0.7) Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests>=2.26.0->tiktoken->openai-whisper) (2023.11.17) Requirement already satisfied: MarkupSafe>=2.0 in /usr/local/lib/python3.10/dist-packages (from jinja2->torch->openai-whisper) (2.1.3) Requirement already satisfied: mpmath>=0.19 in /usr/local/lib/python3.10/dist-packages (from sympy->torch->openai-whisper) (1.3.0) Building wheels for collected packages: openai-whisper Building wheel for openai-whisper (pyproject.toml) ... done Created wheel for openai-whisper: filename=openai_whisper-20231117-py3-none-any.whl size=801356 sha256=30351f055493abac3a821be4d9363be78eb538908b230d82546562190b0e44cf Stored in directory: /root/.cache/pip/wheels/d0/85/e1/9361b4cbea7dd4b7f6702fa4c3afc94877952eeb2b62f45f56 Successfully built openai-whisper Installing collected packages: tiktoken, openai-whisper **ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts. llmx 0.0.15a0 requires cohere, which is not installed. llmx 0.0.15a0 requires openai, which is not installed.** Successfully installed openai-whisper-20231117 tiktoken-0.5.2

@turicas
Copy link
Author

turicas commented Dec 6, 2023

@airtonac não sei o que pode ser, mas tente rodar o pip install com a opção -U para atualizar os pacotes do seu ambiente e/ou então usar uma versão mais antiga do pacote openai-whisper (as últimas versões deram alguns conflitos). De toda forma, a mensagem final foi de sucesso, então talvez funcione mesmo assim.

@ivanpfigueiredo
Copy link

ivanpfigueiredo commented Dec 6, 2023 via email

@celestino-lourenco
Copy link

boa tarde, baixei o whisper é a transcrição no padrão medim é muito boa. Porém a transcirção é muito lenta. Leva 15 minutos para transcrever 1 minuto de audio de mp3! Como o audio tem 120 minutos vai levar dias para fazer a transcrição! Isso se a internet não cair! Essa performance é normal ou anormal. Estou usando o formato CPU, porque se usar o GPU T4 o arquivo não carrega e dá pau! tem como acelerar o processo para que o uso seja viável para mim ? grato pela ajuda

@jmsmoreira
Copy link

@celestino-lourenco Costumo transcrever mp3 de 20 minutos no padrão Medium e não leva 4 minutos... Não sei porque, mas como dito acima, não estava gerando o arquivo para download no fim da transcrição. Aí passei a usar o seguinte código e deu certo, transcreve rápido e gera o arquivo em txt e outros formatos para download. Segue como uso

!pip install git+https://github.com/openai/whisper.git
!sudo apt update && sudo apt install ffmpeg

!pip install openai-whisper
import subprocess

!whisper "Nomedoarquivo.mp3" --model medium --language pt

Assim gera o arquivo para dowload. Deixo também o ambiente de execução em GPU

@celestino-lourenco
Copy link

Olá Moreira grato pelo retorno, carreguei os 3 scripts indicados por ti. Mas deu dois conflitos : 1) quando carreguei o scrip - !whisper "ID_19_MICHELLE POJETO_3_EPs.mp3" --model medium --language pt - deu o seguinte erro
_.../bin/bash: line 1: whisper: command not found. Isso com ou sem o termo "--language pt".
2) Em ambiente de execução / acelerado de hardware tinham apenas as opções CPU, T4 GPU, TPU. Quando ativei o T4 GPU o arquivo MP3 sumiu e com o CPU o arquivo ficava presente. Caso você tenha alguma sugestão para superar esses dois conflitos agradeço-lhe muito. Muito obrigado

@jmsmoreira
Copy link

@celestino-lourenco duas coisas. sobre o arquivo sumir... vc começa o processo alterando o ambiente, depois carrega o mp3... Quer me mandar o arquivo, eu faço a transcrição e te devolvo... Talvez seja mais fácil. Aí eu te mando as prints da tela... Meu e-mail é jmsmoreira@gmail.com

@ivanpfigueiredo
Copy link

!pip install git+https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg

!pip install openai-whisper import subprocess

!whisper "Nomedoarquivo.mp3" --model medium --language pt

Obrigado!

@GabrielaVictorio
Copy link

!pip install git+ https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg

!pip install subprocesso de importação openai-whisper

!whisper "Nomedoarquivo.mp3" --model médio --linguagem pt

Assim gera o arquivo para download. Deixo também o ambiente de execução em GPU

Fiz exatamente como vc postou, mas meu áudio está demorando horas pra ser transcrito (20 min).
Tem mais alguma coisa que eu possa fazer?

@mesompi
Copy link

mesompi commented Mar 8, 2024

Estava enfrentando o seguinte erro na saída do comando

AssertionError: libcuda.so cannot found!

Para corrigir execute antes do !pip

Audio disponível aqui

!export LC_ALL="en_US.UTF-8"
!export LD_LIBRARY_PATH="/usr/lib64-nvidia"
!export LIBRARY_PATH="/usr/local/cuda/lib64/stubs"
!ldconfig /usr/lib64-nvidia


!pip install openai-whisper
import subprocess

filename = "/content/Alfabeto_portugues_brasileiro.ogg"
model_name = "medium"
completed_process  = subprocess.run(
  [
    "whisper", 
    "--language", "pt", 
    "--word_timestamps", "True",
    "--model", model_name, 
    "--output_dir", f"output-{model_name}", 
    filename
  ],
    capture_output=True,  # Capture the output of the process
    text=True  # Convert the output to text (for Python 3.7 and later)
)


# Print the output of the process
print("STDOUT:", completed_process.stdout)
print("STDERR:", completed_process.stderr)

@mileenamury
Copy link

Pessoal, encontrei uma forma similar que funcionou 100%! Não estava conseguindo também e encontrei esse vídeo: https://www.youtube.com/watch?v=9prLBRpwZ78&list=LL&index=4

É simples: primeiro altere a execução do ambiente, mudando o tipo para T4GPU.

copie para executar: !pip install git+https://github.com/openai/whisper.git

!sudo apt update && sudo apt install ffmpeg

Quando terminar a execução, você carrega seu arquivo mp3, e arrasta ele para a pasta "sample_data".

Daí vc executa o seguinte comando em outra linha:

!whisper "/content/sample_data/arquivo.mp3" --model medium

Precisa ser especificamente o caminho do arquivo dentro da pasta sample, como fazer isso? 3 pontinhos e "copiar caminho".
Execute e baixe o arquivo txt.
O arquivo que transcrevi tinha 1h 27min, e deu tudo certo no "medium". Demorou 21 minutos.

prints:
Captura de tela 2024-03-23 172430
Captura de tela 2024-03-23 172452

Captura de tela 2024-03-23 172856

@vieiradatalab
Copy link

Olá, bom dia!
Muito obrigado pelo tutorial e pelas dicas!!
Já estou usando aqui para transcrição de entrevistas.... muito bom.
Só uma dúvida...
É possível fazer algum tipo de marcação entre as pessoas que falam?
Tipo... Entre o entrevistador e o entrevistado...
Fazer marcações...
Isso é fala do entrevistador...
Isso é fala do entrevistado...
Pode haver algum parâmetro que se possa configurar para isso?

@turicas
Copy link
Author

turicas commented Mar 27, 2024

Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?

@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.

@vieiradatalab
Copy link

Olá, bom dia! Muito obrigado pelo tutorial e pelas dicas!! Já estou usando aqui para transcrição de entrevistas.... muito bom. Só uma dúvida... É possível fazer algum tipo de marcação entre as pessoas que falam? Tipo... Entre o entrevistador e o entrevistado... Fazer marcações... Isso é fala do entrevistador... Isso é fala do entrevistado... Pode haver algum parâmetro que se possa configurar para isso?

@vieiradatalab o modelo whisper não permite fazer essa segmentação de quem está falando. Existem alguns outros modelos que fazem, mas não tenho exemplos prontos e fáceis de usar assim.

Opa... muito obrigado pela resposta.
Nós usávamos a ferramenta "transcriptor". Essa ferramenta faz a segmentação de quem está falando. Contudo, a qualidade da transcrição é muito ruim. Por isso estamos buscando outras alternativas.
Mesmo sem exemplos prontos, vc consegue citar outros modelos que possam fazer essa segmentação??

@turicas
Copy link
Author

turicas commented Apr 1, 2024

@guilhermegomes2
Copy link

guilhermegomes2 commented May 8, 2024

Olá amigo @turicas

Como faço para que, no arquivo TXT, também sair impresso o tempo inicial e final do áudio?

@bishoppython
Copy link

Olá Amigos eu fiz dessa forma e também obtive êxito!
!whisper "arquivo.mp3" --language Portuguese --model medium #or large or small

espero poder ter ajudado!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment