Whisper OpenAI (GPT3, Dall-e 2) est un modèle de reconnaissance vocale qui peut être configuré pour de multiples traductions, transcriptions et identifications de langues. Il a été entrainé avec une énorme base de données audio afin de connaitre toutes les langues et pouvoir ainsi les retranscrire.
Table des matières
<img width="865" height="427" src="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper.jpg" alt="reconnaissance vocale avec whisper en français" class="wp-image-42010" srcset="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper.jpg 865w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper-300x148.jpg 300w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper-770x380.jpg 770w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper-293x145.jpg 293w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper-390x193.jpg 390w" sizes="(max-width: 865px) 100vw, 865px" />
<img width="1024" height="812" src="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-1024x812.jpg" alt="whisper openai" class="wp-image-42011" srcset="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-1024x812.jpg 1024w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-300x238.jpg 300w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-770x611.jpg 770w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-293x232.jpg 293w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3-390x309.jpg 390w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper3.jpg 1130w" sizes="(max-width: 1024px) 100vw, 1024px" />
Modèle payant ou Open source ?
C’est un code Open source et on peut le retrouver sur GitHub (github.com/openai/whisper). Il est donc gratuit.
<img width="1024" height="242" src="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-1024x242.jpg" alt="githuib whisper" class="wp-image-42012" srcset="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-1024x242.jpg 1024w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-300x71.jpg 300w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-770x182.jpg 770w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-1536x363.jpg 1536w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-293x69.jpg 293w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-1400x331.jpg 1400w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4-390x92.jpg 390w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper4.jpg 1987w" sizes="(max-width: 1024px) 100vw, 1024px" />
Comment installer Whisper Openai ?
Il y a plusieurs façons de l’utiliser.
Si c’est pour travailler avec ce système, je vous recommande de l’installer sur votre ordinateur sous Linux, Windows ou Mac avec les commandes qui sont disponibles sur le GitHub .
Si c’est pour faire un test, il est plus simple d’utiliser Google colab (colab.research.google.com/github/openai/whisper/blob/master/notebooks/LibriSpeech.ipynb)
J’utilise Colab pro qui permet d’enlever certaines limitations de temps afin de pouvoir vous faire des démonstrations.
Comment utiliser Whisper ?
Dans la version sur colab, il faut lancer les différentes séquences. Ensuite, il suffit de vous enregistrer avec votre microphone et d’appuyer sur Transcribe. Cela retranscrira ce que vous avez dit.
Si vous parlez en français, le texte sera en français, si vous parlez en japonais, la retranscription sera en japonais.
<img width="932" height="410" src="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5.jpg" alt="whisper openai" class="wp-image-42013" srcset="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5.jpg 932w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5-300x132.jpg 300w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5-770x339.jpg 770w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5-293x129.jpg 293w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper5-390x172.jpg 390w" sizes="(max-width: 932px) 100vw, 932px" />
<img width="738" height="211" src="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper7.jpg" alt="reconnaissance vocale avec whisper en japonais" class="wp-image-42014" srcset="https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper7.jpg 738w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper7-300x86.jpg 300w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper7-293x84.jpg 293w, https://paradoxetemporel.fr/wp-content/uploads/2022/09/whisper7-390x112.jpg 390w" sizes="(max-width: 738px) 100vw, 738px" />
Il y a des fautes mais ce n’est pas très grave car il suffit ensuite de passer le texte dans des applications comme Word ou Libreoffice pour corriger votre texte.
Pourquoi utiliser Whisper ?
On pourra l’utiliser pour traduire automatiquement un film, une série ou un documentaire. Le potentiel est assez énorme pour ce type de programme.
Démo de Whisper de Openai
<iframe src="https://www.youtube.com/embed/t7xV5J25Xvs" title="C est quoi Whisper de Open ai" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen="" width="560" height="315" frameborder="0"></iframe>