Transskription af dansk tale er blevet bedre de sidste år. Tænk bare på hvor god din mobil eller bærbare er blevet til at forstå dig.
I Vertikal og TV4ever har vi typisk brugt cloud-tjenester som Google Speech-to-Text og Watson speech to text, når vi skulle transskribere/videotekste. Men de var ærlig talt ret usle til dansk.
Lige før efterårsferien kom så Whisper fra Open AI.
Nedenstående transskriptionseksempel indeholder ordet hjernesyge. Ordet står ikke i en ordbog. Men den modige, kunstige intelligens gætter på, at det er rette ord, og skriver det helt korrekt ned.
Der er ret få fejl, og med Whisper er det let at gøre større mængder lyd og/eller video søgbar.
En transskription af et forholdsvis svært forlæg, kan se sådan ud:
> whisper hvaeserbrev.mp3 --language da --model medium
[00:00.000 --> 00:02.000] Hvad fanden din, fuckboy?
[00:02.000 --> 00:04.160] Nu skal jeg fandme sige dig én ting.
[00:04.160 --> 00:08.000] Hvis du skriver et åndsvagt brev til som den ekstra blad den 4. marts,
[00:08.000 --> 00:11.720] så skal jeg sørge for, at du bliver likvideret, fuck.
[00:11.720 --> 00:15.480] Denne bombe er tidsindstillet til tirsdag den 9. marts.
[00:15.480 --> 00:17.880] Hvis du skriver igen, bliver du ikke advaret.
[00:17.880 --> 00:20.680] Det gør jeg denne gang af godhed.
[00:20.680 --> 00:23.000] Jeg er en respekteret læserbrevskribent
[00:23.000 --> 00:30.000] og finder mig ikke i den slags åndsvagt hjernesyge læserbreve.
Man kan tekste sine videoer. Eller i hvert fald få en god start på det. Man kan transskribere podcasts. Eller interviews.
Dansk tale kan endelig gøres søgbar uden det store mandtimeforbrug!
Whisper gives gratis væk af Open Ai og kan som sagt installeres på få minutter.
Har man et RTX-grafikkort eller lignende, kan en grundig transskription foretages i realtid (1 times tale transkribers på 1 time) eller meget bedre. Det går ca. 100 gange hurtigere med et RTX-kort end med en vanlig CPU!
Whisper er nu den lokale, industrielle løsning, man vil bruge til omfattende transskriptioner.
Har man bare brug for at prøve det til enkelte filer, kan man smutte til Good Tape by Zetland . De har lavet en nydelig brugerflade og er endnu ikke overvældet af gratister (men jeg tror, at det kommer).
Hvor er det skønt, at mennesket endnu engang får magisk maskinhjælp til at udføre trivielle opgaver. Først illustrationer, nu transskribering. Jeg er helt enig med Noah og Roon: vi kan nærmest ikke få nok AI-hjælp.