Norskutviklet talegjenkjenning

Norske myndigheter har spyttet inn en del millioner i utvikling av norsk talegjenkjenning. Det har båret frukter, men hørselshemmede har dessverre ikke fått noen merkbar glede av det ennå.

Fram til 2015 sponset myndighetene utvikling av datamaskinbasert system for å oversette tale til tekst, også kalt talegjenkjenning. Men så fant de ut at de ikke ville mer.

HLF, Døveforbundet og andre aktører klarte å overtale dem til å komme på banen igjen. Bedriften Max Manus fikk høsten 2015 visstnok tilsagn om 12-13 millioner for å utvikle et talegjenkjenningssystem på norsk og nynorsk. Men foreløpig har vi hørselshemmede altså ikke fått noen nytte av arbeidet deres. Vi venter fremdeles på automatisk teksting av alle TV-programmer, kinofilmer, web-videoer, teaterforestillinger, foredrag, og så videre.

Andre aktører?

I mellomtiden må vi benytte andre løsninger, for eksempel Google Docs stemmestyrt skriving (Voice Typing), Apple diktering (Dictation), Google Live Transcribe eller lignende løsninger. De tre jeg nevnte, forstår norsk og er gratis.

Sommeren 2016 testet jeg både Google Docs stemmestyrt skriving og Apple diktering. Jeg ønsket å se hvor godt de kunne fungere som skrivetolk under mine foredrag.

Begge forsto omtrent like mye av hva jeg sa. Men hadde sine styrker innenfor litt ulike typer ord.

Google Docs stemmestyrt skriving skrev relativt fortløpende det jeg sa. Apple diktering ventet til det ble en liten pause før den skrev hva jeg hadde sagt.

Godt nok?

I praksis var de ikke særlig godt egnet til transkribering i sanntid, altså oversette til skrift mens jeg snakket. Den som skal lese hva jeg sier, bør helst kunne forstå meg uten for store anstrengelser. Begge var ikke i stand til å sette punktum etter hver setning. Dermed var det vanskelig for leseren å raskt forstå hvor en setning sluttet og en annen begynte. Hvis du har brukt teksting på You Tube, vet du hva jeg mener.

Jeg konstruerte derfor et teknisk arrangement som gjorde det mulig for meg å sette punktun ved hjelp av en knapp jeg trykket på i slutten av hver setning. Imidlertid var det temmelig vanskelig å huske å trykke på knappen hver gang en setning var slutt. Og noen ganger trykket jeg for tidlig. Og andre ganger for sent.

Konklusjonen etter å ha benyttet det gjennom et helt helgekurs, var at det i grunnen ikke var brukbart. Ofte ble det skrevet noe helt annet enn jeg sa, ofte ble det punktum på feil sted eller ikke noe punktum i det hele tatt. Og det ble rett og slett for upraktisk å trykke på en knapp i slutten av hver setning. For ikke å snakke om å rigge opp et system som gjorde dette mulig.

Dermed lot jeg automatisk skrivetolking ligge død.

Gjenoppstandelse?

I begynnelsen av 2019 annonserte Google noe de kalte Live Transcribe for Android-enheter. Journalister testet og lovpriste. Selv om systemet forsto tale bedre enn tidligere, manglet det en vesentlig ting. Det kunne som oftest ikke forstå når en setning sluttet og en annen begynte. Det var altså ikke så godt egnet til min bruk, nemlig automatisk skrivetolking mens jeg holdt foredrag.

Likevel, min iver etter å ta i bruk automatisk skrivetolking blusset opp.

Dessverre var ikke Google Live Transcribe egnet. Heller ikke ulike iPhone-apper som nyttiggjorde seg Apples talegjenkjenning. Men kanskje Google Docs stemmestyrt skriving og Apple diktering hadde utviklet seg i løpet av disse 2,5 årene? Nei, begge virket å ha stått på stedet hvil.

Jeg ble litt desperat, og kastet meg over min PC og søkmotor. Jeg fant flere alternative løsninger. Noen kostet en del, andre var gratis. Braina Pro var den jeg syntes forsto norsk best.

Men alle hadde vesentlige ulemper 🙁

Da jeg skulle legge inn årene, kikket jeg tilfeldigvis på en av de jeg hadde forkastet fordi den ved første øyekast hadde virket useriøs. Men den var jo nesten perfekt! Dermed ble jeg venn med Speechlogger. Og etter hvert som jeg oppdaget flere og flere av dens smarte funksjoner, ble den kjærere og kjærere.

Epilog

Hva med Max Manus? Klarte de noen gang å utvikle noe brukbart for automatisk skrivetolking? Kanskje. Men Tuva som produktet heter, er ikke tilgjengelig for hørselshemmede! Det er forbeholdt folk som har problemer med å nyttiggjøre seg en PC, for eksempel problemer med å bruke armene. Og foreløpig må man søke NAV for å få tilgang til Tuva.

Mitt inntrykk er at Tuva primært er beregnet på stemmestyring av PC samt diktering av dokumenter. Jeg antar at det ikke er særlig smidig å bruke det til automatisk skrivetolking. Min konspiratoriske teori er at både Google Docs stemmestyrt skriving, Apple diktering og Google Live Transcribe fungerer minst like godt for automatisk skrivetolking av både bokmål og nynorsk. Og jeg gjetter at Speechlogger tar innersvingen på dem alle.

Det skal bli spennende å se om Tuva en dag blir «ansatt» i Dagsrevyen og andre direktesendte programmer.

Høretrøbbel

Stein Thomassens hørselsblog

Norskutviklet talegjenkjenning

Andre aktører?

Godt nok?

Gjenoppstandelse?

Epilog