Kungliga biblioteket (KB) har lanserat en avancerad AI-modell som översätter svenskt tal till text med en träffsäkerhet långt över tidigare lösningar. AI-modellen heter KB-Whisper, som bygger på OpenAI:s Whisper, har tränats på över 50 000 timmar av svenska tv-sändningar, riksdagstal och dialekter. Resultatet är en modell som gör 47 % färre fel än sin amerikanska motsvarighet och som kan användas för allt från undertexter och kundtjänst till medicinska journaler.
Nyckelfakta om KB-Whisper
- Träningsdata: 50 000+ timmar av svenska tv-sändningar, riksdagstal och dialekter
- Felreduktion: 47 % färre fel jämfört med OpenAI:s Whisper
- Användningsområden: Undertexter, kundtjänst, sjukvårdsjournaler, forskning
- Utvecklare: Kungliga biblioteket (KB)
- Tillgänglighet: Gratis att ladda ner och använda, länk: Huggingface
50 000 timmar av svensk taldata skapar en AI i världsklass
Det som skiljer KB-Whisper från tidigare tal-till-textmodeller är dess omfattande och unika träningsdata. Modellen har tränats på transkriberade tv-sändningar från Sveriges Television, riksdagsdebatter och dialektmaterial från Institutet för språk och folkminnen (ISOF). Den stora datamängden har gett modellen en djup förståelse för svensk stavning, ortnamn och fackspråk.
– Det här är en milstolpe för taligenkänning på svenska. KB-Whisper kan hantera allt från svårstavade ortsnamn till specialiserade termer, säger Leonora Vesterbacka, senior data scientist på KB.
Från undertexter till sjukvårdsjournaler, användningsområdena är många
KB-Whisper öppnar upp för en rad praktiska tillämpningar. Sveriges Television undersöker hur modellen kan användas för att texta tv-program mer effektivt. Inom sjukvården kan modellen hjälpa till att transkribera läkares dikterade journalanteckningar, och i kundtjänstbranschen kan AI:n förbättra röststyrda tjänster.
Tal-till-text-teknik har länge varit en utmaning på svenska på grund av dialektala variationer och komplex grammatik. KB-Whispers höga träffsäkerhet gör att den nu kan konkurrera med engelskspråkiga modeller på ett sätt som tidigare inte varit möjligt.
KB-Whisper gör svensk kulturarv mer tillgängligt än någonsin
KB ser KB-Whisper som ett sätt att demokratisera tillgången till information. Genom att transkribera radioprogram och arkiverat material kan biblioteket göra äldre ljudinspelningar sökbara och tillgängliga för forskning. Detta är en del av en större satsning där KB utvecklat flera AI-modeller, bland annat KB-BERT, som används för avancerad textanalys.
– KB har en unik roll i att utveckla AI som speglar alla former av svenska språket. Med KB-Whisper gör vi det lättare att forska på äldre ljudmaterial och låser upp arkiv som tidigare varit svåra att använda, säger Leonora Vesterbacka.
Avslutande reflektion, AI som stärker det svenska språket
Vi på AIutbildning.se menar att KB-Whisper är mer än bara en avancerad AI-modell – det är ett steg mot att göra svenska språket mer tillgängligt i den digitala eran. Under lång tid har AI-utvecklingen dominerats av engelska modeller, vilket har gjort att svenska och andra mindre språk prioriterats i lägre grad. Nu visar KB att det går att skapa en AI-modell som är anpassad för svenska behov och som kan göra svensk kulturarv och forskning mer tillgänglig för fler.
Det här är också ett tydligt exempel på AI med ett demokratiskt syfte. Genom att göra modellen fritt tillgänglig säkerställer KB att AI inte bara är en resurs för stora företag, utan för hela samhället. Det öppnar dörren för att fler ska kunna utforska, analysera och bevara det svenska språket i digital form – en utveckling som kan få långsiktiga effekter både inom forskning och offentlig sektor.
Ladda ner KB-Whisper, gratis att använda
Kungliga Biblioteket skriver i sitt pressmeddelande:
KB-Whisper är helt gratis att ladda ner och använda från KB:s sida på plattformen Huggingface. Den har inget användargränssnitt så det kan behövas lite förkunskap för att använda modellen. I anslutning till modellen finns instruktioner. Från Huggingface går det också att ladda ner KB:s andra AI-modeller, till exempel KB-BERT, en modell för textanalys.