År 2021 skickade finländare in totalt 100 timmar inspelningar av vardagligt prat på finlandssvenska.
Det skedde i samband med projektet Donera prat, en kampanj som genomfördes av Svenska Yle, Helsingfors universitet och Svenska litteratursällskapet i Finland.
Materialet har sedan transkriberats och är nu sparat både som ljud och text, i Språkbanken. Den finns fysiskt i superdatorn Lumi i IT-centret för vetenskap CSC:s datacenter i Kajana.
– Vi är väldigt tacksamma för det material som har donerats, säger Krister Lindén, som var projektledare för Donera prat och jobbar som forskningsdirektör i språkteknologi vid Helsingfors universitet.
Med hjälp av det insamlade pratet utvecklar forskare vid Aalto-universitetet för tillfället en taligenkänningsmodell som kan bli tillgänglig inom några månader.
– Vi gör en finlandssvensk taligenkänning där prat kan omvandlas till text, säger Mikko Kurimo, professor i tal- och språkbehandling vid Aalto-universitetet.
Materialet från Donera prat är relativt litet, men värdefullt i kombination med annat material såsom riksdagens svenskspråkiga tal och tidigare dialektinsamlingar i Svenskfinland.
– Det finns mycket lite sådant här vardagligt pratmaterial där man har både ljud och text över vad som sagts, säger Kurimo.
Kombinerar flera källor
För att kompensera för bristen på vardagsprat kombinerar forskarna materialet från Donera prat med flera andra källor.
Till exempel har Svenska litteratursällskapet tidigare samlat in muntligt material på finlandssvenska i projektet Spara talet (2005–2008).
Dessutom används inläst material för personer med synnedsättning, svenskspråkiga tal i riksdagen och stora mängder radio- och tv-material som finns sparade hos Nationella audiovisuella institutet (Kavi).
I korthet går det till så att tal-till-text-modellen först tränas på stora mängder otranskriberat ljudmaterial, där den lär sig känna igen ljud och språkmönster.
Sedan finjusteras modellen med materialet från Donera prat, där den lär sig hur finlandssvenskt vardagsprat ska omvandlas till text, i och med att det här materialet är tillgängligt både som ljud och text.
– Vi gör finjustering genom att jämföra vad modellen producerar med det transkriberade materialet, säger Mikko Kurimo på Aalto-universitetet.
Små språkområden halkar efter
De stora teknikjättarna satsar främst på stora språk.
– Ju mindre språkområde och färre talare, desto sämre fungerar de allmänna modellerna, säger Kurimo.
Han bedömer att det inte finns någon bra taligenkänning för finlandssvenska på marknaden i dag.
Lindén säger att kommersiella modeller för rikssvenska fungerar hyfsat bra på standardfinlandssvenska. Samtidigt finns det klart utrymme för förbättring, till exempel när det gäller dialektord eller ord som uttalas klart annorlunda på finlandssvenska än på rikssvenska.
– De stora bolagen erbjuder modeller för de stora språken. Men det kommer att finnas möjligheter för företag som vill nischa sig på små språk, säger han.
Kan användas av forskare och företag
Taligenkänningen kan i framtiden användas både för forskning och kommersiella tillämpningar. Materialet från projektet Donera prat samlades in specifikt för att kunna användas också av företag.
Ett konkret användningsområde är läkarmottagningar, där en AI-assistent skulle kunna skriva ner vad som sägs under besöket.
– Det skulle spara mycket tid eftersom läkaren sedan bara behöver redigera och kontrollera att allt stämmer, säger Lindén.
Sådana här pilotprojekt förekommer redan i Finland, men inte med specifikt finlandssvensk taligenkänning.
Forskare ska kunna använda tal-till-text-modellen till exempel för att transkribera intervjuer eller för att studera dialekter och kommunikation.
Om modellen blir tillräckligt bra ska den till att börja med bli tillgänglig via Språkbankens webbplats.