Du har nog hört talas om Siri eller andra röstassistenter som Google och Alexa. Något som jag ofta ber Siri om är att schemalägga en påminnelse åt mig eller ställa in ett alarm, men utöver dem finns det hundratals fler funktioner. Många av oss använder oss av dem, men har du tänkt på hur dem fungerar? Hur klarar din mobil av att uppfatta det du säger, svara och dessutom följa ditt kommando? Siri, och de flesta andra röstassistenter, använder två tekniker: taligenkänning, eller “speech recognition”, och naturlig språkbehandling, eller “natural language processing”.
Taligenkänningsteknik
Taligenkänning är när man konverterar talade ord, som “Hej Siri”, till textform. Detta är väldigt svårt eftersom människor har väldigt olika toner och dialekter när de pratar. Dessutom har manliga och kvinnliga röster olika egenskaper och personer pratar i olika hastigheter. Apple har tränat maskininlärningsmodeller med ett väldigt stort antal olika röster i dataset. Tack vare det kan Siri förstå olika dialekter och effektivt känna igen när någon pratar, och det sker i flera steg.
När du pratar skapar du små vibrationer i luften. Först omvandlar en analog-to-digital-omvandlare (A/D omvandlare) dess analoga signal till en digital signal som datorn förstår. Sen delas den digitala signalen upp i mindre delar: vissa är så små som en hundradel av en sekund. Dessa delar passar ihop med olika fonemer (språkljud). Programmet använder komplexa statistiska modeller för att lista ut vad du säger. Den vanligaste modellen är en dold Markovmodell som använder sannolikhet för att avgöra den mest troliga mening eller ord.

I den här modellen är varje fonem en länk i en kedja där kedjan är ett ord. Men det finns olika grenar i kedjan eftersom programmet försöker matcha det digitala ljudet med den fonem som den tror kommer näst. För denna process tilldelar programmet sannolikhetspoäng till varje fonem baserat på dess inbyggda ordlista och maskininlärning. Det är mer komplicerat att göra det här med fraser och meningar eftersom datorn måste avgöra vart orden börjar och slutar. Om ett program har en ordlista med 60,000 ord (vilket är vanligast i programmen idag) har en fras med tre ord 216 biljoner möjligheter! Trots det kan program nu effektivt känna igen när du pratar och vad du säger för att omvandla det till textform.
Även om det är väldigt komplicerat har djupinlärning under de senaste åren visat sig ge fenomenala resultat inom taligenkänning. Ordfelfrekvensen för taligenkänningstekniker har gått ner till mindre än 10%. Detta har varit möjligt på grund av tillgängligheten av inte bara stora dataset, utan också med hjälp av kraftfull hårdvara med taligenkänningsalgoritmer som kan tränas på dataseten.
Naturlig språkbehandling
Naturlig språkbehandling (NLP) är en avgrening av AI som är utvecklad för att låta maskiner kunna förstå uttalanden gjorda av vanliga människor. När Siri har förstått vad någon säger skickas den konverterade texten till Apple-servrar för vidare bearbetning. Apple-servrar kör sedan NLP-algoritmer för texten för att förstå avsikten med vad användaren försöker säga. NLP-programmen kan till exempel avgöra att när en användare säger “ställ in ett alarm för klockan sju imorgon”, frågar användaren om att skapa ett alarm och inte om att ringa ett samtal. Detta är utmanande eftersom samma mening kan uttalas på olika sätt, till exempel:
- Hej Siri, kan du skapa ett alarm för klockan sju imorgon bitti?
- Siri, kan du väcka mig imorgon klockan sju?
- Siri, ställ in ett alarm för sju imorgon.
- Siri, skapa ett alarm för sju.
Alla dessa meningar frågar Siri om att göra samma sak, men på olika sätt. Och det är inte säkert att den som pratar med Siri har perfekt grammatik heller, men Siri måste kunna förstå vad hen säger oavsett. Avsiktsanalysen blir då mycket mer utmanande. Precis som taligenkänning kräver avsiktsanalysen också mycket data för att träna Natural Language Processing-algoritmer. Siri måste träna med ett enormt dataset för att generalisera och fånga variationerna i samma mening oavsett om strukturen är ny eller inte. Detta gör hela processen till en extremt svår uppgift. För att kunna utföra sådana enorma uppgifter anställer Apple förstklassiga programvaruingenjörer som har många års erfarenhet av artificiell intelligens, maskininlärning och naturlig språkbearbetning.
Dessa är bara några av de mest grundläggande utmaningarna. En annan viktig teknik bakom Siri som använder maskininlärning är kontextuell förståelse. Du kan prata med Siri som om du pratar med en människa:
Du: Hej Siri, ställ in ett alarm.
Siri: Vilken tid vill du att jag ska ställa in alarmet?
Du: 07:00.
I sista meningen när du sa “07:00” kunde Siri förstå och korrelera att “07:00” är en fortsättning på din begäran att skapa ett alarm. En sista teknik som Siri använder i hela processen är utvinning av enheter. När du ber Siri att ställa in ett larm för i morgon klockan 7, förstår Siri inte bara meningen med din mening, utan den hämtar också automatiskt enheter från meningen – 07:00 och imorgon.
Tekniken bakom Siri och andra röst assistenter är baserad på taligenkänning och naturlig språkbehandling. Dessa två aspekter av artificiell intelligens kommer att användas mycket mer i framtiden, till exempel för företag att kommunicera med sina kunder eller för att bygga ännu kraftfullare röststyrningssystem.