Stimmeingaben werden nicht lokal verarbeitet, sondern als
Audiostream zum Microsoft-Sprachserver übermittelt, dort analysiert und die entsprechenden Aktionen an den PC des Anwenders übertragen. Dabei werden Wissensdatenbanken einbezogen.
Um eine qualitativ gute Spracherkennung anbieten zu können, muss diese trainiert werden. Derzeit kann grob zwischen zwei Arten der Spracherkennung unterschieden werden: Sprecherunabhängige Spracherkennung (a) und sprecherabhängige Spracherkennung (b).