Der Zweck der Bearbeitung von Sprachdaten ist die Optimierung und Verbesserung der Spracherkennung für den Benutzer. Eine funktionierende Spracherkennung ist essentielle Voraussetzung
für digitale Assistenten: Wenn der Assistent nicht versteht, was der Benutzer von ihm möchte,
kann er auch keine ordentliche Antwort geben. Microsoft bedient sich bei „Cortana“ einer ähnlichen Cloud-Technik wie Apple bei Siri: Stimmeingaben werden nicht lokal verarbeitet, sondern als
Audiostream zum Microsoft-Sprachserver übermittelt, dort analysiert und die entsprechenden Aktionen an den PC des Anwenders übertragen.