L’engouement pour les assistants personnels tels que Siri, Cortana et Google Assistant et l’avènement de start-ups qui s’appuient sur l’IA et les données analytiques pour développer de nouveaux compagnons personnels sont le signe d’une évolution où la voix devient le vecteur majeur pour nos relations à la technologie.
Comme cela a déjà été le cas sur le marché des biens de consommation, ces systèmes à activation vocale finiront à coup sûr par s’imposer dans l’environnement des entreprises, surtout si l’on considère les avantages potentiels énormes qu’ils peuvent représenter en termes de simplification et d’automatisation des activités.
Si de véritables héritiers de HAL (“2001: l’Odyssée de l’espace”) ne sont sans doute pas pour tout de suite, les technologies capables d’améliorer le fonctionnement des entreprises existent d’ores et déjà.
Lumières, caméra, action !
Imaginez combien il serait plus facile pour un médecin de demander tout simplement demander “Système: mets à jour le dossier de Marie Dupont en y insérant la note suivante – “Douleurs abdominales de la patiente: envoyer une ordonnance avec 200 mg de “SuperAntiGaz” à la pharmacie, signée Dr PleineForme”.
Ou si, dans une salle de conférence, une simple commande vocale puisse résoudre le casse-tête des télécommandes pour allumer le projecteur et l’écran: “Système: active le projecteur, allume la télé et tamise les lumières.”
Les défis
Alors, où en sommes-nous dans cette évolution vers la voix-d’abord? VoiceLabs, une société spécialisée dans l’analytique vocal, s’est penchée sur les différentes étapes requises pour en arriver à donner à la voix la priorité dans l’univers de la consommation.
Toutefois, pour passer de simples scénarios pour consommateurs à un environnement professionnel axé sur la voix, un certain nombre d’éléments devront se mettre en place.
La sécurité sera un facteur déterminant si nous voulons confier nos systèmes professionnels à la commande vocale. Pourra-t-on confier à n’importe qui le contrôle vocal d’équipements ou de systèmes critiques? La réponse à cette question est évidemment négative. La confidentialité est également une préoccupation de taille, et même si l’exemple du médecin ci-dessus paraît simple à première vue, il convient d’y réfléchir dans le contexte des réglementations. Les droits d’un patient sont-ils enfreints si ces commandes vocales révèlent des informations médicales sur le patient à des tiers?
Accès sécurisé
Les systèmes de reconnaissance vocale de nouvelle génération reposent d’ores et déjà sur des technologies aptes à supporter des accès sécurisés.
Les banques font partie des acteurs qui intègrent l’authentification vocale dans leurs systèmes bancaires téléphoniques. Même si une telle évolution peut inquiéter certains clients au sujet de la sécurité de leur compte, elle suivra à mon avis le cycle d’adoption que l’on a connu pour le commerce électronique. Il a fallu vaincre les appréhensions initiales des consommateurs, craignant des utilisations frauduleuses de leurs cartes, avant d’assister à la croissance fulgurante des achats en ligne.
Les innovations et améliorations constantes dans les systèmes de reconnaissance vocale vont permettre de rendre des systèmes vocaux de sécurité assimilables aux environnements professionnels, qui feront en sorte que seuls les utilisateurs bénéficiant des autorisations appropriées pourront effectuer les actions qui leur sont associées.
Par ailleurs, même si votre micro-onde ne vous espionne pas, il n’en est ps moins vrai que certains appareils demeurent toujours allumés, toujours à l’écoute et, potentiellement, en mode enregistrement. Quelques cas très médiatisés de violation de la vie privée, d’espionnage commercial ou de joutes juridiques pourraient paralyser l’adoption de la reconnaissance vocale. Cela indique qu’il serait judicieux de placer un gros bouton ou une fonction Marche/Arrêt sur les produits choisissant la voix comme première interface. Cela permettrait aux utilisateurs de bénéficier de leurs avantages sans risquer de subir les inconvénients d’une surveillance constante. Il faudrait également intégrer un accès logiciel sécurisé dans ces produits afin d’éviter et de détecter des tentatives de piratage.
Des systèmes de reconnaissance vocale encore plus efficaces
Les premiers exemples d’utilisation concernent principalement les systèmes de réponse vocale, que ce soit dans un contexte de centres d’appels ou des systèmes intégrés dans nos voitures ou sur nos smartphones. Mais vous le savez sans doute d’expérience, ces systèmes sont au mieux marginalement satisfaisants. La reconnaissance et la mise en contexte doivent être affinées par le biais de développements technologiques avant qu’il soit envisageable de les adopter dans un contexte professionnel.
Des programmes de recherche tels que le projet Sphinx de la Carnegie-Mellon University) continuent d’améliorer les capacités de la reconnaissance de langage. Selon un rapport de Mary Meeker sur les tendances d’Internet, le système de reconnaissance vocale de Google était capable, en 2016, de reconnaître plus de cinq millions de mots avec une exactitude d’environ 90%, mais cette reconnaissance n’est pas encore assez étendue ou précise. Un taux de 90% est-il suffisant pour autoriser une interaction avec un équipement d’assistance en milieu hospitalier ou avec le réseau d’un prestataire de service public?
La reconnaissance des mots n’est pas le seul critère à prendre en considération. Reste à savoir ce qu’il faut faire avec ces mots. C’est là que les moteurs cognitifs et l’IA entrent en jeu. Certains travaux des principaux acteurs de ce secteur, tel Microsoft avec son moteur de reconnaissance cognitive en code source ouvert, peuvent être exploités pour comprendre le contexte des mots. La question “Comment aller à la gare?” peut paraître simple, mais une mise en contexte est pourtant nécessaire. Une bonne prise en compte du lieu pourrait indiquer que vous parlez de la gare ferroviaire locale. Si vous êtes assis dans un café non loin du centre-ville, la réponse pourrait être: “prenez à droite au bout de la rue, puis suivez la route pendant un demi-kilomètre” ou “prenez telle ligne de métro et descendez à la station Gare du Nord”. Mais cela implique aussi que l’on présume qu’il s’agit de la gare ferroviaire et non de la gare routière par exemple, qui se trouve à l’autre bout de la ville, ou encore de la station de métro ou de la gare de tramway.
La recherche d’une définition plus précise
La véritable difficulté consiste à comprendre ce qui se cache derrière les systèmes de reconnaissance vocale, de l’intégration des dispositifs IoT au système lui-même, et à vérifier que les commandes sont censées. D’où la nécessité d’exploiter pleinement ces moteurs cognitifs pour en faire des systèmes de vérification et de validation.
Prenons l’exemple d’un technicien qui demanderait par erreur: “éteins le système de refroidissement du réacteur 4”, déjà éteint, au lieu du réacteur 3. Ou celui d’un médecin qui utiliserait le système pour prescrire une dose nocive de médicament en disant par mégarde 400 grammes au lieu de 400 milligrammes. Ces exemples peuvent sembler extrêmes mais il conviendra d’adopter une approche globale des actions automatisées afin de prévenir les erreurs humaines et d’élargir la portée des renseignements pour comprendre les actions liées aux requêtes vocales. Ainsi, “éteins le système de refroidissement du réacteur 4” était peut-être une commande correcte mais le système devrait être en mesure de comprendre l’ensemble des procédures opérationnelles afin de pouvoir mettre ces actions en application.
Une plate-forme API pour de véritables solutions vocales intégrées
D’un point de vue stratégique, il serait intéressant d’exploiter les innovations qui se font jour dans le secteur de la communication vocale traditionnel pour développer de véritables environnements d’entreprise contrôlés par la voix.
Nous assistons, dans le monde de l’entreprise, à l’explosion du CPaaS (Communication Platform as-a-Service) qui exploite les API pour transformer les applications d’aujourd’hui en solutions vocales intégrées. Certains des principaux fournisseurs de communication vocale se lancent actuellement sur ce marché en proposant des infrastructures CPaaS qui comportent un jeu normalisé d’API afin de permettre aux entreprises d’intégrer les communications dans leurs processus commerciaux.
Alors que l’intégration nous fait traditionnellement penser à l’insertion de services vocaux et vidéo dans des applications existantes (pensez par exemple à une application bancaire qui vous permet de passer d’une application en ligne à un appel vocal avec votre conseiller bancaire), ces infrastructures joueront à mon avis un rôle crucial dans cet environnement “la voix d’abord” en exploitant la riche infrastructure API des CPaaS pour communiquer avec les applications et les objets.
Au-delà des contraintes d’infrastructure de communications, il est absolument nécessaire de normaliser la manière dont les CPaaS ou les autres plates-formes communiquent avec les équipements avant qu’un développement rapide des technologies vocales devienne possible. Aujourd’hui, tous les systèmes grand public à commande vocale ont leur propre interface et leur propre schéma d’intégrations API. Ce qui risque de déboucher sur une obsolescence des produits, situation déjà rencontrée il y a quelques dizaines d’années lors de l’affrontement historique entre Betamax et VHS. Tout comme un consommateur n’a pas envie d’investir dans le percolateur “intelligent” dernier cri pour s’apercevoir que la plate-forme qui le pilote vient tout juste n’être abandonnée, une entreprise désire s’assurer que ses investissements dans les nouvelles technologies ne seront pas obsolètes avant d’avoir pu le rentabiliser.
Le meilleur reste à venir
La bonne nouvelle est que plusieurs technologies se préparent qui contribueront à réduire ce risque d’obsolescence. Des cadres de référence tel que IoTivity sont en gestation qui permettront de bâtir une plate-forme standardisée. On constate déjà les avantages, la valeur intrinsèque et l’essor rapide de nouvelles applications vocales destinées aux consommateurs. À moyen terme, le monde professionnel adoptera certains scénarios d’usage de base. À plus long terme, à mesure que la reconnaissance vocale, la sécurité vocale et la simplification/standardisation de la connectivité des dispositifs feront des progrès, les activités axées sur la voix se multiplieront tant sur le marché grand public que dans le monde de l’entreprise, ce qui contribuera à réduire la complexité et à améliorer la productivité.
Craig Walker
directeur Cloud Services
ALE, Europe du Nord
Découvrez-nous sur Facebook
Suivez-nous sur Twitter
Retrouvez-nous sur LinkedIn
Régional-IT est affilié au portail d’infos Tribu Médias.