Knowbel: rendre les moteurs de recherche intelligents

Portrait
Par · 13/02/2013

Tout a commencé par un projet de recherche, financé par Innoviris, qui a impliqué le Cental (Centre de Traitement Automatique du Langage) de l’UCL et l’agence Belga. Objectif: développer une base de connaissance biographique (B-Ontology) ainsi que le prototype d’une application capable d’extraire et d’organiser de l’information biographique. L’agence Belga voulait en effet se doter d’un outil qui lui permette de mieux exploiter les flux d’informations qu’elle traite chaque jour- de l’ordre de 70.000 mots par jour et par langue (soit 25 millions de mots en un an). “La valorisation concerne les informations relatives aux personnes, organisations et événements dans lesquels ces informations interviennent”, expliquait à l’époque l’agence.

Ce projet de recherche devait donner des idées à Patrick Watrin, chercheur au Cental, qui, en 2012, lançait la spin-off Knowbel. Avec pour objectif, le “développement de logiciels et de services à haute valeur ajoutée visant la production d’informations pertinentes et structurées, de “connaissances”, à partir d’informations textuelles non structurées.” D’emblée, l’idée fut, non pas de vendre des outils, mais plutôt de concocter des solutions spécifiques, proposées sous forme de services personnalisés d’extraction de l’information. Un marché d’autant plus porteur que la vague du Big Data et la multiplication des données non structurées en tous genres ne cessent de prendre de l’ampleur.

Premiers secteurs visés: le monde financier et médical.

Pull” et “Push”

Knowbel développe deux types de solutions: des outils de recherche d’informations (mode pull) et de l’agrégation de contenus (mode push).

D’une part, des moteurs de recherche spécifiques (DSSE- “domaine specific search engines”) qui vont fouiller, à la demande et en mode pull, les sources de données pour en extraire des informations pertinentes. D’autre part, des moteurs de veille et d’agrégation d’informations, qui opèrent en mode push, délivrant spontanément en continu des informations à l’utilisateur.

Patrick Watrin (Knowbel): “Via l’application de filtres et la mise en œuvre de techniques d’analyse et de désambiguïsation, le moteur ne remontera que les informations pertinentes pour le domaine spécifique de chaque client.”

Les “DSSE” sont des moteurs de recherche dont les potentiels (linguistiques et sémantiques) sont optimisés en fonction d’un métier ou d’un contexte déterminé: médecine, finances… Avec en plus la capacité pour chaque société ou organisme utilisateur, au sein de chaque secteur, de personnaliser encore davantage le fonctionnement du moteur.

Là où des moteurs traditionnels tels que Google opèrent des recherches sur base d’une indexation de textes avec livraison des résultats selon des algorithmes basés essentiellement sur des notions de fréquences, Knowbel vise une recherche plus pertinente.

“Il s’agit d’aller au-delà des mots pour atteindre l’information. Il faut dépasser le niveau du texte pour s’intéresser au sémantique et enrichir le texte avec des informations latentes”, explique Patrick Watrin. Les moteurs spécifiques que développe Knowbel opèrent donc sur des entités, des concepts, des “multi-mots”. Par le biais de la sémantique, du “sens”, Knowbel fournit des outils de recherche qui considèrent par exemple comme une seule et même entité significative un ensemble de mots tels que “commission d’enquête parlementaire”.

Autre exemple, puisé dans le contexte du premier moteur de recherche spécifique qu’elle a développé pour le secteur médical: le terme pneumothorax peut non seulement se retrouver dans une entité davantage signifiante pour un professionnel (“pneumothorax spontané” ou ”pneumothorax apical droit”) mais aussi- et surtout- donner des résultats de recherche différenciés selon qu’il corresponde à une cause d’hospitalisation, à une procédure médicale (ex.: “radiographie du thorax à la recherche d’un pneumothorax”), ou à un simple historique médical d’un patient donné.

Faire émerger l’info latente

Les moteurs de recherche spécifiques, concoctés par Knowbel, détectent les significations latentes, même si les éléments constitutifs d’un “multi-mot” sont séparés entre eux par d’autres mots, ou existent sous des formes altérées du terme recherché (féminin, pluriel…).

En arrière-plan de la recherche, c’est toute une mécanique d’interprétation qui se met en œuvre. “Par l’application de filtres et la mise en œuvre de techniques d’analyse et de désambiguïsation, le moteur ne remontera par exemple, pour un client intéressé par le domaine de l’économie, que les textes parlant de la société Renault, laissant de côté tous les textes parlant des voitures Renault. Via une connexion avec des bases sémantiques, il est possible d’encore enrichir la recherche pour obtenir des informations sur les concurrents, les filiales…”

Autre technique exploitée par Knowbel: le pré-traitement de l’information afin de trier les résultats par thème. Toutes les informations traitant de la même chose seront regroupées en “clusters” (“grappes” basées sur le concept de similarité sémantique). Par exemple: fabrication de tablettes Apple dans un cluster, résultats Apple dans un deuxième, concurrence iOS-Android dans un troisième.

Le classement des résultats de recherche affichés dans chaque cluster s’effectuera selon les pondérations et préférences qu’aura indiquées l’utilisateur (ou qu’aura programmées Knowbel). Et ce, pour privilégier les sources d’informations considérées comme fiables ou de meilleure qualité- par exemple, les infos venant du Financial Times. Le moteur Knowbel mettra par ailleurs de lui-même en exergue tout article qui, parmi tous ceux qui traitent de la même thématique, prend éventuellement le contre-pied des commentaires majoritaires. Par exemple, un article qui, à la différence des autres, émettrait un avis mitigé par rapport à des résultats trimestriels, alors que ceux-ci sont en hausse et jugés favorables par toutes les autres sources d’information.

La définition préalable de filtres et de contraintes permet de baliser le fonctionnement du moteur qui remontera donc des résultats plus pertinents pour le domaine concerné. L’intelligence sémantique intégrée au moteur de recherche lui fait spontanément rechercher des concepts voisins ou afférents à la recherche. Avec possibilité pour chaque client de déterminer les analogies qui l’intéressent. Par exemple: aide financière/parrainage/sponsorship.

Patrick Watrin (Knowbel): “Nous allons beaucoup plus loin que la recherche de mots. Il faut dépasser le mot pour aller vers l’information, dépasser le niveau du texte pour aller jusqu’au sémantique. Autrement dit, enrichir le texte par des informations latentes.”

Les résultats de recherche peuvent également être rendus plus immédiatement détectables via recours aux désormais célèbres “nuages de mots” ou “facettes”. Cette technique permet de détecter intuitivement les mots les plus pertinents d’une recherche. “Dans le milieu médical, cela permet par exemple de détecter rapidement quelle est, dans les divers historiques patient, la cause la plus significative pour une hospitalisation pour pneumothorax”, explique Patrick Watrin.

Mais il est possible de raffiner ces “facettes” en ajoutant de nouveaux critères et dimensions à la recherche. Comme par exemple, les médicaments utilisés, les trajets de soins suivis… En juxtaposant une ligne de temps (différents passages à l’hôpital, historique des maladies…) à une courbe des signes vitaux- toutes informations présentes dans les dossiers médicaux-, le médecin peut faire surgir des faits significatifs. Par exemple, dans quelle circonstance, tel médicament a été administré. Par exemple, un anti-douleur pour un malaise ou pour une chute… Idem s’il veut croiser les historiques de différents patients pour faire émerger des causes cachées. Il n’est dès lors plus nécessaire de savoir, à l’avance, ce qu’on cherche, comme c’était le cas avec des outils traditionnels de text mining.

Autre particularité des moteurs conçus par Knowbel: un habillage visuel par codage couleurs des types de résultats collectés. Une possibilité est d’assigner une couleur déterminée par type d’information: nom de société, chiffre/résultat, nom de personne, fonction/titre, époque/date… Autre exemple: le codage couleur d’une lettre de sortie, dans laquelle le médecin et le patient pourront rapidement identifier, grâce à trois couleurs distinctes, les informations ayant trait au diagnostic, aux procédures médicales effectuées et au traitement à suivre.

Trois domaines prioritaires

Le potentiel de marché des “DSSE” est quasiment aussi vaste qu’il y a de secteurs ou de disciplines. Knowbel a décidé de se concentrer sur trois domaines où la demande pour ce genre de solutions se fait de plus en plus appuyée: les médias, le secteur médical, et le monde de la finance. “Tous domaines où nous avons développé, depuis le début, des compétences spécifiques, qui nous permettent de nous différencier”, souligne Patrick Watrin. “Nous ne nous positionnons par contre pas sur le terrain du marketing ou de l’analyse de réputation du fait que les acteurs y sont déjà nombreux. Nous estimons inutile de nous attaquer au créneau de l’analyse de sentiment dans la mesure où les algorithmes et technologies qui existent aujourd’hui ne sont ni efficaces, ni matures.”

Trois moteurs ont d’ores et déjà été mis au point (dont un pour un client hospitalier) ainsi qu’une plate-forme d’agrégation de contenus (en cours de finalisation pour un client). Des négociations ont en outre été entamées avec un prestataire de services, spécialiste du secteur hospitalier, qui pourrait inclure le moteur DSSE de Knowbel à son propre catalogue de services. “Une douzaine de clients se sont dit potentiellement intéressés par les solutions Knowbel. Cinq ou six de ces pistes pourraient déboucher prochainement sur des contrats à long terme.”

Plus tout-à-fait une spin-off…

Knowbel continue d’entretenir des liens étroits avec l’UCL, pour des raisons évidentes de potentiel de recherche.

Toutefois, la phase expérimentale sera bientôt terminée. Preuve en est que les nouveaux moyens financiers que recherchera la jeune société devraient venir du monde des venture capitalists. “Nous sommes entrés dans une phase d’industrialisation. Nous atteindrons notre break-even au cours des prochains mois, grâce aux activités que nous développons. Nous ne cherchons dès lors plus des financements sous forme de subsides ou d’apports par des business angels. Nous nous mettrons en quête de fonds sans doute vers la fin de l’année. D’ici là, nous espérons avoir décroché des contrats à long terme qui apporteront la preuve de l’intérêt de nos technologies et qui augmenteront la valorisation de la société”, déclare Paul De Decker, directeur de Knowbel.

Si Knowbel, en tant que telle, ne fait plus appel aux subsides, ces derniers demeurent toutefois une source indirecte à ne pas négliger. Le rôle d’Innoviris, par exemple, restera essentiel pour financer les recherches fondamentales effectuées au Cental, recherches pouvant déboucher sur la mise en oeuvre de technologies qui auront un impact à plus long terme. “C’est là une aide qui nous permettra d’évoluer plus vite et de nous maintenir parmi les meilleurs”, souligne Paul De Decker.

Ajoutons encore que, depuis quelques mois, la petite équipe de Knowbel a lié des relations étroites avec EarlyTracks.

Ces deux start-ups venant de domaines connexes ont estimé en effet de leur intérêt de se lancer dans une “collaboration étroite”. Dès le départ, Knowbel s’était surtout spécialisée dans l’”extraction” d’informations. EarlyTracks était davantage orientée traitement de l’information (business intelligence à connotation sémantique). Qui plus est dans des domaines (la finance, en particulier) complémentaires à ceux qu’avait identifiés Knowbel (santé, médias). La collaboration devrait encore se resserrer à l’avenir…