Dernière modification le 19 mars 2024 à 00:26.
Temps estimé pour la lecture de cet article : 62 min
Qu’est-ce que ça mange en hiver le traitement automatique du langage naturel (TALN ou NLP) ? 😉
« Le TALN est la capacité pour un programme informatique de comprendre le langage humain tel qu’il est parlé. C’est une application de l’intelligence artificielle. »
Quel est le véritable potentiel du traitement automatique du langage naturel (TALN ou NLP) par l’IA (intelligence artificielle) pour la PME ?
Quelles sont les applications actuelles les plus rencontrées ?
Quelles sont les applications les plus prometteuses du NLP ?
Quels sont les plus grands enjeux du NLP ? L’imputabilité ? La confidentialité des données ?
Ne manquez pas ce webinaire avec notre expert invité, David Beauchemin.
David est Chercheur en IA appliquée chez Baseline et étudiant au Doctorat en informatique (intelligence artificielle) à l’Université Laval.
Dans ses temps libres (!), il anime également le podcast OpenLayer, portant sur l’IA.
Le webinaire se termine avec une période de questions.
Ce webinaire est le 21e webinaire d’une série visant à démystifier la transformation numérique dans la PME d’ici. Nous invitons des acteurs-clés de la transformation numérique et du 4.0 à venir partager avec nous leurs observations et réflexions.
Vous avez aimé l’extrait ? Le webinaire complet est disponible ici :
Transcription intégrale du webinaire
C’est bien ça, David?
Oui, exactement.
OK.
Donc, on parle du traitement automatique du langage naturel par l’intelligence artificielle.
David Beauchemin est notre invité aujourd’hui.
Mon invité, David, il est chercheur en intelligence artificielle appliquée chez Baseline.
Il est aussi étudiant au doctorat en intelligence artificielle à l’Université Laval.
Il anime un podcast aussi qui s’appelle Open Layer.
On va vous donner le lien un peu plus tard.
Puis, peut-être que j’en oublie, mais il semble avoir un agenda assez chargé.
Oui, exactement.
Mais c’est l’essentiel qu’on a discuté aujourd’hui.
Bon, excellent.
Ça fait qu’on est quand même un bon petit groupe.
Ça continue d’augmenter.
Je vais être intéressé de savoir où vous vous situez au Québec ou ailleurs.
Fait que si vous pouvez utiliser le « chat » pour répondre, lâchez-vous lousse.
C’est un « chat » public en passant.
Ça fait que ça va être intéressant de savoir d’où vous êtes.
On a des gens du côté de Sherbrooke. On a des gens du côté de la Rive-Sud, Carignan. On a même des gens de France, Laval, Montréal, Québec. Terrebonne, Sainte-Hyacinthe, Beloeil.
C’est quand même intéressant de savoir qu’on peut rejoindre du monde un peu partout.
Montérégie-Est, Ontario.
Ça fait que j’imagine aussi que vous pouvez nous confirmer aussi que notre son est bon et que vous nous entendez bien.
Ça serait super.
Donc, avant de vous présenter David, je veux juste vous expliquer un peu l’origine de ces webinaires-ci et la logistique aujourd’hui.
On va être ensemble pour une durée d’une heure environ.
Mon nom, c’est Simon Chamberland. Je suis de l’entreprise L’Éclaireur.
On se spécialise dans la transformation numérique des entreprises. En fait, la PME du Québec de 15 à 500 employés. On fait essentiellement de la sélection de technologies, mais aussi de la sélection de systèmes ERP ou CRM.
On se positionne aussi dans la réalisation de plans numériques. Donc, ce qu’on appelle communément la démarche d’Audit 4.0.
L’idée derrière ces webinaires-là qu’on a débutés en janvier 2020, donc ça fait un peu plus qu’un an, c’était d’inviter des acteurs clés. Des gens qui ont une expertise sur un sujet en particulier pour échanger d’une façon ouverte sur la transformation numérique et aider au fond à démystifier le sujet et nous faire comprendre ce que c’est.
Dans ce webinaire-ci, on s’intéresse au NLP, qui est un domaine, si vous voulez, qui est, je ne sais pas si on doit dire une sous-branche de l’intelligence artificielle.
Dans le fond, on utilise l’intelligence artificielle pour exploiter ce domaine-là.
C’est ça, David?
Oui, exactement.
OK.
Bon, bien, on s’intéresse à ce sujet-là.
Si on réussit à vous faire comprendre, ne serait-ce qu’une partie du potentiel que le NLP va avoir dans votre organisation ou dans des organisations qui vous entourent, ça va être super intéressant.
Pour la logistique, donc, je disais, on est ensemble une heure aujourd’hui. Vos questions, vous pouvez les mettre dans le chat. On a une façon de les marquer et de faire le suivi. Donc, à la fin, dans la période de questions, on va prendre celles qu’on peut. Mais on va peut-être répondre à quelques-unes durant le cours du webinaire.
Alors, moi, ce qu’on vous invite, c’est vraiment à poser vos questions aussitôt qu’elles vous viennent à l’esprit.
Puis, David va se faire un plaisir d’y répondre comme il peut.
À la fin du webinaire, il y a une période de questions. Vous allez pouvoir intervenir.
Même avec votre caméra et votre micro, vous allez pouvoir utiliser, pour ça, pour vous manifester, l’icône de la main.
Donc, dans vos émoticônes du « chat », il y a une icône de la main.
Si certains d’entre vous, vous voulez l’utiliser, vous pouvez le faire à l’instant.
Le webinaire va être disponible en rediffusion.
Un courriel va vous être envoyé pour l’occasion, en fait.
Puis, il va aussi être disponible sur la chaîne YouTube de L’Éclaireur.
Donc, on va vous partager le lien.
On va le partager un peu plus tard.
Alors, ben, voilà.
Fait que David, salut!
Comment ça va?
Ça va bien, toi?
Ben oui, ça va très bien aussi.
Des journées de webinaire, c’est toujours, toujours excitant.
Bien écoute, je t’invite peut-être à te présenter à tout le monde.
Certains d’entre vous, les gens qui sont là avec nous te connaissent déjà.
D’autres pas.
Puis bien voilà.
Je te laisse te présenter.
Oui, tu as déjà fait une bonne présentation.
Mais je dirais qu’effectivement, les deux chapeaux que tu as présentés, c’est que tu as fait une bonne présentation.
Mais je dirais qu’effectivement, les deux chapeaux que tu as présentés, c’est que tu as fait une bonne présentation.
Ben oui, effectivement, les deux chapeaux que je porte le plus souvent, puis que j’aime le plus porter actuellement, c’est au sein de Baseline, chercheur appliqué en intelligence artificielle avec des collègues.
Donc, finalement, c’est Baseline, c’est une compagnie qu’on a fondée ensemble, avec des collègues.
Puis l’autre chapeau que je porte souvent aussi, c’est l’étudiant au doctorat.
Donc, je suis étudiant au doctorat en intelligence artificielle en informatique, mais je fais de l’intelligence artificielle.
Puis sinon, bien, podcast, implications aussi dans des comités, améliorations, formations continues aussi en intelligence artificielle.
Je m’implique dans plusieurs projets.
Finalement, qui me tiennent à cœur, tout relié à ce que j’aime beaucoup, qui est l’intelligence artificielle, finalement.
Oui, effectivement, tu as partagé mon podcast qui est, finalement, c’est un podcast où est-ce que j’interview des gens dans cette formule-là.
Nous autres, c’était avant la COVID, donc c’était en présentiel.
Puis donc, finalement, j’étudie avec les gens, c’est quoi leur réalité, qu’est-ce qu’ils font, comment ils utilisent l’IA, comment ils sont venus aussi dans ce secteur-là.
Puis, c’est à peu près une heure, une heure et quart, j’ai une trentaine d’épisodes environ qui ont été filmés des années antérieures et que j’attends que la situation se stabilise pour les refaire en personne.
Oui, parce qu’évidemment, ça a changé la réalité des studios d’enregistrement.
Surtout quand c’est dans ton appartement, ce n’est pas le même studio.
Tu ne veux pas que les voisins se plaignent.
Exactement.
Bon, super.
Bon, écoute, David, on va y aller avec les questions, en fait, un peu les sujets qu’on a couverts ensemble dans l’agenda.
Premièrement, le traitement automatique du langage naturel, c’est quoi?
C’est quoi ce domaine-là?
Ça commence où?
Ça s’arrête où?
Ben, tu le dis un peu, finalement, il y a l’IA.
C’est comme une grosse sphère.
Puis, comment…
J’essaie d’obtenir une façon de bien définir l’IA.
Puis, il faut voir surtout l’IA comme un système informatique qui cherche vraiment à reproduire des comportements qu’on associe souvent à l’humain.
Par exemple, lire, écrire, la réflexion qui pourrait être associée à ça.
Voir une image et dire que c’est une image de chat.
C’est souvent associé à une capacité.
C’est souvent associé à une capacité humaine, peut-être pas animale.
Donc, c’est pour ça qu’on appelle ça l’intelligence artificielle.
C’est comme le terme actuellement qui est globalement accepté.
Puis là, à travers tout ça, il y a différents types de données qu’on peut utiliser.
Une de ces données-là est le langage.
Donc, présentement, on communique, on va écrire.
Le NLP actuellement se concentre plus…
Puis, pourquoi on dit NLP?
C’est Natural Language Processing.
J’aime mieux utiliser le terme en anglais
juste parce que NLP est plus facile à dire qu’il y a T-A-L-N.
Fait que je dis NLP juste pour que ça sonne mieux dans ma bouche.
Mais c’est peut-être pas faire office à la langue française.
Mais finalement, le NLP, c’est plus les données textuelles, présentement, qu’est-ce qui est fortement utilisé dans le NLP.
On pourrait utiliser de l’audio, mais il y a souvent un processus vers le texte qui va être utilisé.
Puis, NLP, c’est du texte qu’on veut lire, qu’on veut générer ou duquel on voudrait extraire de l’information.
Je peux donner un exemple simple.
Par exemple, j’ai une nouvelle journalistique et j’aimerais ça savoir ça parle de quoi ou je voudrais dire c’est quel type de nouvelle.
Est-ce que c’est une nouvelle actualité de sport ou tout ça?
Donc, ça, ça serait un processus NLP qu’on utiliserait pour faire ça.
C’est pas mal le topo global à quoi ça semble.
OK. Excellent.
Dans le fond, ça commence où? Ça se termine où?
Tu dis…
Je te laisse aller.
Oui, c’est ça.
Où ça commence vraiment, c’est souvent du texte non structuré.
Non structuré, qu’est-ce que ça veut dire?
On est habitué à des modèles plus structurés, une base de données.
J’ai un champ, une colonne, une information.
Donc, par exemple, j’ai un champ qui est le nom.
C’est facile d’aller chercher des données avec ça.
J’ai le nom, je peux savoir il est où.
J’ai un autre champ qui est l’âge, etc.
Là, des données non structurées, c’est-à-dire j’ai un texte brut.
Je ne sais pas il est où le nom dans le texte.
Je ne sais pas il est où l’âge dans le texte.
J’ai une facture client, par exemple.
C’est quel client que ça fait référence?
Donc, là, je veux vraiment extraire l’information qui n’est pas structurée dans des champs que je peux facilement utiliser de manière informatique.
Je veux faire un processus là-dessus pour extraire l’information ou en générer à partir de l’information quelconque qui n’est pas structurée.
Donc, elle est souvent là la frontière qu’on va définir.
Puis, je pense que le cœur est vraiment d’interagir avec les données textuelles de la langue.
Que ce soit en français, en anglais, peu importe la langue.
Il y a souvent, très souvent, donc des images, on va plus faire référence à un processus de vision numérique.
Donc, on va vraiment plus travailler avec des données textuelles.
Puis, dans le fond, c’est applicable peu importe le langage?
Peu importe le langage, etc.
Ça peut être même du langage informatique aussi.
Ça peut être du langage en anglais, plusieurs langues impliquées en même temps.
Ça peut être faire la traduction, français vers l’anglais, anglais vers le français.
Ou prendre une donnée, mettons un texte, puis transformer ça en code informatique.
Ça pourrait être un autre exemple.
OK, OK.
C’est quoi les premières applications qu’on a vu du NLP dans les entreprises ou dans la vraie vie?
Qu’est-ce qu’on a vu en premier?
Bien, ça a commencé il y a quand même plusieurs années.
Si, disons, on remonte un peu historiquement, plus vraiment au début du 20e siècle,
bien, c’est dans les années 50, ça a commencé vraiment à apparaître.
Puis, les premiers exemples qu’on a vus, c’est, disons, de résoudre des problèmes d’algèbre du secondaire.
Donc, vraiment extraire le problème, puis essayer de le résoudre.
Par exemple, 1 plus 1, qu’est-ce que ça va donner?
Tenter de répondre à cette équation-là.
Il y a eu aussi un système qui était ELISA,
qui était un système qui tentait d’imiter un psychothérapeute, peut-être que les gens en on entendu parler, qui était finalement, très axé sur des règles finalement très simples.
Par exemple, quand le client dit ça, répond ça.
Ça fait que c’était très ouvert.
C’était des questions très ouvertes.
Ça faisait vraiment l’impression que tu avais une interaction avec un humain ou une forme d’intelligence évoluée, mais c’était très rudimentaire comme approche.
Mais à l’époque, c’était très révolutionnaire.
Actuellement, on regarde ça avec un œil peut-être plus, on va dire, de l’IA classique.
Ce n’est pas vraiment ce qui est englobé dans l’IA actuellement qu’on tente de définir.
Ça a vraiment ressorti un peu les limites de ce type d’approche-là, de trucs qu’on appelle « rule-based », finalement.
Ça a vraiment commencé à apparaître dans ces années-là.
Puis, si on va dans le temps actuellement, dans tout ce qui est plus 21e siècle, qu’est-ce qu’on est plus confronté actuellement?
C’est Siri qui est un bon exemple de ça, Alexa, Cortana, parce que finalement, il y a un processus où ça prend la voix, ça le transforme en texte, puis ça le transforme ensuite pour aller chercher l’information.
Donc là, on parle qu’il y a un module NLP à travers un module audio aussi.
Google Translate, meilleur exemple de ça.
Au début, c’était vraiment des règles.
Des règles.
Des phrases.
On est allé vers des choses.
On est allé vers des méthodes plus de « deep learning » qu’on appelle, qui est finalement des apprentissages par réseaux profonds.
Puis, avec ces méthodes-là, finalement, c’est juste une autre façon d’apprendre ou de résoudre le problème, si on veut.
C’est un autre outil qu’on a dans notre boîte à outils de l’IA qui a permis d’atteindre de meilleures performances sur la traduction de texte.
OK. On a une question, Nicolas, qui dit « Google utilise le NLP pour connaître le contenu des sites web? »
Effectivement.
C’était aussi un autre truc que j’avais en exemple qui est, finalement, l’engin de Google de recherche utilise effectivement des modèles pour améliorer la qualité des réponses ou du moins des recherches qu’ils font.
Ça, c’est un modèle qui est très, très…
Je ne pense pas que je vais partir de ce modèle-là ici parce que c’est vraiment ce qui est à la frontière présentement de la connaissance en termes de NLP.
Mais effectivement, c’est un modèle qui est très, très, très un mastodonte, finalement, en termes de modèle qui arrive à mieux comprendre l’intention de l’utilisateur.
Finalement, on appelle ça un modèle de langue, c’est-à-dire…
Donc, l’humain est capable de jouer avec les mots, de savoir quand même utiliser les mots.
Puis, on sait qu’il y a des mots qui peuvent s’enchaîner d’une façon logique.
Bon, souvent, je vais avoir un déterminant.
Je vais avoir, mettons, un sujet.
Je vais avoir une construction d’une phrase qui est logique comme on a appris de le faire.
Ces modèles-là tentent de comprendre les probabilités d’un mot qui pourrait suivre.
Par exemple, j’ai « le chat ».
Bien, qu’est-ce qui pourrait suivre?
Peut-être « le chat boit », « le chat miaûle ».
Donc, il y a des mots plus probables que « le chat » ou, mettons, « saute ».
Peut-être aussi que ça serait probable.
Donc, c’est de trouver cette probabilité-là.
Puis, avec ce modèle-là, on tente d’améliorer les recherches Google avec un modèle de langue, finalement.
OK. Donc, toi, tu parles par rapport…
Lui, il utilise le NLP pour comprendre qu’est-ce que, toi, tu recherches comme informations quand tu utilises Google.
Exactement.
OK.
Je pense que la question de Nicolas, c’est : « Google utilise le NLP pour connaître le contenu des sites Web ? »
Donc, autrement dit, quand il « crawl » ou quand il…
Quand il…
Bon, il…
En fait, il parcourt ton site Web ou un site Web pour définir qu’est-ce que le site contient ou la page en question contient parce que c’est du NLP.
Oui, exactement, oui.
Je n’ai effectivement pas très bien répondu à la question, mais oui, effectivement, on va utiliser…
C’est probablement de la classification.
Je ne connais pas exactement tout le processus, mais je dirais, moi, qu’est-ce qui est logique, c’est la classification du document.
Donc, j’ai une page Web.
À quelle catégorie ça peut faire référence?
Ça me ferait du sens de savoir ça dans le processus.
Y a-t-il des entités connues?
Par exemple, ça fait référence…
Par exemple, ça fait référence au Parlement, ça fait référence aux États-Unis, au Canada.
Donc, ça, c’est une entité qui est communément reconnue comme une entité existante, comme le Canada, comme j’ai donné en exemple.
Il pourrait y avoir d’autres informations pour s’extraire de ça, pour effectivement mieux comprendre la nature du texte qu’ils font référence.
C’est certain que dans le processus d’indexing, l’indexing qui est finalement de faire du référencement entre les pages, de pouvoir savoir que cette page-là existe, on appelle ça un processus d’indexing.
C’est sûr qu’il y a un processus d’indexing définitivement qui est là-dedans.
C’est quoi la nature de ça?
Ça, je ne suis pas au courant, par contre.
Puis, c’est la même chose, j’imagine, pour Facebook avec son Pixel qui se retrouve sur 175 milliards de sites web ?
Tu sais, c’est complètement hallucinant.
Je fais des recherches sur Google.
Je parcours des sites sur différents sujets.
Puis, je m’en vais sur Facebook.
Une demi-heure après, j’ai de la pub.
J’ai de la pub de certains gens qui me poussent des produits par rapport à ça.
Ça, ce n’est pas exactement la même chose.
Ça, en fait, c’est plus… Par rapport à ton registre que tu as consulté, on appelle ça des cookies, qui sont finalement les pages que tu as consultées antérieurement.
Eux, ils utilisent ces informations-là pour ensuite te proposer de l’information, du contenu personnalisé.
C’est de l’IA, parce que c’est souvent, on pourrait dire, des compétences associées à un humain dans le sens que tu as eu un…
J’observe quelque chose chez toi.
Donc, tu t’en vas au magasin-là.
Donc, je pense que tu aimerais peut-être avoir tel bien, mais ce n’est pas nécessairement du NLP.
Ça peut utiliser des variants des modules NLP, mais ce n’est pas nécessairement 100 % du NLP.
OK. Super.
Question de Frédérico : « Est-ce que le ASR fait partie du NLP ou est-ce deux trucs distincts? »
Je ne sais pas. C’est quoi, par contre, ASR?
Frédérico, est-ce que tu peux nous aiguiller là-dessus?
« Automatic speech recognition. »
Ça, c’est vraiment une question…
J’ai eu cette discussion-là récemment, justement, avec des collègues.
Le problème avec la langue, c’est qu’actuellement, c’est que le problème n’est pas clairement…
Je vais reculer un petit peu.
Donc, quand on arrive et qu’on a une problématique qu’on tente de résoudre, un des premiers points pour définir c’est quoi la frontière, qu’est-ce qu’on est capable de faire, surtout dans l’aspect recherche et académique, c’est de dire, c’est quoi mon problème?
Est-ce que j’ai bien formulé mon problème?
Puis ensuite, est-ce que j’ai des données qui me permettent de bien répondre à mon problème?
Puis dans ce processus-là, actuellement, avec le speech recognition, on n’est pas encore dans une zone où est-ce qu’on peut dire qu’on est capable d’aller de l’avant de façon d’aller de l’avant de façon à vitesse grand V.
Je vais donner un exemple de ça qui peut, comme, montrer qu’est-ce qui s’est passé.
Les premières avancées en deep learning, ça a été beaucoup avec la vision numérique, qui était finalement juste des chiffres qui étaient écrits à la main, puis c’était tenter de classifier c’était quoi le nombre qu’on voyait.
D’un coup que tout ça a commencé à apparaître, puis il y a des gros autres « datasets » qui sont apparus aussi, qui étaient finalement des chiens, c’est une photo de chien, une photo de chat, un avion, tout ça.
Quand ça a commencé à apparaître, c’est qu’on a bien défini notre problème, on avait des données pour répondre à notre problème, puis là, c’est arrivé vers les premières grâces avancées qu’il y a eu, a été principalement avec ces données-là.
Le speech, on n’est pas encore là.
Pourquoi? Parce qu’on a beaucoup, beaucoup, beaucoup de différences de prononciation.
On ne parle pas nécessairement tous de la même façon, il peut y avoir des acronymes qu’on utilise de façon différente, il y a beaucoup de langages communs qu’on va parler, ce n’est pas dans une structure, on peut couper des mots, on peut faire ça.
Le problème n’est vraiment pas encore bien défini, les datasets ne sont pas du tout présents.
Donc, ça peut rentrer techniquement dans le NLP, mais ce n’est pas encore pleinement écrit dans le NLP.
Hum.
Super intéressant.
On a une autre question, cette fois-ci de Matthias Sesboüé : « As-tu des conseils pour prendre en compte les ressources de l’entreprise, intellectuelles et matérielles, dans les choix d’approche dans les projets NLP? »
C’est quand même, c’est une grosse question quand même.
Par exemple, je vous dirais, moi, l’approche que je fais toujours quand je fais des projets, la première chose que je fais, c’est de dire, c’est le fond, on a un problème.
On pense qu’on a un problème, surtout en fait.
On tente de trouver une solution.
Des fois, on va essayer d’aller vers du techno-solutionniste, disons un peu, on va essayer, on parle de la grosse techno, du truc qui paraît « cool ».
Mais je commence toujours par me ramener, c’est quoi la chose la plus simple que je peux faire
pour résoudre mon problème?
La chose qui pourrait être la plus stupide.
Je vais donner un exemple simple, j’avais mon problème, un problème de recherche que j’avais à faire, c’était à partir du nom d’une entreprise, je tentais de trouver dans une base de données, si cette entreprise-là s’y trouvait.
Sauf que je n’étais pas propriétaire de la seconde base de données, c’était des données textuelles, donc je n’étais pas capable de contrôler ou de savoir faire une recherche classique.
Il fallait vraiment que je compare chacun des noms.
Je suis allé, je me suis dit, je vais juste comparer le nom écrit tel quel avec tous les noms qui sont disponibles en base de données et comparer tel quel.
Dans 50 % des cas, j’étais capable d’avoir la bonne réponse.
Je ne suis pas allé avec… c’est super simpliste comme méthode.
J’ai fait OK, ça c’est la première chose que je peux faire.
Ensuite, pour les autres outils qui restent à faire, c’est définitivement, soit d’avoir une expertise à travers ça parce qu’il y a beaucoup de méthodes qui se font.
C’est la place que ça prend un expert du NLP, probablement, qui vienne vous aider pour trouver ça.
Il y a de plus en plus de solutions qui commencent à se développer, mais le NLP n’est pas encore pleinement mature de ce côté-là.
Donc, des fois, il faut le développer à l’interne.
C’est-à-dire qu’un processus de trouver les solutions possibles, c’est une recherche de la littérature finalement qui existe.
Je vous dirais que je n’ai pas envie de faire une liste exhaustive des solutions qui existent, mais il y a des façons de le faire autres que simplement se garracher n’importe où, si je peux utiliser un terme en bon français.
OK, super.
Parfait.
Dans ce que tu vois en ce moment dans l’industrie ou dans le monde, c’est quoi les applications actuelles du NLP qu’on rencontre le plus?
Hum.
Je vois que Mathias a parlé justement qu’on n’a pas les mêmes ressources que Google.
Effectivement.
Je dirais que dans les applications que je vois qui sont les plus proches ou prometteuses pour, je dirais, la PME classique, c’est vraiment l’extraction d’informations.
C’est-à-dire que je veux récupérer l’information qui pourrait être perdue dans des rapports, ça fait des années que j’accumule, que j’adore dans un serveur à quelque part, puis que j’ai peut-être des interactions avec la clientèle que je ne suis pas capable de capturer.
Finalement, ça pourrait être des notes.
J’ai un client qui me contacte, j’ai un agent qui prend des notes sur l’interaction avec le client.
J’aimerais savoir si le client était satisfait ou est-ce que le client demandait quelque chose de plus ou est-ce qu’on est où par rapport à cette réaction-là?
C’est difficile à utiliser actuellement les systèmes à vraiment, si on veut, en bon français, « leverager » cette ressource-là pour amener les systèmes plus loin ou améliorer la relation avec le client plus loin.
Le NLP, c’est une des méthodes d’aller chercher, c’est une des méthodes d’aller chercher cette information, extraire dans le texte cette information-là.
Souvent, dans ce type de données-là, on ne suspecte pas la quantité d’informations qui peuvent être présentes.
C’est actuellement ce qui est, je vois, qui est le plus utilisé dans les entreprises qui tentent de faire ça parce que c’est relativement à la portée de la main.
On a souvent beaucoup de données comme ça, ça peut créer une bonne valeur, ça ne nécessite pas nécessairement beaucoup d’investissement à développer ça, puis ça ne demande pas d’avoir des trucs comme Google qui sont immensément des serveurs qui sont immenses pour faire ça.
Ça se fait relativement simplement.
Donc, c’est extraire l’information de qu’est-ce qu’on a pour la classifier d’une certaine façon.
Exactement, c’est très bien résumé.
Chatbot, un autre, définitivement une approche qui est très, très populaire présentement, pour avoir un « flow » de discussion qui pourrait être avec le client ou avec même des agents à l’interne.
Je dis donc que j’ai de l’expertise à l’interne que je ne suis pas capable de reproduire par cet employé-là, je ne peux pas le dupliquer ou ça me coûte cher de le former, mais c’est d’avoir finalement juste une interface qui me permet plus rapidement de répondre à des questions de mes ressources internes avec cette personne-là qui est très qualifiée dans un secteur.
Une autre situation qui est vraiment présente aussi, qui commence de plus en plus à apparaître aussi, je dirais qui est accessible maintenant, c’est la traduction automatique.
Ce n’est pas parfait définitivement par rapport à un humain, mais c’est souvent par exemple une bonne « baseline », excusez le jeu de mots, mais une bonne « baseline » à, avec, sinon on veut de la traduction, pas besoin nécessairement d’une traduction, on pourrait commencer juste par ça, on prend un système comme Google Translate, il y a Deepl qui existe aussi, on fait une première passe, on est capable de faire un premier processus, puis ensuite on peaufine.
Ça peut sauver du temps, ça peut être un bon outil, puis c’est de plus en plus intéressant, surtout quand on veut faire des affaires à l’international.
Disons que nous autres au Québec, on parle de base français, on aimerait ça faire affaire avec un autre pays qui est en espagnol, on peut-tu trouver une ressource qui nous permet de minimiser les coûts de traduction sans aussi faire des erreurs qui sont peut-être pas acceptables, disons, fait que c’est une façon aussi qui peut être vraiment intéressante, puis qui commence à vraiment s’implémenter dans les entreprises.
Ok, mais ça m’amène à la question que j’avais, la prochaine question que j’avais pour toi, tu sais, la traduction du français vers l’anglais ou vers le français, tu sais, ça fait des années qu’on en entend parler, puis même quand on utilise Google Translate, c’est pas toujours super, mais penses-tu vraiment qu’on va y arriver un jour, ou ça va prendre combien de temps?
Je pense qu’on a fait énormément de progrès, puis je dirais qu’actuellement, je pense que les nouveaux progrès qui sont intéressants, surtout dans la traduction, c’est qu’au début, c’était un système de règles, comme je disais un peu plus tôt, puis c’était vraiment des règles très difficiles à maintenir, très difficiles à aller chercher, puis on perdait souvent le fil de la phrase, ou quand le texte venait trop long, on perdait vraiment le fil.
Actuellement, si tu prends une phrase, tu l’envoies dans Google Translate, tu as relativement un bon résultat.
La phrase est vraiment bonne.
C’est quand tu commences à avoir un plus gros paragraphe, un document complet, que là, il manque un essence à quelque part, il a perdu le sens, il manque le contexte finalement.
Puis ça, le contexte, c’est vraiment actuellement la frontière du NLP.
Aller chercher le contexte de tout ce qu’on veut dire.
Une phrase, ça a un sens, effectivement, mais cette phrase-là, dans quoi qu’elle s’imbrique, les systèmes NLP sont rendus là, sont rendus à essayer de prendre conscience de ça.
Ça fait que ça, quand ça, ça va venir, ça va atteindre un autre niveau en termes de traduction.
Mais actuellement, effectivement, les systèmes ne sont pas là, et c’est un petit peu pour ça que c’est intéressant d’avoir des organismes comme Google, qui finalement développent beaucoup de ressources pour ce genre d’approche-là, parce que pour eux, ils ont un gain, c’est vraiment là qu’ils vont chercher de nouveaux gains.
Mais effectivement, pour la PME d’ici, ce n’est pas quelque chose qui est accessible de pouvoir développer un système comme ça, à moins d’avoir plusieurs millions à vouloir investir là-dedans, que ce soit vraiment le nerf de la guerre de l’entreprise, ce n’est pas ça qui s’en vient présentement. Il y a des gros progrès quand même.
Juste un rappel à tout le monde pour les questions, vous pouvez utiliser le « chat » pour les poser.
Donc, Nick, on comprend ton retard, mais n’hésite pas à les poser, puis on va y répondre au fur et à mesure de la discussion ou durant la période de questions à la toute fin.
On en a une d’Éric Caouette qui dit : « Selon vous, quelle méthode serait la plus efficace entre la recherche par mots-clés versus par concept sémantique, et quelle est la différence? »
Je vous dirais que ça dépend vraiment de ce qu’on cherche à aller chercher.
Si, disons, c’est juste une base de données quelconque, j’ai juste des données, des données textuelles, puis je cherche juste des mots-clés qui pourraient apparaître dans les documents, une recherche par mots-clés, définitivement intéressant, parce qu’on pourrait finalement aller tout chercher les mots-clés pertinents dans chacun des documents, construire un index, puis aller chercher ces mots-clés-là.
La différence avec la recherche sémantique, c’est qu’on peut se tenter d’avoir un expert qui nous dit, voici l’arborescence des mots, voici comment tel mot veut faire référence à ça, tel concept, donc il y a un processus d’expertise qui doit venir en place.
L’avantage de la première, très simple à implémenter, facile à faire, relativement facile à faire, relativement facile à implémenter, sauf qu’on n’est pas capable d’aller capturer, justement, cette essence-là de la relation entre les mots. Par exemple, quand je parle de Python en programmation, je parle du langage Python, pas de l’animal, donc comment on va chercher finalement cette intuition-là?
Avec le second, définitivement, ça nous prend un expert, donc ça veut dire qu’il y a des coûts qui sont associés à ça qui sont différents, peut-être un peu plus difficile à implémenter, à maintenir, excusez-moi, c’est vraiment selon l’approche.
Si vous dites, moi je veux un système d’expert pour répondre à des besoins d’expertise à l’intérieur ou est-ce que j’y construis un arborescence, un système sémantique me semble vraiment intéressant pour votre approche.
Je me disais juste, c’est pour des clients, je veux qu’ils naviguent à travers mon site web, un service sémantique, non, excusez-moi, un système qui s’utilise à la sémantique, peut-être pas intéressant nécessairement.
Encore là, c’est de se ramener toujours à la problématique, l’outil qui semble le plus important pour répondre à la problématique.
OK.
Une autre question : « Est-ce que les « chatbots » font partie des modèles NLP? »
Définitivement, ça va surtout être classé en fait dans le Natural Language Understanding, NLU, qui est plus de dire, l’utilisateur a une intention, il communique avec des mots, moi je vais essayer de comprendre c’est quoi qu’il veut dire avec sa phrase, puis à faire référence à mon modèle à l’interne pour aller le diriger vers l’information pertinente.
Je donne un exemple, mettons, disons vous allez sur le site de l’Agence du Revenu du Canada, puis là vous voulez savoir « Voyons, j’ai vu ça à quelque part que si j’ai tel problème ou j’ai telle chose qu’il y a un article qui me permet de déduire ça sur mes impôts. »
Où je trouve ça dans cette panoplie d’informations-là ? »
Très difficile.
Je peux avoir un chatbot qui me dit : « C’est quoi votre question? »
OK, mon intention, c’est ça, je formule mon intention, lui il va faire une recherche finalement à travers l’information qu’il connait, puis être capable de me diriger vers la ressource pertinente. Donc il n’y a pas d’interaction humaine, on est capable de finalement chercher automatiquement l’information.
C’est un outil, un outil qui m’aide à aller chercher l’information. Il ne fait pas l’ensemble du travail, mais m’aide à aller chercher l’information.
Voilà. Excellent.
Ça répond à la question, j’imagine ?
J’aimerais ça te demander, dans le fond, comment tu vois ça, c’est quoi selon toi l’impact de l’intelligence artificielle sur les systèmes ou les logiciels commerciaux actuels?
On a vu, entre autres, assez récemment l’achat d’Element AI par ServiceNow.
Comment tu vois ça, c’est quoi l’impact?
Comment tu vois les prochaines années par rapport à ça?
Je pense qu’il y a plusieurs choses qui vont se faire. Dans un environnement informatique traditionnel, si on veut, si c’est un système qui est vraiment crucial sur la valeur que l’on apporte à nos clients, c’est mieux de le faire à l’interne.
C’est mieux de le faire à l’interne.
Si, mettons, je traduis des textes pour un client, ou c’est ça mon modèle d’affaires, j’ai intérêt à aller chercher le meilleur système possible.
Si, par contre, mes services sont supportés par ces trucs-là, ça peut être pertinent d’aller plutôt acheter finalement des logiciels. Ce qui risque d’arriver, c’est qu’il va y avoir des nouveaux logiciels qui vont se développer autour de services différents, ou des services qui vont juste intégrer de nouvelles intelligences artificielles, si on veut, ou des nouveaux systèmes d’intelligence artificielle.
C’est sûr qu’il y a un enjeu quand même de propriété intellectuelle souvent à travers ça. C’est ce qu’on voit actuellement.
L’exemple de l’Element AI, c’est qu’ils développaient des solutions où il y avait surtout un très gros bassin de talents qui ont été achetés par l’entreprise qui n’avaient pas vraiment ce qu’ils savaient.
Ils voulaient probablement intégrer de l’expertise qu’il y a dans ces solutions.
Il vient vraiment un petit peu plus de là le nerf de la guerre.
Si notre entreprise se base beaucoup sur des services qu’on a fait à des clients, où est-ce qu’il va être à la fine pointe, et que c’est ça qui fait la différence entre je vends ou je ne vends pas un client, c’est là peut-être qu’il faut avoir de nouvelles stratégies de développer.
Mais si, par contre, le service est plus pour supporter, on peut plus aller chercher des façons de mieux gérer à l’interne nos ressources, de mieux allouer nos ressources aussi, de mieux comprendre comment nos machines fonctionnent ou nos clients interagissent avec nous. C’est juste deux paradigmes qui risquent de s’installer de la façon dont c’est les logiciels.
Mais en dessous, je ne pense pas que ça change vraiment la « loop » classique si on veut des logiciels informatiques de la manière qu’ils vont être utilisés.
Juste des nouvelles features en fait qui se rajoutent.
On a une première, en fait on a une question d’Emmanuel qui dit « Dans un projet de compréhension texte document utilisant le langage naturel, les PME devraient s’attendre à débourser le plus pour quel processus? Qu’est-ce qui est le plus coûteux ou demande le plus de travail? »
Oh my god!
Très bonne question! Préparation des données, préparation des données, préparation des données, préparation des données. C’est ça qui va vous coûter plus cher, c’est ça qui va faire le plus mal.
Je vous dirais parce que « garbage in, garbage out. »
Si vous me dites, je vous donne un modèle qui a 50 exemples, puis je vous dis que sans ce modèle-là, je ne peux rien faire pour vous. Mais si vous donnez des bonnes données, puis ça représente vraiment qu’est-ce qu’on tente de faire par rapport au problème, ça fait toute la différence.
Moi, ça simplifie mon travail, puis surtout pour vous, vous avez une meilleure confiance de qu’est-ce que vous tentez de faire, c’est ça qu’on va répondre avec le modèle.
Fait que je dirais habituellement, moi dans mon processus de travail, 80% de mon temps va être dans trouver des bonnes données, m’assurer que les données sont adéquates à qu’est-ce que je veux faire, les nettoyer, les retravailler, les changer d’un bord, m’assurer que je ne fais pas, je n’ai pas des biais de discrimination à l’intérieur de ça, m’assurer que je respecte la confidentialité dans mes données, m’assurer que je n’ai pas des adresses de clients dans mes données, que j’envoie un modèle à disons, puis que je n’ai pas sécurisé ça.
Fait que ça, ça va être le cœur.
Puis développer les modèles, à peu près 15%, 5% qui va être alloué après ça à refaire la « loop » comme ça, itérative. Puis après ça, je ne parle pas du processus de mise en production, mais ça c’est juste dans l’aspect recherche et développement, 80% facilement de votre temps et des ressources va être alloué à trouver des bonnes données, les préparer comme il faut, puis pouvoir les utiliser.
Puis de recommencer la « loop », souvent, plusieurs fois.
Ok, intéressant !
On va passer aux enjeux, les enjeux du NLP en ce moment pour toi, c’est quoi les plus gros enjeux que tu vois maintenant, puis dans le futur?
J’aime bien ça, parce que présentement je fais justement un cours, un séminaire en droit sur comment le droit commence à avoir les enjeux possibles avec tout l’IA.
Puis il y a des premiers que moi je vois beaucoup, puis que qui est un peu plus par rapport à mon « background » aussi, de formation, je suis actuaire, puis l’imputabilité puis la qualification de la profession.
Ça devient difficile de se retrouver dans ce milieu-là, de savoir qui a vraiment les compétences nécessaires, puis comment on peut s’assurer que la personne qui fait un système a la responsabilité aussi de son travail, finalement.
Actuellement, il n’y a pas vraiment beaucoup de choses en place, ça commence beaucoup à se mettre en place avec les projets de loi qui sont actuellement développés justement par les différents gouvernements. Donc, c’est un enjeu actuel, la confidentialité, c’est définitivement un enjeu actuel qui, justement, encore des projets de loi qui se mettent en place pour un peu plus réglementer ça, puis d’avoir plus un « sandbox » de savoir dans quelle zone on peut travailler, finalement.
Puis un autre, j’aime bien aussi, c’est qu’actuellement, il y a deux discours. Il y a le discours, je pense qu’il fait un petit peu peur aussi, avec raison, d’automatiser l’ensemble, comme si on allait automatiser demain l’ensemble de la société, l’espèce de « On enlève des gens, on ne les fait plus travailler! », mais souvent les méthodes, bien tu sais, c’est un peu, ça ferait le « fun » si on continuait d’être payé, mais tu sais, de les faire disparaître, qu’est-ce qu’on fait avec ces gens-là, finalement?
Ben, de plus en plus, nous, ce qu’on voit beaucoup, c’est plus, tu sais, on ne parle pas nécessairement de remplacer encore le professionnel. Il y a encore, l’expertise est encore très nécessaire, mais surtout d’offrir des outils pour le supporter dans ses activités.
Un, comme je l’ai dit, c’est que les modèles actuellement ne comprennent pas beaucoup le contexte. Donc, je donne un exemple, mettons que vous allez voir un avocat qui serait un robot, puis qui ne comprend pas bien votre contexte, puis finalement, vous êtes accusé, puis là, bien finalement, si ça avait été un vrai avocat, vous êtes, tu sais, là, il y a comme un enjeu qui est vraiment important, mais souvent, ça peut être par exemple, l’avocat pourrait juste avoir une façon plus rapide d’aller chercher des textes qui fait référence au contexte de droit qui s’applique pour vous. Ça pourrait être vous, dans votre processus d’affaires, finalement, vous voulez contacter des clients, vous allez chercher l’information sur eux, ça pourrait être à travers votre base de données, mais sous forme de texte, plutôt que sous forme de champ, bien, on pourrait peut-être être capable d’aller chercher l’information.
Ou, comme je disais un peu plus tôt, de pouvoir avoir dupliqué, finalement, un expert dans votre entreprise, que vous n’êtes pas capable de reformer une autre personne comme lui, pour pouvoir répondre à des clients, à des personnes à l’interne.
Ça pourrait être ça, entre autres.
Oui, c’est pas mal, je dirais, les deux gros enjeux qu’on voit actuellement.
Avec l’imputabilité, en fait, je suis sûr que, en fait, moi, j’ai l’impression que ça va certainement aller vers une certaine forme de certification des gens qui travaillent en IA ou des produits qui intègrent de l’IA.
C’est peut-être ça, ouais.
Tu sais, en fait, on le voit dans l’informatique.
Là, maintenant, tu as des certifications pour à peu près tout.
Mais ça ne ne réglera pas certains problèmes de fond quand même.
Exactement.
Puis, un autre truc ici, c’est actuellement, il y a beaucoup de secteurs où est-ce qu’il y a de la certification, par exemple l’aviation, que je ne peux pas mettre n’importe quel modèle d’intelligence artificielle, puis juste que ce soit une boîte noire, puis dire « Ah ben, ça fait voler l’avion ». Non.
Il n’y a plus de telle décision à cause de tel motif, tel, tel, tel, etc.
Donc, c’est pour ça qu’il y a encore ce qu’on appelle « human in the loop », l’humain qui est encore dans le processus là-dedans, parce que les modèles ne sont pas encore pleinement certifiables. C’est-à-dire, je ne peux pas garantir que ce modèle-là, il va fonctionner dans tel contexte, il va faire telle décision dans tel contexte.
Mais beaucoup de recherches, actuellement, moi, mes travaux de recherche portent une partie sur ça, justement, de pouvoir certifier les modèles pour pouvoir avoir une certaine garantie de qu’est-ce qu’on va générer comme contenu à l’utilisateur pour dire que ce que je dis, excusez-moi le terme, ce n’est pas de la merde 💩. Je ne dis pas n’importe quoi.
Je dis quelque chose que je suis sûr que qu’est-ce que je dis, un humain aurait dit la même chose, finalement.
Donc, c’est un peu ce qui est vraiment important. Ça ramène à l’éthique, ça ramène à beaucoup de choses, finalement.
Pas juste prendre la techno, mettre ça en place et faire n’importe quoi.
C’est d’essayer de se penser de façon avant.
C’est quoi les dommages qu’on peut faire? Comment on peut bien l’utiliser? Puis, il y a un très, très, très gros courant actuellement vers ça, d’aller faire de façon la plus responsable. Il y a pas, et pas avoir, mettons, des drones tueurs automatiques, des choses comme ça, qui est vraiment mis en place par beaucoup, beaucoup, beaucoup d’acteurs beaucoup plus grands que moi à travers le monde par rapport à ça.
OK. On a Mathieu Halley qui nous dit: « Il existe certaines chartes d’encadrement de l’IA dans lesquelles les entreprises peuvent suivre des règles pour créer de l’IA inclusive et non biaisée ? »
Oui, effectivement.
Charte de morale est un exemple de ça.
Le gouvernement fédéral aussi, un document dont j’ai oublié le nom, qui est finalement, qui porte, c’est quoi, eux autres, la façon de leur vision de l’IA, il y a aussi, il y a un autre podcast dans lequel je m’implique, j’ai oublié le nom de l’auteur, c’est Karl Morch, je crois, je pourrais l’ajouter, qui est finalement un genre de, 50, si je ne me trompe pas, c’est 57 points qu’on peut juste essayer de dire en « check-list », de dire « Est-ce que je me suis assuré que ça a été respecté ? »
Puis là, finalement, juste faire un « check-list »+ de l’IA.
Nous, personnellement, c’est ça qu’on utilise à travers nos travaux de recherche et pour Baseline aussi, d’avoir un espèce de processus éthique.
On a un comité éthique à travers Baseline aussi qui permet de réviser justement avec un expert, en fait, 100% dédié là-dedans, qui permet justement de dire quand on lance un projet, c’est quoi les zones qu’on peut un peu se tromper, ou c’est quoi les zones qu’on n’a pas pensé, nous, en étant très, très, très technique, puis avoir une vue plus humaine par rapport au projet, ce qui permet d’assurer qu’on ne fasse pas des erreurs, ou du moins, si on fait des erreurs, on est conscient de qu’est-ce qu’on fait comme choix qui nous emmène à telle solution, puis on peut l’expliquer.
Nick Franco, on a vos deux questions, on va y revenir juste dans pas longtemps.
Tu travailles sur quoi en ce moment, David?
Peux-tu nous parler un peu, en fait, de ta thèse de doctorat, mais aussi qu’est-ce que tu fais en ce moment avec Baseline?
Oui, je vais commencer par ma thèse. Actuellement, moi, ce que je tente de faire, c’est avec la vente en ligne d’assurances qui est arrivée récemment sur le marché au Québec, avant, il y avait beaucoup le lien du courtier ou de l’agent d’assurance qui tentait d’expliquer un contrat à un client, donc, « Hey, cette clause-là, ça veut dire ça. »
Donc, là, si on fait une vente 100% en ligne, on perd un peu cette essence-là où on est obligé d’y donner un texte qui est très lourd, qui est plus difficile à lire.
Donc, moi, ce que je tente de faire, c’est de pouvoir générer un résumé de ce contrat-là qui est plus lisible et qui est dans un langage courant qu’on puisse comprendre.
Il n’y a pas des termes extrêmement avancés ou des termes extrêmement pointus en droit, mais des termes plus communs, puis que ce résumé-là puisse être généré spécifiquement à un utilisateur. C’est-à-dire que moi, je n’aurais pas le même résumé que toi, puis à travers ça aussi, de pouvoir certifier ce modèle-là. Le texte qui est généré par ce modèle-là, on est sûr qu’il ne va pas à l’encontre d’une loi, il ne va pas à l’encontre du texte original, puis l’AMF est capable de dire « Oui, on accepte. ».
Excusez-moi, l’AMF étant l’Autorité des Marchés Financiers qui réglemente le domaine de l’assurance au Québec, peut dire « Oui, ce que ton modèle, nous autres, on accepte, on dit qu’il est certifiable, qu’on a des garanties qui sont intéressantes, statistiques. » et pouvoir faire ce modèle-là sur plusieurs types de contrats différents.
Donc, grosso modo, ça ressemble à ça le plan, j’espère bien pouvoir terminer prochainement ou avancer ça, puis pouvoir avancer plus d’avancement, mais c’est un processus qui est un petit peu plus lent que le domaine privé.
Pour ce qui est avec Baseline, moi, je porte deux rôles principalement, je l’ai dit un peu plus tôt, je suis chercheur, donc finalement, c’est d’arriver et de dire, ben, on a un problème avec un client, comment on peut attaquer ce problème-là, c’est quoi les solutions possibles ?
Ça ressemble à quoi l’état de l’entreprise au niveau de l’IA, c’est quoi les données qui sont en place, qu’est-ce qu’on peut faire avec les données que vous avez en place aussi au niveau de l’entreprise, qu’on pourrait « leverager », encore un terme français, ou les utiliser de façon intelligente pour pouvoir créer de la valeur pour l’entreprise, et je suis aussi Président du conseil d’administration, donc avec notre modèle, qui est finalement plus la vision stratégique, donc c’est où qu’on veut aller, c’est quoi les ressources qui seraient intéressantes à aller chercher, c’est quoi qui correspond plus aux besoins des entreprises aussi pour pouvoir aider la PME de demain à être plus…
… Je cherche mon mot !
Plus utile?
Pas plus utile mais plus compétitive.
C’est ça que je cherchais.
Avec les autres entreprises internationales ou locales.
C’est pas mal ce à quoi je me concentre, dans mes semaines, dans mon agenda chargé.
Excellent, c’est bon à savoir.
Si les gens qui sont avec nous veulent te contacter aujourd’hui… S’ils veulent prendre contact avec toi, comment on te rejoint ?
Deux méthodes super simples. LinkedIn définitivement. Mon nom c’est David Beauchemin.
J’ai la page David Beauchemin.
Il n’y a rien d’autre après.
Juste marquer David Beauchemin sur LinkedIn, ça va être moi.
Sinon par courriel, voir le site web de Baseline.
Je réponds à mes courriels puis avec ça, on va pouvoir entrer en contact.
Sinon je peux aussi donner mon numéro de téléphone.
Et par téléphone, voir le site de Baseline.
514-…
Absolument.
Bon, super.
On va passer maintenant à la période de questions.
Alors, si vous voulez vous manifester par audio, en fait, ou par vidéo, vous pouvez juste utiliser le petit symbole de la main dans les émoticons.
C’est le premier, donc c’est pas très compliqué.
Ça va nous faire plaisir de répondre à votre question. En fait, on va y aller peut-être avec la…
On en a une de Nick Franco qui disait « L’objectif est de démocratiser l’accès aux professionnels francophones hors Québec. Trouver, publier, monétiser notre avantage linguistique. Comment est-ce que l’IA peut nous aider vers cet objectif? »
Bien, ce que je comprends à travers ça, c’est de voir les professionnels qui sont au Québec, on tente de leur donner une visibilité à l’international.
Est-ce que c’est ça, Nick? Juste être certain parce que ça va changer un petit peu ma réponse pour la suite.
Non?
Oh, bon, tu vois, c’est une bonne chose que j’ai validée.
Le contraire. Donc, en fait, c’est d’aller chercher les experts à l’international qui sont francophones pour aider les entreprises, c’est ça?
Au Canada, surtout.
OK. Donc, les autres experts au Canada qui sont francophones à l’extérieur du Québec pour pouvoir aider les gens au Québec.
Bien, ça, je dirais, malheureusement, vite comme ça, je ne vois pas nécessairement en quoi l’IA pourrait contribuer en dehors d’un bon processus de référencement sur Google, peut-être, ou d’avoir une quelconque…
En fait, OK, donc, c’est pas vrai. Il y a deux façons qui pourraient être faites. Premièrement, comme je disais, c’est qu’il faut aller chercher les données. Fait qu’il faut trouver ces 200 000 professionnels environ, puis ça, ça implique comme d’aller probablement trouver un registre, créer un registre, d’aller « scraper » des sites web à l’extérieur. « Scraper » étant, je m’en vais « crawler », chercher l’information sur des sites web.
Puis construire une espèce de base de données qui pourrait permettre d’avoir un portail où est-ce que les gens pourraient rechercher ces professionnels-là. Mais en dehors de ça, j’ai pas l’impression qu’actuellement, avec ce que je vois, l’IA peut vraiment être un vecteur de changement dans le projet, autre que juste finalement d’aller chercher les données par des méthodes classiques de recherche sur Google ou de, vous, finalement créer cette espèce de moteur de recherche-là.
Là, c’est sûr que c’est une question quand même sur un « chat ». Ça fait que peut-être on pourrait en discuter plus personnellement, là, voir qu’est-ce qui est possible d’être fait. Mais actuellement, je vois pas nécessairement de la place pour que l’IA puisse rentrer de façon intéressante pour vous.
OK. Sa deuxième question, c’est : « J’ai des données sur un annuaire, environ 6 000 inscriptions en termes de MySQL. Je désire que ces données soient les mêmes sur Zoho CRM. Est-ce difficile de consolider ces données? »
Juste un processus d’ETL classique, là, en fait.
Ça peut très bien se faire. Surtout, c’est en MySQL. Je connais pas, en fait, Zoho CRM, mais je dirais que c’est sensiblement un processus de prendre des données et d’essayer de transposer vers Zoho. Je dirais que c’est peut-être de regarder avec Zoho, ça va prendre probablement de la programmation ou des trucs comme ça. Mais encore une fois, l’IA et NLP, je vois pas nécessairement de quoi qui va pouvoir servir ici, dans ce contexte-là.
Ouais, en fait, je pense que peut-être tu peux peut-être regarder du côté de Zapier, qui est une plateforme qui permet de « plugger » ensemble tout un paquet de systèmes puis d’intégrer les données.
Ça fait que c’est peut-être une option pour exporter facilement de MySQL vers Zoho pour un « one-shot » ou de façon régulière.
Bon, voilà. Est-ce qu’on a d’autres questions du public?
« Des conseils, des exemples pour faire participer l’entreprise dans la libéralisation
des données ? »
Il y a plusieurs façons intéressantes. Là, ça dépend de ce qu’on cherche à avoir comme approche puis c’est quoi aussi l’implication des gens.
Il y a eu une méthode entre autres.
Là, en termes de technique, c’est le CocoDataSet qui s’appelle, qui est finalement plein de données qui sont « labelées » de différentes photos. Puis, ça a été fait par les Captcha.
Je ne sais pas si vous savez, mais quand vous faites un Captcha sur Internet, souvent, vous annotez des données. Ça vous dit « Annoter des photos avec un autobus ». Bien, c’est quelqu’un derrière qui veut faire valider que les données, si c’est des autobus qu’il y a dessus, c’est que des luminaires. Même chose aussi, c’est une façon de « crowdsourcer » l’information. Finalement, un problème qu’on tente de faire d’annotation.
C’est vrai, ça. Je n’avais même pas pensé à ça.
Bien oui. Ça fait longtemps qu’ils font ça !
Ça fait 15-20 ans à peu près qu’ils ont commencé à faire ça.
Puis, c’est ingénieux en soi. Ensuite, si on veut faire annoter, il y a des applications qui existent, que puis finalement, vous avez, si on veut, une espèce d’interface que vous allez faire passer des données, puis vous allez avoir un processus que les gens vont pouvoir annoter les données que ce soit faire.
Par exemple, je vais y aller avec des images, c’est plutôt plus simple.
Non, je vais y aller avec un texte, par exemple, qu’on voudrait, dans un texte, identifier le nom d’un client s’il apparaît dans un texte. Donc, on pourrait juste demander à quelqu’un de passer un curseur pour sélectionner l’information. Il y a plusieurs plateformes qui existent.
Je ne les connais pas toutes au-dessus de ma tête, nécessairement celles qui existent. Il y a des enjeux aussi qui doivent être pris en compte. Par exemple, si on a un annotateur qui n’est pas fiable ou non,
Comment on peut évaluer sa fiabilité? Comment on peut reconfirmer, remettre les informations en place?
Il y a des plateformes, par exemple, comme Amazon offre une plateforme vraiment, vraiment complète pour ça, qui charge un léger frais par rapport à ça, qui peut permettre, c’est possible de le faire à l’extérieur, mais si vous voulez le faire à l’interne, je vous dirais qu’il n’y a pas vraiment de façon d’engagement souvent autre que monétaire dans ce genre de contexte-là, à moins que vous voulez faire un genre de capture camouflée à l’interne. Il faut voir au niveau ici, se poser la question si c’est éthique ou non, mais il y a des plateformes qui peuvent définitivement vous aider à faciliter ce processus-là.
Vous pouvez même faire la vôtre aussi, qui serait Prodigy, qui est une plateforme qui existe entre autres avec une licence payante, mais il n’y a pas les serveurs nécessairement en arrière qui peuvent supporter l’infrastructure informatique derrière. Donc, Amazon est entre autres un service chez qui offre par rapport à ça, mais il en existe certainement d’autres. On pourrait aussi, sûrement qu’Azure en a un aussi, on pourrait effectivement discuter dépendant de vos besoins, peut-être un peu pour vous accompagner dans ce processus-là chez Baseline.
OK. Une autre question, Frédérico, cette fois-ci : « Existe-t-il des compagnies ou coopératives facilitant le rapprochement des entreprises et des recherches IA afin de créer des projets appliqués, notamment dans le monde du média et « entertainment », le divertissement? »
Nous, c’est un peu le mandat qu’on s’est donné chez Baseline et finalement, nous autres, on est pour la plupart des étudiants gradués ou troisième cycle qu’on tente vraiment de pouvoir prendre ce qui est sur les tablettes de l’académique et de le transposer, si c’est pertinent, dans une entreprise, faire du transfert technologique.
Dans le média et « entertainment », il faudrait voir exactement qu’est-ce qu’on entend par là, c’est quoi exactement qu’on veut faire, mais définitivement, par exemple, j’ai un collègue qui travaille beaucoup dans la génération de texte. Donc, à partir d’un contexte, par exemple, je veux un article journalistique qui va parler de telle personne, telle chose, générer un texte complet. À partir de là, on peut avoir un journaliste qui reprend ça et qui tente d’améliorer le contenu avec des phrases plus complètes ou changer les erreurs s’il y en a.
Donc, un moyen de faire des choses vraiment intéressantes avec ça.
Il y a des entreprises qui existent, nous, on en est une.
Je pourrais effectivement en donner d’autres qui existent.
Ce n’est pas ce qui manque actuellement, il reste à voir vraiment plus c’est quoi la spécialité qu’on veut faire, mais nous, c’est sûr que si c’est des données NLP qu’on tente de générer.
On a une très forte expertise chez Baseline pour ça.
Puis, ça donne qu’on est effectivement une coopérative de travailleurs aussi qu’on a décidé de se regrouper entre nous pour offrir des services à des clients exactement dans ce contexte-là.
Donc, tu pourrais me contacter et on pourrait discuter de tout ça.
Moi, je vais me mettre disponible après dans les deux prochaines heures.
Si vous voulez me contacter, on pourrait se parler sur Zoom aussi.
Juste m’écrire sur LinkedIn, courriel, puis on pourrait se faire une petite rencontre pour discuter de la possibilité chez vous.
Une belle ouverture. On a une question d’Emmanuel maintenant : « Est-ce que les PME doivent s’inquiéter des principes FAIR, Findable, Accessible, Interoperable, Reusable, pour leurs données textuelles, ou est-ce que cela concerne plutôt les grosses industries et le milieu académique? »
Super bonne question.
Excellente question.
Je ne suis pas un expert des principes FAIR.
Je les connais bien. J’ai assisté à quelques présentations, entre autres par Philippe Després, qui est le gourou, si on veut, à l’Université Laval sur les principes FAIR.
Définitivement, en fait, je crois que toutes les entreprises devraient commencer.
C’est juste un avis personnel.
Moi, je crois qu’il faut vraiment commencer à adhérer aux principes FAIR, entre autres parce que si on veut développer une culture d’utilisation de l’informatique, il faut avoir une meilleure façon de travailler que de mettre ça dans les fichiers Excel qui traînent sur des disques durs, le serveur, ou si c’est des ordis personnels d’une personne, et qu’on n’est jamais capable de les retrouver.
On perd des données, il faut toujours arrêter les données, il faut toujours faire un processus qui est constamment…
On n’est pas capable de mieux travailler que ça.
C’est sûr que les données textuelles ont une petite différence par rapport à son type de données parce que souvent, c’est juste un texte complet qui n’est pas structuré.
Puis, il y a moyen d’essayer d’extraire cette information-là pour ensuite peut-être appliquer un peu plus les principes FAIR sur comment on va séparer l’information.
Donc, définitivement, les principes FAIR, il faut les utiliser.
Pour les données textuelles, dépendant d’où on est dans le processus avec la donnée, peut-être que c’est un petit peu moins pertinent s’ils ne sont pas notés, par exemple, mais définitivement, il faut le faire.
Au milieu académique, je crois que c’est la même chose.
Il faut que ça le fasse.
Puis, les grosses entreprises aussi.
Mais les PME, je pense que c’est plus difficile peut-être de le faire parce qu’on n’a pas nécessairement les ressources pour le faire.
Donc, j’ai vraiment hâte de voir comment tout ça va évoluer finalement pour peut-être un peu plus simplifier ces processus-là.
Puis, des fois, c’est peut-être juste d’essayer de réfléchir un petit peu aux méthodes différentes.
On est très habitué, je pense, avec les classeurs, les tableurs, CSV.
Il existe d’autres façons d’encoder des données ou de regarder des données.
Des fois, c’est peut-être juste faire une petite recherche pour trouver cette information-là qui pourrait, dans le futur, nous rendre, nous faciliter un petit peu la vie.
Mais c’est définitivement quelque chose qui est à considérer, mais qui n’est pas nécessairement le nerf de la guerre encore ici.
Dépendant d’où on est rendu dans le processus avec les données NLP.
C’est super intéressant.
Méchante bonne question !
Bon, écoutez, il nous reste encore 9 minutes.
Si vous avez d’autres questions, n’hésitez pas à utiliser le « chat ».
On peut vous donner aussi la parole si vous levez la main en utilisant l’émoticône de la petite main.
Donc, n’hésitez pas.
On va voir si on a des questions.
Peut-être, je vais peut-être juste préciser que je vais partager en fait l’hyperlien dans la chaîne YouTube de L’Éclaireur.
Si jamais vous voulez regarder ce webinaire-ci, il va être en rediffusion sur cette chaîne-là.
Puis, vous pouvez aussi voir des extraits et les webinaires passés Qu’on a eus sur différents sujets, entre autres sur l’IA.
Donc, voilà.
Est-ce qu’on a d’autres questions ou on va fermer?
En fait, bon, on en a une ici « Selon vous avec l’arrivée du PL-64 et C-11, comment l’IA peut venir appuyer les entreprises dans la gestion de leurs données? »
Je ne suis pas expert.
Je sais de quoi on parle ici, mais je ne pas assez un expert en termes juridiques pour répondre à ça.
Malheureusement, moi, personnellement, je ne suis pas assez un expert.
C’est sûr que ça va avoir un impact sur les entreprises, de ma compréhension, de ma lecture, de ce que j’entends des discussions.
Je suis beaucoup Pierre-Luc Déziel, entre autres, à l’Université Laval.
Puis, je travaille beaucoup avec une collègue aussi qui est en droit, qu’on discute un peu de ces échanges, de ces questions-là.
Je crois que ça va avoir un impact.
Ce que j’ai compris aussi, c’est de l’impact, c’est de l’interprétation aussi de qu’est-ce qui était fait avant.
Puis, qu’est-ce que la nouvelle loi va amener, qu’il y a des choses qui vont changer.
Une collègue m’avait donné un exemple, entre autres, qu’avant, quand il y a eu le niveau du consentement, il n’était pas nécessairement, tous les termes n’étaient pas précisés.
Par exemple, des fois, on va faire des mises à jour des serveurs, puis les données vont être stockées de telle façon.
Puis, avec la nouvelle formulation de la loi, on semble pouvoir dire que dans ce cas spécifique-là, il faudrait vraiment expliquer au client que son consentement, ça va jusque-là.
Donc, là, ils sont comme nous autres en train de reconsidérer le fait comme « Hey, on a-tu mal interprété la loi depuis les 20, 30 dernières années que cette loi-là existe, puis on est peut-être dans le trouble ? »
Donc, il y a un petit peu ça.
Et là, je pense que ça fait ouvrir un peu l’espèce de, si on veut la boîte de Pandore comme « Oh, je pense qu’on avait mal compris. »
C’est sûr qu’il y a des termes qui restent encore à définir et des termes qui restent incertains sur l’anonymisation, désanonymisation.
On ne peut pas…
Actuellement, il n’y a personne qui va garantir qu’une donnée est 100 % anonymisable parce qu’il y a toujours moyen de la retrouver d’une certaine façon.
Beaucoup d’études qui sont dans ce sens-là, beaucoup de travaux qui ont démontré ça.
Donc, si on reste accroché à cette définition-là, ça se peut que ça devienne problématique.
Dans le sens qu’on ne pourra peut-être presque plus utiliser de données ou sensiblement plus.
Donc, il va falloir du travail qui reste à définir, de ce que j’ai compris.
Là, c’est toujours dans ma lecture.
Je ne suis pas un expert en droit.
Il reste des définitions à aller peaufiner un petit peu.
Mais certainement, ça va probablement changer la façon qu’on utilise la donnée.
Puis, de savoir aussi que les données prévisites vont être aussi des données confidentielles.
Donc, il va falloir qu’on retravaille un peu.
« Lles deux gros dossiers sont effectivement le consentement et aussi les outils festant le droit à l’oubli. »
Exactement, c’est ça !
Le droit à l’oubli aussi, c’est vraiment, vraiment intéressant.
Ça, je pense que ça, ça sera probablement ce qui va être peut-être le plus difficile à implémenter pour les entreprises.
Étant donné que, je ne pense pas qu’actuellement l’entreprise est capable de cliquer sur un bouton et dire que ce client-là, on efface 100 % de nos données.
Puis, il n’a jamais apparu dans nos systèmes.
Ça se peut qu’il y ait effectivement des changements qu’il va falloir qu’on implémente dans nos systèmes.
Je ne suis pas au courant exactement comment tout va se mettre en place.
Ça peut avoir un impact effectivement sur les données quand vient le temps de parler de modèles qui ont été entraînés sur ces données-là.
C’est-à-dire que est-ce il va falloir réentraîner les modèles quand les données auront disparu ?
Toutes les questions qu’on va avoir, qu’on réfléchisse au moment qu’on va arriver là.
Mais certainement, ça va faire un changement.
Reste à voir si c’est un changement qui est vraiment très contraignant ou peut-être un peu plus permissif sur certaines choses.
Mais tout en respectant quand même la confidentialité et le respect aussi de l’individu sur lequel on fait des prédictions.
Mais oui, je pense que le consentement, ça va vraiment être intéressant.
Il y a des trucs aussi intéressants qui apparaissent.
Là, je fais vraiment un aparté sur quelque chose qui est encore un petit peu moins de mon expertise.
Ça, c’est deux projets de loi ou c’est des lois qui sont appliquées aux…
Deux projets de loi.
Donc, le PL-64, si je ne me trompe pas, c’est au Québec.
Puis, C-11, c’est au fédéral ou l’inverse.
Je ne suis pas au courant de ça, mais je crois que C-11, c’est au fédéral.
Puis, ça a un impact sur l’ensemble du Canada, mais aussi beaucoup au Québec.
Il y a des trucs, des concepts qui commencent à apparaître de manière intéressante qui sont les fiducies de données qui permettent aussi un peu plus d’avoir un meilleur contrôle sur l’assymétrie d’informations.
Moi, individuellement, j’en ai donné à Google, à Facebook, de façon gratuite.
Je n’ai pas de pouvoir contre lui.
Je ne peux pas vraiment arriver et dire : « Donne-moi de l’argent pour ce que je te donne. »
Donc, est-ce qu’il y a moyen d’agréger toutes les données du Québec peut-être sur l’utilisation d’Internet, puis d’essayer de le vendre ou d’avoir un processus de vente pour des données de recherche, pour des données privées, pour ci, pour ça ?
Je pense qu’il y a des choses intéressantes qui vont sortir de ça.
Puis, effectivement, ça va être à surveiller.
Peut-être même des nouvelles opportunités d’entreprises, d’acheter des données de façon…
Directement à des clients plutôt que…
Pas à tout le monde.
À un groupe de personnes qu’on peut acheter des données finalement de ces clients-là.
OK.
Éric complète en disant : « Des modifications aux lois existantes, et oui, PL-64 provincial et C-11 fédéral, est prévu pour un déploiement en 2022. »
Bon, exactement.
Merci de compléter parce que c’est moins mon expertise, la loi.
Je m’intéresse à ça parce que ça touche à mon sujet de recherche, mais je suis loin de pouvoir me prétendre un avocat ou un juriste.
C’est bon.
Est-ce qu’on a d’autres questions?
Si on n’a pas d’autres questions, on va mettre fin au webinaire.
On va vous laisser quelques secondes pour vous manifester.
Ça a l’air qu’on n’a pas de questions, mais en fait, on en a répondu plusieurs durant le webinaire lui-même.
Écoute, David, merci beaucoup de ta présence ce midi.
Merci de ta générosité et de ton temps que tu as passé avec nous.
Ça a quand même demandé une certaine préparation.
Écoute, moi, j’ai trouvé ça excessivement instructif.
J’ai appris beaucoup et je suis certain que dans notre audience, même si on avait des gens qui sont dans le domaine comme toi, je pense qu’ils ont aussi appris.
Ils ont appris peut-être pas autant que moi, mais ils ont appris pas mal.
J’espère bien.
Bon.
Notre prochain webinaire va traiter de l’Internet des objets.
Je vais avoir Sébastien Daupleix avec moi qui est de l’entreprise Uzinakod à Montréal.
Donc, on vous enverra le lien d’inscription.
On enverra le lien d’inscription plus tard au cours du mois de février.
Si vous écoutez ce webinaire-ci en rediffusion sur notre chaîne YouTube, n’oubliez pas de vous abonner.
Il y a un lien d’abonnement dans le bas de votre écran.
C’est à peu près ça.
Merci à tout le monde.
Content que vous ayez apprécié.
Merci des bons commentaires sur la qualité du webinaire.
Puis, David, encore une fois, merci et une bonne journée.
Merci à toi.
Bonne fin de journée.
Bye bye !
Vous aimerez aussi
Helene-Sarah Bécotte et Charles Demontigny : Quel potentiel pour l’intelligence artificielle dans la PME ?