Chacun peut constater, au moment de rentrer une chaine de caractères dans un moteur de recherche, à quel point la correction orthographique et l'auto-complétion ont fait des progrès continus depuis des années. Et il en va de même pour la traduction automatique, puisque le service de Google, fondé sur l'auto-apprentissage, a fini par éclipser Systran, la référence en matière de traduction « déterministe », c'est-à-dire fondée par des règles. Marketing prédictif, recrutement prédictif, justice prédictive..., le machine-learning s'étend désormais vers les applications professionnelles. Aucune grande entreprise ne peut plus ignorer le phénomène.

Se passer des règles de gestion

La « beauté » du machine-learning est de se passer de règles de gestion. Par exemple, le moteur de recherche ne sait pas comment un mot s'écrit ou se traduit, car il n'en connait pas le sens, il constate comment il s'écrit ou se traduit le plus souvent. Mais si la phase de spécification disparait, d'autres apparaissent. Contrairement aux projets informatiques traditionnels, ce type de projet a ses propres exigences méthodologiques.

Trois contraintes : volume de données, rareté des ressources et réglementation

Avant de se lancer, une étude de faisabilité doit être menée sans concession sur trois volets : les volumes, les ressources et la réglementation.

Le volume de données est la première des contraintes. Faire de l'auto-complétion ou de la correction orthographique est possible sur un corpus constitué à partir de milliards de requêtes émanant du monde entier. Les projets B2C à base d'objets connectés, susceptibles de laisser des traces informatiques à grande échelle, répondent aussi à ce critère du volume. Mais la recette qui a tant fait le succès de Google est loin d'être transposable à tous les secteurs économiques et à tous les cas. Particulièrement important est le volume initial, le stock de données à partir duquel l'apprentissage peut commencer. Il n'y a pas de miracle : une machine, au contraire d'un humain, n'a pas de QI, et n'apprendra rien à partir de rien.

Deuxième contrainte, les ressources. Les compétences requises sont plutôt plus rares et plus coûteuses que pour des projets informatiques classiques. Le support doit être aussi plus étoffé en période d'exploitation. Un projet de machine-learning n'est pas bon marché, même si, bien mené, il peut rapporter beaucoup.

Enfin, la contrainte réglementaire. Comme dans tout projet de données massives (Big Data), nombre de cas d'usage dépendent peu ou prou de données personnelles. Leur seul stockage peut faire l'objet d'un contrôle de territorialité, selon la législation du pays source. Leur anonymisation est délicate : trop parfaite, elle risque de faire perdre de l'intelligibilité aux autres données ; imparfaite, elle expose à un risque juridique et à des sanctions qui peuvent être très lourdes, au moins en Europe (4% du chiffre d'affaires ou 20 millions d'euros à partir de 2018), sanctions à rapporter au bénéfice économique attendu. Ajoutons que, au moins en France et dans le secteur public, le machine-learning se trouve ipso facto exclu des traitements susceptibles de fonder une décision affectant un individu, l'article 2 du projet de loi République Numérique, qui vient d'être définitivement adopté, imposant la transparence des algorithmes employés.

De bonnes données en entrée pour de bons enseignements en sortie

Une fois passé le cap de l'étude de faisabilité se pose la question de la méthodologie de constitution du stock.

Le délai de mise en production est d'autant plus court que le stock de départ est riche. A défaut, la capacité d'apprentissage de la machine dépendra du volume du flux de données ingérées et les débuts risquent de produire des résultats approximatifs. La richesse du stock dépend à la fois de la profondeur historique (le nombre de lignes) et de la complétude (le nombre de colonnes, c'est-à-dire d'attributs). L'entreprise s'appuiera sur ses archives informatiques, essentiellement constituées de données de production. Il est cependant probable que ses cas d'usage du machine-learning requièrent des données contextuelles complémentaires et qu'elle soit amenée à les chercher à l'extérieur. Elle doit alors travailler sur deux axes, les modalités de rapprochement des clefs d'identification (« mapping ») des données, et le contrôle de véracité des nouveaux attributs, pour assurer la qualité du stock, et partant, la qualité des enseignements qui seront tirés de l'apprentissage.

Un apprentissage de l'humain autant que de la machine

Après la mise en exploitation, commence une période de calibrage. Il s'agit de mesurer l'effet d'amélioration continue des enseignements, de détecter les corrélations fortuites entre données croisées et d'ajuster les traitements statistiques.

L'entreprise doit placer tout projet de machine-learning dans son informatique décisionnelle, non dans son informatique de production, tant que l'apprentissage se poursuit. Il est important qu'un analyste s'interface entre la production des résultats du machine-learning et les processus opérationnels de l'entreprise. Le machine learning peut guider une politique marketing ou la stratégie de l'entreprise, plus difficilement déclencher une action s'inscrivant dans une relation contractuelle avec un client, un fournisseur, ou un salarié : comment expliquer à un tiers qu'une action décidée à son endroit un jour aurait pu être différente la veille ou le lendemain ?