Actions

Nos Publications

Article

L’Intelligence Artificielle en 2020-2021 : pandémie, succès, défis et perspectives

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  

Malgré la pandémie de COVID-19, l’intelligence artificielle (IA) est restée une tendance clé pendant la dernière année et a même joué un rôle important pendant cette période de crise. Cet article propose une brève revue des grands succès de l’IA dans le contexte de la pandémie de COVID-19, des défis qui restent à accomplir et des perspectives pour l’année à venir.

Succès

En 2020, l’IA a continué à montrer des progrès importants dans de nombreux domaines tels que la vision par ordinateur, la reconnaissance vocale et la génération et interprétation de textes [1], qui ouvrent des possibilités sur un grand nombre d’applications en médecine, finance, sécurité et véhicules autonomes, entre autres. Même si 2020 a vu des avancements dans presque tous les domaines, il y en a deux pour lesquels les progrès ont été majeurs : l’utilisation de l’IA en biologie et le traitement du langage naturel.

Dans ces deux catégories, AlphaFold de DeepMind et GPT-3 d’OpenAI sont les modèles et algorithmes qui ont été les plus présents dans les médias. Le premier, AlphaFold, avec sa participation au concours d’évaluation critique de la structure des protéines (CASP, de son nom en anglais), a appliqué la technique de l’apprentissage profond ce qui a permis une avancée significative de plusieurs décennies sur la problématique du repliement des protéines. Il s’agissait d’un des défis les plus anciens en biologie. Le second, GPT-3, représente un des modèles les plus puissants pour le traitement du langage naturel jamais conçus. Mais les avancées dans ces domaines sont allées plus loin et ont joué un rôle important pendant la pandémie. Nous le verrons par la suite.

L’IA et la biologie :  La recherche classique puis le criblage à haut débit, qui consistait à rechercher à grande échelle et de manière robotisée des molécules actives dans des végétaux et des microorganismes, ont été abandonnés par les sociétés pharmaceutiques au tout début des années 2000, en favorisant la réalisation de criblages à grande échelle avec des molécules synthétisées chimiquement. L’apprentissage automatique (ML, de son acronyme de l’anglais Machine Learning) permet aux chercheurs de déterminer quels médicaments potentiels devront être évalués en laboratoire et le moyen le plus efficace de les synthétiser. Divers modèles ML peuvent apprendre des représentations de molécules chimiques pour la planification de la synthèse chimique. Cette approche offre un moyen de parcourir rapidement une liste de molécules candidates pour développer des médicaments in-silico et de produire des scores de viabilité et des plans de synthèse. Cela permet aux chimistes de prioriser les candidats pour une validation empirique et pourrait finalement permettre à l’industrie pharmaceutique d’exploiter le vaste espace chimique pour découvrir et développer des nouveaux médicaments.

Selon ce principe, le COVID Moonshot est une initiative de crowdsourcing visant à accélérer le développement d’un antiviral pour la COVID en s’appuyant sur des outils de ML pour déterminer les modèles de médicaments à fabriquer et tester en laboratoire [2]. Pendant la première semaine de son lancement, Moonshot avait reçu plus de deux milles soumissions qui ont permis de concevoir des alternatives synthétiques en moins de 48 heures. Des chimistes auraient mis entre trois et quatre semaines pour accomplir la même tâche.

Le traitement du langage naturel : Plus connu sous le nom de NLP (acronyme de Natural Language Processing), le traitement du langage naturel a vu des progrès rapides ces dernières années avec des capacités linguistiques considérablement améliorées qui ont commencé à avoir un impact économique significatif dans le monde. Google et Microsoft ont déployé le modèle de langage BERT dans leurs moteurs de recherche, tandis que d’autres grands modèles de langage ont été développés par différentes sociétés. Parmi eux, GPT-3 [3], un modèle développé par OpenAI, est un exemple remarquable. Dévoilé en juillet 2020, GPT-3 compte 175 milliards de paramètres et a été entrainé sur 570 giga-octets de texte. Cette augmentation d’échelle conduit à un comportement surprenant : GPT-3 est capable d’exécuter des tâches pour lesquelles il n’a pas été explicitement entrainé avec zéro ou peu d’exemples d’entrainement (appelés respectivement apprentissage zéro-shot et few-shot). Cette capacité d’être performant sur des tâches inconnues est une nouveauté qui n’existait pas dans les modèles précédents tel que GPT-2. Pour une grande partie des tâches (mais pas toutes), GPT-3 surpasse des modèles de l’état de l’art, qui ont été entrainés avec beaucoup plus d’échantillons ciblés pour chaque tâche.  Le fait qu’un modèle unique puisse atteindre des performances supérieures, égales ou proches de l’état de l’art dans un régime de données limité est impressionnant. La plupart des modèles jusqu’à présent ont été conçus pour une seule tâche.

Pendant la pandémie, les outils d’IA pour le traitement du langage naturel et structuré ont joué un rôle important dans le journalisme de vérification. Aussi connu comme le fact-checking et assez populaire dans la vérification systématique des affirmations de responsables politiques, les outils d’IA pour la vérification automatique des faits ont permis de valider des allégations textuelles sur l’impact et les effets de la COVID-19 [4,5] en contribuant ainsi à contrôler la propagation de la désinformation.

En 2020, l’IA a continué à montrer des progrès importants dans de nombreux domaines tels que la vision par ordinateur, la reconnaissance vocale et la génération et interprétation de textes, qui ouvrent des possibilités sur un grand nombre d’applications en médecine, finance, sécurité et véhicules autonomes

Maria A. Zuluaga, PhD

Défis

Au même rythme que les progrès technologiques permettent aux systèmes d’IA d’être déployés plus largement et plus facilement que jamais, le nombre de questions concernant l’utilisation de l’IA continue d’augmenter, en particulier lorsqu’il s’agit des aspects éthiques.  Nous discutons ici trois des aspects qui ont été palpables pendant cette dernière année : le manque de reproductibilité, les aspects éthiques liés au biais des algorithmes et aux données personnelles, et le manque de diversité dans le domaine.

Reproductibilité : Le partage du code associé aux articles de recherche est un élément fondamental pour la reproductibilité et le progrès de l’IA. Malheureusement, cette pratique reste limitée et le domaine a peu amélioré cette métrique depuis mi-2016. En décembre 2020, le projet Papers with code rapportait que seulement 20% des articles publiés avaient aussi publié leur code [6], et que les équipes universitaires étaient plus susceptibles de publier leur code que les groupes industriels. Selon un rapport sur l’IA de 2020 [7], les principales organisations qui ne publient pas l’intégralité de leur code sont OpenAI et DeepMind qui sont, paradoxalement, les deux entreprises responsables des deux grands succès de l’IA en 2020 : GPT-3 et Alphafold. DeepMind a reçu de nombreuses critiques de la part de la communauté scientifique car cela va à l’encontre des bonnes pratiques de la science. Pour les plus grandes entreprises de la technologie, le code est généralement lié à une mise à l’échelle basée sur une infrastructure propriétaire et ne peut être mis à disposition librement.

Un autre facteur qui limite la reproductibilité est la demande en ressources d’entrainement que les modèles de l’état de l’art exigent. Par exemple, GPT-3, avec ses milliards des paramètres, a des coûts énormes d’entrainement, ce qui signifie que seul un nombre limité d’organisations disposant de ressources de calcul conséquentes peuvent actuellement se permettre de développer et de déployer de tels modèles. Cela indique que la centralisation des talents, des ressources et des calculs de l’IA est un énorme problème qui met à risque le progrès dans le domaine.  

Aspects éthiques : Alors que les innovations basées sur l’intelligence artificielle deviennent de plus en plus répandues dans nos vies, les défis éthiques des applications d’IA sont de plus en plus évidents. L’utilisation de diverses technologies d’IA peut avoir des conséquences non intentionnelles mais préjudiciables, telles que l’intrusion dans la vie privée ; la discrimination fondée sur des facteurs divers (le sexe, la race, l’origine ethnique ou l’orientation sexuelle parmi autres) ; et la prise de décision opaque, entre autres. Par exemple, malgré ses capacités impressionnantes, GPT-3 présente des faiblisses importantes sur ces aspects : il peut générer du texte raciste, sexiste et par ailleurs biaisé [3]. Relever les défis éthiques existants et créer des innovations d’IA responsables et équitables avant leur déploiement n’a jamais été aussi important.

Diversité : Bien que les systèmes d’IA aient le potentiel d’affecter considérablement la société et les personnes, ces systèmes ne sont pas représentatifs des personnes qu’ils sont censés servir. La main-d’œuvre de l’IA reste majoritairement masculine et manque de diversité à la fois dans le milieu universitaire et dans l’industrie, alors même que les inconvénients et les risques que cela engendre sont mis en évidence depuis de nombreuses années. Le manque de diversité dans la race et l’appartenance ethnique, le genre et l’orientation sexuelle risque non seulement de créer une répartition inégale du pouvoir au sein des personnes travaillant sur l’IA, mais également de renforcer les inégalités existantes générées par les systèmes d’IA.

Perspectives

La vitesse à laquelle l’IA progresse laisse entrevoir de nouvelles avancées dans plusieurs domaines. Par exemple, la simulation par ordinateur s’est montré être un outil puissant pour étudier des phénomènes complexes tels que la biologie et la chimie. Plusieurs applications commencent à s’appuyer sur le ML pour améliorer la puissance de la simulation informatique et l’exploiter [9] afin de mieux comprendre d’autres phénomènes du monde réel, tels que le changement climatique, les catastrophes naturelles et causées par l’homme et les processus de fabrication industrielle, parmi autres. Aussi, grâce à la puissance démontrée par les modèles de langage, on verra de plus en plus d’applications d’analyse avancée de textes en s’appuyant sur l’IA [10].

Si le progrès de l’IA d’un point de vue technique n’est pas remis en question, les avancées nécessaires pour relever les défis actuels restent plus incertaines. Il faudra que la communauté mobilise plus d’efforts sur les défis de type étique qui se posent. Heureusement, une prise de conscience généralisée émerge concernant le risque que ces défis représentent. Ainsi, on constate de plus en plus d’efforts visant à améliorer l’accès aux ressources, en lançant des initiatives pour la création des systèmes de cloud accessibles à tous [8], et à rendre les technologies actuelles plus efficaces, en développant de nouvelles solutions de calcul à faible consommation d’énergie [11] ou des modèles moins gourmands en termes de paramètres [12] ou d’échantillons d’entrainement requis. Tout cela avec l’objectif de démocratiser la recherche, le développement et l’utilisation de l’IA. 

De la même manière, des efforts pour améliorer les problèmes de privacy et l’accès aux données sensibles commencent à se matérialiser, en particulier dans des applications en santé [14]. Il restera à voir si ces avancements, surtout techniques, atteindront d’autres domaines et applications également sensibles. L’aspect le plus difficile à aborder et résoudre restera sans doute celui de la diversité. Néanmoins, il faut reconnaitre les efforts actuels qui se font à niveau mondial et national pour améliorer cet aspect [1, Ch 6]. 

 

Références

[1] The 2021 AI Index Report: https://aiindex.stanford.edu/report/

[2] COVID Moonshot project. https://covid.postera.ai/covid

[3] Brown, Tom B., Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan et al. “Language models are few-shot learners.” arXiv preprint arXiv:2005.14165 (2020)

[4] Coronacheck project: https://coronacheck.eurecom.fr

[5] Karagiannis, Georgios, Mohammed Saeed, Paolo Papotti, and Immanuel Trummer. “Scrutinizer: fact checking statistical claims.” Proceedings of the VLDB Endowment 13, no. 12 (2020): 2965-2968.

[6] Papers with code project: https://paperswithcode.com/trends

[7] Benaich, Nathan, Ian Hogarth. State of AI report 2020: https://www.stateof.ai/

[8] John Etchemendy, Fei-Fei Li, National Research Cloud: Ensuring the Continuation of American Innovation: https://hai.stanford.edu/blog/national-research-cloud-ensuring-continuation-american-innovation

[9] Kisamori, Keiichi, Motonobu Kanagawa, and Keisuke Yamazaki. “Simulator calibration under covariate shift with kernels.” In International Conference on Artificial Intelligence and Statistics, pp. 1244-1253. PMLR, 2020.

[10] Zero shot topic extraction https://zeste.tools.eurecom.fr/

[11] Ohana, Ruben, Jonas Wacker, Jonathan Dong, Sébastien Marmin, Florent Krzakala, Maurizio Filippone, and Laurent Daudet. “Kernel computations from large-scale random features obtained by optical processing units.” In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 9294-9298, 2020

[12] Pascal, Lucas, Pietro Michiardi, Xavier Bost, Benoit Huet, and Maria A. Zuluaga. “Maximum Roaming Multi-Task Learning. In : the Thirty-Fifth AAAI Conference on Artificial Intelligence (AAAI’21) (2021)

[13] Wang, Guotai, Maria A. Zuluaga, Wenqi Li, Rosalind Pratt, Premal A. Patel, Michael Aertsen, Tom Doel et al. “DeepIGeoS: a deep interactive geodesic framework for medical image segmentation.” IEEE transactions on pattern analysis and machine intelligence 41, no. 7 (2018): 1559-1572

[14] Silva, S., Gutman, B. A., Romero, E., Thompson, P. M., Altmann, A., & Lorenzi, M. (2019, April). Federated learning in distributed medical databases: Meta-analysis of large-scale subcortical brain data. In 2019 IEEE 16th international symposium on biomedical imaging (ISBI 2019) (pp. 270-274)

 

Maria A.Zuluaga, PhD

Maître de Conférences
Département Data Science
EURECOM

En quelques clics

Catégories

Derniers articles

Intelligence artificielle et sécurité : un engagement responsable
Les Femmes, La Finance, L’Intelligence Artificielle et les Variants : Soyons notre propre virus !
L’Intelligence Artificielle en 2020-2021 : pandémie, succès, défis et perspectives

Twitter feed

  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •  
  •