Quand des erreurs se produisent dans les supercalculateurs

La France vient de se doter du supercalculateur baptisé Jean Zay, l’un des plus puissants d’Europe, offrant des capacités de calculs inimaginables jusqu’à présent pour la recherche française. Mais saviez-vous que des pannes peuvent se produire chaque jour dans ces machines surpuissantes ? Anne Benoit s’intéresse à cette problématique et nous explique les enjeux de ses travaux dans cet épisode du podcast Interstices.

Un supercalculateur ou superordinateur n’est rien de moins qu’un ordinateur doté d’une très grande puissance de calcul. C’est un assemblage de plusieurs dizaines de milliers de processeurs qui permettent de faire du calcul haute performance (ou HPC pour High performance calcul ). Utile dans de nombreux domaines, que ce soit en climatologie pour réaliser des prévisions par exemple ou en astrophysique pour simuler des phénomènes physiques complexes (formation d’une galaxie, etc.), mais aussi en santé/médecine, en ingénierie ou encore en intelligence artificielle, ces machines peuvent offrir une capacité de calcul équivalente à celle de 40.000 ordinateurs personnels (ici 16 pétaflops pour le supercalculateur Jean Zay, soit 16 millions de milliards d’opérations par seconde).

Or comme nous l’explique Anne Benoit, chaque jour, une à deux pannes peuvent se produire sur certains supercalculateurs. Comment cela se fait-il ? Comment faire face à ces erreurs ? Quels sont les enjeux autour de ces travaux ? Les applications ? Les défis scientifiques à venir ? Une série de questions sur lesquelles la scientifique nous apporte son éclairage.