Plan calcul en période de canicule

Palaiseau, le 9 août 2020

Cher Journal,

J'espérais benoîtement ne pas avoir à réduire la voilure cette année pour ce qui est de la partie calcul hébergée sur cette machine, mais j'ai fini par me faire une raison et ai réduit de six à deux cœurs l'allocation de puissance de calcul. La situation est meilleure cette année que l'an dernier, mais loin d'être idéale non plus.

Il y a un ou deux mois, j'ai effectué une transplantation de carte mère sur la machine, et mis à jour le bon vieux Phenom II vers un Ryzen 5. J'avais le vain espoir de diminuer un peu l'impact électrique du CPU, étant donné que la machine tourne en permanence, tout particulièrement avec un load average perpétuellement aux alentours du nombre de cœurs supportés.

Le processeur en question est un Ryzen 5 3600, comportant une topologie de 6 cœurs par emplacement, et 2 fils d'exécution par cœurs. Cela fait un total de 12 fils d'exécution supportés. La différence entre fil et cœur tient au fait que le cœur dispose de circuits logiques pour donner l'impression au système d'exploitation qu'il dispose de deux fils d'exécution, là où il n'y en a en fait les ressources que pour un seul. Si je pars du principe qu'à un instant t, tous les jobs ont besoin d'utiliser l'unité de calcul en virgule flottante du cœur de processeur, ça n'accélérera pas fondamentalement les calculs d'activer les multiples fils d'exécution. En plus, comme il y a d'avantage de circuits sous tension, ça consommera plus de courant, et comme il y a plus de jobs simultanément, ça consommera aussi plus de cache, ralentissant d'autant plus l'exécution que les données seront stockées en mémoire vive, ce qui induit un ordre de grandeur de latence par rapport au cache du processeur dans le meilleur des cas. Je sais bien que le Ryzen 5 3600 dispose d'une quantité astronomique de 32 Mio de cache L3, mais malgré tout, l'hyperthreading a tendance à provoquer de la perte. La quasi totalité des machines supportant les cœurs à fils multiples proposent une entrée dans l'outil de configuration de la carte mère pour désactiver l'option. La machine est donc configurée pour tourner sur ses six cœurs sans mentir au système d'exploitation, et c'est pour le mieux. Pour la petite histoire, je parle de quasi totalité, parce que l'Eeepc qui me sert de radio réveil et compilateur pour ports sur i386 pour le projet Debian n'a pas cette entrée dans ce menu, ou alors j'ai très mal regardé.

Parmi les petites options sympathiques à connaitre en réduisant le nombre de cœurs en charge également, c'est le boost, qui permet d'augmenter la fréquence d'un cœur de processeur si ce dernier est en pleine charge. Je soupçonne fortement cette fonctionnalité d'être un terme marketing pour cacher le fait que le processeur ne peut pas être maintenu à sa pleine fréquence en pleine charge, mais ce n'est que moi que cet accès de mauvaise langue regarde.  :)

La documentation en papier glacé du Ryzen 5 3600 indique une dissipation thermique de 65 W et une température d'opération maximale de 368 K, ou 95°C, ce qui est assez impressionnant pour un processeur. D'après mes relevés, le radiateur est tout juste dimensionné pour dissiper la puissance thermique dégagée par le processeur, et tourne en général autour de 360 K. La carte mère est configurée pour que le ventilateur tourne en vitesse maximum, passé les 328 K, ce qui se présente tout le temps, y compris à vide. Avec la vague de chaleur de ce week-end, la puce a dangereusement approché les seuils critiques. J'ai réduit la puissance afin d'avoir une température stable autour de 350 K. Je pense avoir quelques options pour améliorer la situation. La plus saine serait que je rétablisse l'ancien radiateur, qui était dimensionné pour les 90 W de dissipation thermique du Phenom II, et dont la température critique n'était pas aussi élevée. Les autres options seraient un nouveau radiateur surdimensionné ou du refroidissement liquide. Toutefois, je ne suis pas chaud sur cette dernière option : les flexibles sont en caoutchouc, et pourraient avoir tendance à s'effriter et provoquer des fuites en vieillissant. Je me demande si quelqu'un dans mon entourage a de l'expérience dans le temps sur ce genre de matériel...

Ça, c'est l'échelle de mon petit ordinateur personnel dans mon coin. Maintenant, si je me mets à l'échelle d'un centre de calcul complet, je suis à peu près certain que la situation n'est pas drôle du tout à gérer.

[ICO]NameLast modifiedSize
[PARENTDIR]Parent Directory  -

  —