Si vous prévoyez de faire des jeux intensifs, du calcul par le GPU, du rendu graphique, du Folding@home ou du minage de crypto-monnaies sur votre carte graphique, vous pouvez craindre que votre GPU s’use à force d’être utilisé. Mais est-ce le cas ? Nous allons enquêter.

Oui, mais c’est compliqué

La plupart des informations sur la durée de vie des cartes graphiques que vous trouverez en ligne sont anecdotiques, avec des chiffres qui peuvent varier considérablement selon la personne à qui vous demandez. Avec des centaines de modèles différents de cartes graphiques sortis au cours de la dernière décennie, il est difficile de réduire les données sur des cartes aussi différentes en simples généralisations.

Jusqu’à présent, nous savons ceci: Selon un rapport de 2020 d’un détaillant allemand, les cartes graphiques les plus récentes ont un taux de défaillance global d’environ 2 à 5 % (mesuré en retours au détaillant). Et en 2021, Nvidia fournissait encore des mises à jour de pilotes pour des cartes vieilles de 9 à 10 ans (comme la série GTX 600), ce qui signifie que vous pouvez espérer une décennie d’utilisation d’une carte GPU bien traitée – bien qu’il puisse s’agir d’exceptions, comme nous le verrons plus loin.

Indépendamment des chiffres, il y a de la physique à l’œuvre. Les matériaux et les composants utilisés dans la composition des cartes GPU ne sont pas magiques: plus vous les utilisez, plus les pièces se dégradent rapidement et plus elles risquent de tomber en panne. Une utilisation intensive a donc une incidence sur la durée de vie.

La possibilité de voir votre carte GPU tomber en panne dépend de nombreuses variables, notamment de l’intensité de l’utilisation du GPU, de la nature et du degré des variations de température dans les circuits, du nombre de fois où la carte a été mise sous tension et hors tension et de la propreté de l’environnement d’exploitation.

Une carte GPU étant un dispositif complexe composé de nombreuses pièces, chacune d’entre elles peut tomber en panne ou se dégrader de différentes manières. Nous allons passer en revue plusieurs pièces majeures d’une carte GPU et examiner comment elles peuvent s’user au fil du temps en raison d’une utilisation intensive.

Premier à partir: Ventilateurs de refroidissement

De toutes les pièces d’une carte graphique qui sont susceptibles de tomber en panne en premier, il faut citer les ventilateurs de refroidissement (ou fan), qui sont des pièces physiques mobiles. Les ventilateurs gardent votre GPU au frais en éloignant l’air chaud de la puce du GPU (avec un dissipateur thermique) afin qu’elle puisse continuer à fonctionner.

Pourquoi la chaleur est-elle mauvaise ? Avec suffisamment de chaleur, les transistors ne fonctionnent pas correctement, ce qui signifie que la carte GPU ne fonctionne pas. Avec encore plus de chaleur, les transistors des puces de la carte peuvent être endommagés de façon permanente.

Avec le temps, les ventilateurs de refroidissement s’encrassent souvent de poussière, ce qui réduit leur capacité à déplacer l’air efficacement. Les ventilateurs peuvent aussi tomber en panne si un lubrifiant interne se détériore. Dans les deux cas, la température du GPU augmente.

Chaque GPU se protège de la surchauffe en utilisant l’étranglement thermique, qui ralentit le fonctionnement du GPU pour réduire la température de fonctionnement. Cette méthode limite considérablement les performances. Donc, si vous avez un GPU qui est soudainement plus bruyant que d’habitude (le ventilateur tourne plus vite) ou dont les performances sont moins bonnes, nettoyez soigneusement les ventilateurs de refroidissement et le dissipateur thermique de votre GPU avec de l’air comprimé.

Si un ventilateur de refroidissement de GPU est complètement défaillant, vous pouvez généralement le remplacer si vous trouvez un ventilateur équivalent chez un fournisseur de pièces informatiques.

Un autre suspect: Composé thermique défectueux

Entre chaque dissipateur thermique et la puce du GPU, il y a une couche de matériau conducteur thermique, comme un tampon de mastic ou de pâte qui aide à transférer la chaleur de la puce du GPU au dissipateur thermique.

Avec le temps, la pâte thermique peut se fissurer ou perdre de sa puissance. Lorsque cela se produit, le dissipateur thermique ne refroidit pas aussi efficacement, et la température du GPU augmente. Comme nous l’avons vu dans la section sur les ventilateurs ci-dessus, une température élevée du GPU entraîne un étranglement thermique, ce qui ralentit votre GPU.

La meilleure solution dans ce scénario est de remplacer la pâte thermique vous-même. Vous pouvez acheter de la pâte thermique chez les vendeurs de pièces informatiques.

Défaillances des autres composants, soudures

Outre la puce du GPU, une carte graphique comprend des dizaines d’autres composants électroniques tels que des condensateurs, des résistances, des puces mémoire, etc. Chacun d’entre eux peut potentiellement tomber en panne en cas d’utilisation intensive ou d’exposition à une chaleur trop importante. Certains sont plus susceptibles de tomber en panne que d’autres.

Les condensateurs, en particulier, sont susceptibles de tomber en panne avec le temps. Ils sont sensibles aux changements fréquents de température, et certains sont défectueux dès leur fabrication. Si vous êtes assez bricoleur pour résoudre les problèmes de condensateurs, vous pouvez potentiellement remplacer les condensateurs défectueux d’une carte GPU si vous trouvez des pièces de rechange équivalentes.

De même, la soudure qui relie les puces et les composants à la carte de circuit imprimé de votre carte GPU peut vieillir et se fissurer avec le temps en raison de changements de température fréquents, d’une manipulation physique brutale, d’un stockage inadéquat ou d’un fonctionnement trop chaud. Donc oui, une utilisation intensive du GPU peut augmenter les risques de défaillance des joints de soudure. Réparer de mauvais joints de soudure peut être techniquement difficile, mais ce n’est pas impossible.

Défaillances de la puce du GPU elle-même

La question reste donc posée: La puce d’un GPU peut-elle s’user à force d’être utilisée ? La réponse est oui, en théorie, dans des circonstances extrêmes. Mais vous verrez probablement la défaillance d’un autre composant de la carte graphique bien avant ce moment.

La puce du GPU de votre carte graphique contient des millions ou des milliards de transistors, gravés dans un morceau de silicium. Les transistors vieillissent avec le temps, ce qui affecte leurs performances. Lorsqu’un nombre suffisant de transistors se comporte mal, la puce tombe en panne.

Selon Semiconductor Engineering, il existe plusieurs raisons principales pour lesquelles les transistors fonctionnent mal avec le temps en raison du vieillissement (l’une d’entre elles est la chaleur), et les erreurs sont d’autant plus probables que la taille des éléments de la puce est petite. Les experts pensent que les puces d’ordinateur fabriquées aujourd’hui ne dureront pas aussi longtemps que celles fabriquées dans les années 1990, mais la prédiction d’une durée de vie exacte est encore une conjecture puisque la technologie est si nouvelle.

Actuellement, NVIDIA ne publie pas d’estimations du MTBF (temps moyen entre les défaillances) pour ses cartes graphiques grand public, mais la société les publie pour certains de ses accélérateurs graphiques industriels et professionnels. Par exemple, la fiche technique de l’accélérateur de GPU Tesla K20X indique que le MTBF de la carte (à une température de 35C/95F) est de 14,7 ans pour un “environnement non contrôlé” et de 23,8 ans pour un “environnement contrôlé” (Notez que, généralement, le matériel graphique industriel est censé être plus robuste et mieux résister à une utilisation intensive que le matériel graphique grand public)

Il est intéressant de noter que nous pouvons comparer ce chiffre théorique avec des données concrètes provenant du terrain. L’une des rares études empiriques sur la durée de vie des GPU provient d’un article de 2020 intitulé “GPU Lifetimes on Titan Supercomputer: Survival Analysis and Reliability”, rédigé par Oak Ridge National Labs. L’article rend compte de la fiabilité des 18 688 cartes GPU Nvidia K20X Kepler utilisées dans le superordinateur Cray XK7 Titan, aujourd’hui retiré, sur une période de près de 7 ans (2012-2019).

Après quelques hoquets initiaux dus à des problèmes de connexion, ils ont constaté une fiabilité relativement élevée des cartes graphiques du XK7 jusqu’en 2016 (environ 3-4 ans), lorsque beaucoup ont commencé à tomber en panne. Mais devinez quoi ? Ils ont attribué la plupart des défaillances du premier lot de cartes (avant leur remplacement) à une résistance défectueuse sur la carte de circuit imprimé de la carte graphique, et non à la puce du GPU elle-même. Dans l’ensemble, les auteurs de l’étude ont constaté que le MTBF moyen des cartes GPU très utilisées du K20X était d’environ 3 ans (et non de 14 à 23 ans, comme indiqué dans la fiche technique de Nvidia), certaines des cartes les plus chaudes du noyau tombant en premier. Ils ont conclu que “la fiabilité du GPU dépend de la dissipation de la chaleur”

Il y a donc de fortes chances que si vous utilisez votre carte graphique aussi intensément que l’un des plus grands superordinateurs du monde (à l’époque), elle s’usera plus rapidement et que d’autres composants tels que les ventilateurs et les résistances tomberont en panne bien avant la puce du GPU elle-même. La durée exacte dépend de facteurs que nous ne pouvons pas prévoir.

En fin de compte, la chaleur est l’ennemi

En fin de compte, d’après toutes les sources que nous avons lues, le principal facteur déterminant la durée de vie d’une carte GPU est la température à laquelle elle fonctionne. Plus la carte est chaude, plus vite tous ses composants se dégradent. De même, plus la carte est chaude, plus elle réduit ses performances pour éviter une défaillance catastrophique. Un bon refroidissement permet à la fois de prolonger la durée de vie de votre carte et d’augmenter ses performances.

Donc, que vous fassiez du minage de crypto-monnaie ou que vous jouiez, si vous maintenez votre carte GPU à une température raisonnable grâce à des ventilateurs propres et fonctionnels et à une pâte thermique efficace, vous aurez probablement une carte très performante qui, si vous avez de la chance, pourra durer jusqu’à ce qu’elle devienne obsolète et que vous la mettiez à niveau. Les cartes les plus utilisées (qui fonctionnent maintenant) fonctionneront probablement bien à court terme, mais sont plus susceptibles de tomber en panne à long terme. Nous ne pouvons pas donner de chiffre exact sur la durée de vie d’une carte, mais une utilisation intensive use définitivement les cartes graphiques plus rapidement.

Share.
Exit mobile version