GPU viel zu heiß

Hi,

meine 7 Jahre alte AMD 5700 series Grafikkarte hat seit einem halben Jahr angefangen sich zu überhitzen.
Dafür sprachen:

  • Die sehr hohe konstante Lautstärke des Lüfters
  • Starkes Ruckeln bei Grafisch nicht anspruchsvollem Inhalt

Habe eben die Temperatur überprüft im Catalyst Control Center und dort war direkt kurz nach einem wortwörtlichen kalten Start in Ruhe eine Temperatur von +80 °C angegeben und eine Lüftergeschwindigkeit von 65%, steigend.
Also hab ich die Grafikkarte eben ausgebaut, den Kunststoffdeckel entfernt und neue Thermalpaste aufgetragen - nach 7 Jahren. Die sah auch nicht mehr so gut aus, porös und teilweise aufgelöst. Ansonsten war die Grafikkarte innen überraschend sauber abgesehen von den Schaufeln des Lüfters, der Staub scheint dort drinnen zu verbrennen.

Jetzt die Grafikkarte wieder eingebaut und gestartet. Hörbar viel leiser!
Nach Catalyst Control Center dreht der Lüfter scheinbar immernoch bei 54% und die Grafikkarte hat nach dem Start 65-70 °C in Ruhe.
Immerhin, 15-10 °C gewonnen.
Aber unter Last eine maximal gemessene Temperatur von 124 °C.

Jetzt kommen mir 124 °C ziemlich hoch vor. Messfehler? Von AMD selbst? Oder doch möglich und im grünen Bereich?
Kenne mich mit Grafikkarten nicht sehr gut aus.

Hmm, auch wenn ich micht seit sehr vielen Jahren mit Hardware befasse - in diesem Extremfall kann ich auch erstmal nur raten:
Bei GPUs gibt es in der Regel keine Heatspreader wie bei CPUs sondern die Kühler haben direkten Kontakt zum Chip. Wenn nach Erneuerung einer offensichtlich überalterten Wärmeleitpaste der Effekt nur so gering ausfällt ist es gut möglich das die Thermo-Diode kaputt ist, oder wie im Fall des 9350 der bei mir ankam der Chip selbst ne Macke hat.
Als Faustregel kann man sich an folgendem orientieren: alles was über 100° geht ist definitiv zu heiß. Einfach erklärung: Viele der Plastiken sind nur für Bereich bis ca. 80°-90° ausgelegt. Kommt man jetzt mit Temperaturen über dem Siedepunkt von Wasser führt sowas meist zum Schmelzen der Plastiken - was man meist auch riechen kann. Untersuche also die Karte mal auf verschmorte und geschmolzene Stellen und versuch die Temperatur von außen mit einem Thermometer zu messen - vielleicht ist es wirklich nur ein defekter Thermo-Sensor.
Weiter ist Thermal-Throttelung zu beachten: Moderne Hardware regelt bei zu hohen Temperaturen automatisch runter um sich vor Schäden zu schützen. Ist jetzt n7r die Tzermo-Diode kaputt und meldet statt tatsächlichen 30° falsche 130° dreht die Karte die Leistung natürlich runter da sie “denkt” sie wäre überhitzt obwohl physisch alles ok ist.
Umgehen kann man sowas nicht - die Karte ist hin und muss getauscht werden da der Fehler definitiv innerhalb des GPU-Chips liegt - Reparatur unmöglich!

Hi, danke für die Antwort :slight_smile: Kleine Fragen vorerst:

  • Ich nehme mal an du meinst mit „Plastiken“ die verbauten Kunststoffe?
  • Und die Thermo-Diode? Bin mir jetzt nicht sicher was das ist, ich ging davon aus dass der Widerstand (sprich die Stromstärke) im Leiter gemessen wird.

Also man riecht weder etwas bei gemessenen 120 °C noch schien irgendetwas verschmort gewesen zu sein beim öffnen, war tip top in Ordnung. War ein bisschen zugeäschert an ein paar kleinen Stellen, wahrscheinlich von darin verbranntem Staub.
So eine Platine sollte ja locker bis 350 °C aushalten können aber mit dem Kunststoff ist das natürlich ein Argument.

Jetzt ist natürlich die Frage wie man die Messwerte interpretiert.
→ Auf der einen Seite wird in Ruhe (Clock Speed 160Mhz) eine Temperatur von 65 °C angezeigt, erhöht man manuell die Lüftergeschwindigkeit von 40 auf 100 % geht die Temperatur auf 55 °C herunter. Der Treiber „könnte“ also die Temperatur senken, macht er aber nicht. Bei Vollast und einer angezeigten Temperatur von 120 °C dreht der Lüfter auch nicht bei 100 %, sie könnte also immernoch theoretisch weiter gesenkt werden auf einen weniger gefährlichen Wert.
→ Auf der anderen Seite taktet die Grafikkarte aber im Millisekunden takt zwischen 850 und 150 Mhz hin und her.

Leider hab ich kein Thermometer und an den Chip würde ich sowieso im zusammen- und eingebauten Zustand nicht heran kommen.
Aber wenn über 100 °C gefährlich wären, wie du sagst und man dann auch etwas hätte sehen müssen, sind vielleicht die Interpretierung der Messwerte einfach falsch kalibriert.
Denn der Lüfter müsste - wenn er die selben Werte verwenden würde wie die Anzeige und eben diese hohen Werte so gefährlich sind - viel mehr darauf anspringen.

Ich lass das mal so. Die Leistung ist zumindest deutlich spürbar besser und flüssiger geworden und man kann wieder den Ton aus den Lautsprechern statt dem Lüfter hören.

Grundsätzlich schon mal nicgt falsch dass die Bauteile für Temperaturen 200°+ ausgelegt sind - sonst würde das heute verwendete Herstellungsverfahren pick’n’place+reflow gar nicht funktionieren - aber diese Temperaturen werden nur kurz erreicht. Über längere Zeiträume sollte man versuchen unter 100° zu bleiben - auch die Hardware selbst gute 150° mitmacht, wie man ja bei dir sieht.

Thema Thermo-Diode: Das ist kleiner Halbleiter der bei Wärmeänderung seine elektrische Leitfähigkeit verändert, meist mit linearem Koeffizient. Bedeutet also: Je wärmer der Chip wird desto höher der messbare Widerstand über diese Thermo-Diode. Was nun passiert sein kann ist dass auf Grund extremer teils dauerhafter Überhitzung für den diese Schaltung nicht ausgelegz ist sich der Koeffizient geändert hat und so falsche Werte liefert (häufigste Ursache), so dass also die Angabe die dir der Treiber anzeigt möglicherweise fehlerhaft sein kann. Kann man aber nur prüfen wenn man z.B. mit so nem infrarot-Thermometer oder ner Wärmebildkamera draufhält.

Warum pumpt die Karte immer zwisch idle 2d clock und load 3d clock? Einfach: thermal-throtteling. Einfach erklärt: Die Karte, oder besser: der Chip, hat einen bestimmten Arbeitsbereich der nach möglichkeit eingehalten werden soll. Wird dieser Bereich überschritten wird automatisvh die Leistung gedrosselt da so weniger Hitze erzeugt wird. Normalerweise wird dazu erstmal der Takt runtergeregelt. Dieses herumspringen kann aber auch hier auf eine Fehlfunktion, sowohl der Hardware als auch des Treibers hindeuten. Versuch mal ältere Treiber-Versionen 14.x und 15.x wo man das CCC hatte, die neuen 16.x Treiber mit diesem möchtegern-Interface sind absoluter Mist. Kann sein dass die neuen Treiber einfach nicht zu deiner GPU passen.

Und warum der Lüfter nicht auf 100% geht liegt am eingeszellten Profil, musst mal gucken ob du das manuell überschreiben kannst. Ging bei den alten v15.x Treibern im CCC noch wenn ichs noch richtig im Kopf habe.

[QUOTE=Sen-Mithrarin][…] Hmm, auch wenn ich micht seit sehr vielen Jahren mit Hardware befasse - in diesem Extremfall kann ich auch erstmal nur raten:
Bei GPUs gibt es in der Regel keine Heatspreader wie bei CPUs sondern die Kühler haben direkten Kontakt zum Chip. […][/QUOTE]
Um nochmal auf diesen Kommentar zurück zu kommen.
Den Lüfter hatte ich garnicht geöffnet - zu komplizierte Montage -, dachte auch erst die Wärme-Ableitungs-Kupferplatte liegt direkt auf Lüfter und Chip bis ich mal Beide Seiten der Abdeckung genauer angesehen hatte nach deinem Post und bemerkte der Lüfter sitzt versetzt und dass sich in dem Kunstoffgehäuse noch ein kleiner Heatspreader versteckt.

Den mal aus Spaß ausgebaut und siehe da, er war am Eingang zum Lüfter bedeckt mit einer ca. 2mm dicken festen Staub"decke". Die konnte ich einfach direkt am Stück herunterziehen wie ein Stück Stoff und jetzt ist die Temperatur im Idle auch wieder bei ca. 40-46 °C (bei 28 °C Außentemperatur) und 30% Lüfterleistung. Auch bei 100 % ist der Lüfter jetzt viel leiser.

Als Nebeneffekt ist die gesammte Grafikkarte mittlerweile verschmiert mit dem Inhalt einer Tube Silberpaste (1200€/100g heul).

Danke @Sen-Mithrarin nochmal, läuft jetzt wie geschmiert. Vielen vielen Dank :daumen::daumen:

Das freut mich dass ich aus der Ferne bei einem Hardware-Thema doch mal so gut Hilfe leisten konnte, schön dass sich die Temperaturen wieder im Normal eingepegelt haben und die Leistung wieder da ist.
Es ist für GPUs eigentlich eher ungewöhnlich dass zwischen Chip und eigentlich Heatpipes noch mal Heatspreader sitzt - alle Grakas die ich bisher auseinander genommen habe (gut, waren noch nicht viele - aber die eine oder andere high-end Graka war schon dabei) lagen direkt Heatpipes zum eigentlichen Rippenkühlkörper mit Paste direkt auf dem Silizium-Die. Diese Alu-Heatspreader-Kappen kenn ich eigentlich nur von (Intel-)CPUs (da auch moderne AMD-CPUs immer noch mit Pins statt Pad-Flächen gebaut werden ist dass erste was ich mit ner AMD-CPU mache erstmal diese Alu-Kappe runter - kann nichts bringen - kann auch mit ner guten Kühlung noch mal zusätzliche 10° bringen) - aber nun ja, jeder Hersteller ist da ja frei und kann machen was er will.
Aber bei dem Alter ist das durchaus mal drin wenn sich da so ne dicke Staubschicht ablagert dass diese schon durch das Eigengewicht zu einer soliden festen Maße verklumpt.

Seit ich meine H80i wegen dem 9590 von @mogel (schade das der Chip nicht läuft) aus- und wieder neu eingebaut habe sind meine Temps auch etwas höher als vorher. Ich gehe von aus dass einfach auf Grund des Alters (mitlerweile auch knapp 4 Jahre) der Radiator angefressen ist und daher im geschlossenen Kreislauf Rost-Partikel sein werden. Und abgesehen von der schlechten Kühlleistung besteht ja auch das Risiko dass der Radiator dann mal bald Leck schlagen wird. Da wird dann auch wieder einiges fällig. Aber vorher sind leider noch andere Dinge zu klären so dass das leider erstmal bis auf “wenns dann notwendig wird” vertagt wird.