Prevenindo falhas de capacitores em sistemas de alimentação de servidores de IA

Mitigando condições de alto estresse por meio da seleção de componentes passivos

Na corrida para construir servidores de inteligência artificial (IA) mais rápidos, inteligentes e poderosos, os projetistas frequentemente se concentram nos componentes de destaque, como unidades de processamento gráfico (GPUs), unidades de processamento tensorial (TPUs) e interconexões de alta velocidade. Porém, nos bastidores, componentes passivos como capacitores assumem silenciosamente a responsabilidade de manter a estabilidade do sistema. Quando capacitores falham, as consequências se propagam por todo o sistema: reguladores de tensão falham, processadores travam e servidores ficam offline. Ainda assim, essas falhas muitas vezes ocorrem mesmo depois de os capacitores terem passado por rigorosos testes de laboratório.

Então, por que isso está acontecendo? Neste blog, examinamos por que componentes passivos testados em laboratório, como capacitores, podem falhar em campo e analisamos como os projetistas podem mitigar falhas selecionando componentes passivos especificamente projetados para ambientes exigentes de servidores de IA.

Cargas de trabalho exigentes em servidores de IA


Servidores de IA operam em ambientes muito mais exigentes do que as condições sob as quais a maioria dos capacitores é testada. Altas temperaturas, umidade elevada e densidades de potência intensas criam uma combinação perfeita para a degradação dos componentes. Em data centers, as temperaturas ambiente podem ultrapassar 50–60°C, e pontos de calor localizados próximos aos processadores podem superar facilmente 100°C. Somado a isso, a presença de umidade proveniente de sistemas de resfriamento por ar economizado ou resfriamento líquido cria um cenário propício para desgaste acelerado — mesmo para componentes que passaram em testes de qualificação padrão.

Como capacitores padrão falham em campo


Para entender por que os capacitores falham, precisamos enfrentar alguns equívocos comuns sobre esses componentes. Embora os capacitores sejam descritos nos livros como componentes simples compostos por um dielétrico entre placas condutoras, sua construção real é muito mais variada e complexa.

Entre os muitos tipos de capacitores, existem três grupos básicos e alguns de seus modos de falha associados:

  • Os chamados capacitores eletrolíticos de alumínio “úmidos”, frequentemente chamados de capacitores de bulk, possuem valores relativamente grandes, na faixa de dezenas ou centenas de microfarads, às vezes milhares. Seu papel é filtrar o ripple nas linhas de alimentação em corrente contínua (DC) e também manter uma tensão DC estável apesar de variações de carga. Esses capacitores perdem a solução eletrolítica ao longo do tempo, o que aumenta sua resistência série equivalente (ESR), causando mais ripple de tensão e aumento de temperatura, podendo levar a um ciclo de falha auto-reforçado conhecido como fuga térmica (thermal runaway).
  • Capacitores de polímero utilizam um polímero condutor que forma a camada catódica sobre o dielétrico de óxido de alumínio, substituindo o eletrólito líquido usado nos eletrolíticos de alumínio convencionais. Seu baixo ESR e desempenho estável os tornam ideais para aplicações de alta frequência e baixa impedância. O principal mecanismo de falha é a oxidação do polímero, que aumenta o ESR e reduz a capacitância ao longo do tempo sob estresse térmico ou elétrico.
  • Capacitores cerâmicos multicamadas (MLCCs) utilizam camadas empilhadas de dielétrico cerâmico e eletrodos metálicos para oferecer capacitância compacta e baixo ESR. Eles são amplamente utilizados para desacoplamento e filtragem. Os tipos Classe II podem sofrer perda significativa de capacitância sob polarização DC e são suscetíveis a trincas mecânicas, enquanto os tipos Classe I oferecem maior estabilidade de temperatura e tensão.

É importante reconhecer que capacitores e suas nomenclaturas podem ser confusos. Às vezes, eles são nomeados com base nos materiais condutores ou dielétricos, como alumínio, cerâmica ou plástico; em outros casos, são classificados pela construção, como filme ou multicamadas, e essas classificações podem se sobrepor.

Os capacitores nem sempre falham completamente, nem apresentam apenas um único modo de falha. Embora seus valores nominais em farads possam mudar significativamente, outros parâmetros também podem se degradar. Eles podem apresentar aumento de ESR, aumento de corrente de fuga ou alterações em outros parâmetros críticos.

Não se deixe enganar pela aparente simplicidade funcional desses componentes. Como qualquer outro dispositivo eletrônico, capacitores possuem múltiplos pontos potenciais de falha (Figura 1).

Figura 1: Apesar de sua simplicidade conceitual, o capacitor — como qualquer outro componente — possui muitas possíveis causas de falha, modos de falha, efeitos e consequências, mostrados aqui para o capacitor de filme metalizado. (Fonte: CERN, CC BY 4.0) http://creativecommons.org/licenses/by/4.0/)[1]

Alterações no desempenho dos capacitores podem levar à redução de desempenho do processador, problemas causados por ruído, instabilidade em reguladores de tensão, funcionamento errático do sistema ou até interrupções completas do servidor, o que pode afetar negativamente os acordos de nível de serviço (SLAs) de disponibilidade e as cargas de trabalho dos clientes. Muitos desses problemas de sistema são difíceis de diagnosticar devido ao seu caráter intermitente ou à falta de uma ligação evidente entre a causa e o efeito associado.

Testing Standards vs. AI Server Environments

A confiabilidade dos capacitores normalmente é avaliada por meio de testes padronizados que simulam condições de estresse — como 105°C por 2.000 horas — porém frequentemente em estufas secas, sem corrente de ripple e sob umidade controlada. Esses testes incluem diversos padrões para teste e avaliação de capacitores, com detalhes sobre as configurações e procedimentos antes, durante e após o teste, tais como:

  • IEC 60384-4, um padrão internacional para capacitores eletrolíticos de alumínio, que fornece especificações gerais complementadas por especificações detalhadas para tipos e aplicações específicas de capacitores;
  • MIL-STD-202, que descreve vários métodos para testes de capacitores, incluindo métodos para choque térmico e testes de umidade;
  • MIL-PRF-55681, uma especificação militar de alta confiabilidade para uso geral, aplicável a capacitores de montagem em superfície nos tamanhos 0805 a 2225, em 50V e 100V;
  • MIL-PRF-123, que define um nível de confiabilidade maior do que o MIL-PRF-55681 para aplicações espaciais, de mísseis e outras aplicações de alta confiabilidade, como implantes médicos ou equipamentos de suporte à vida; e
  • EIA IS-749, utilizada por alguns fabricantes para detalhar requisitos de montagem de capacitores, fluxo de ar e definição de critérios de fim de vida útil (EOL).

Embora esses padrões e testes sejam abrangentes, detalhados e valiosos para comparação de desempenho, eles não refletem adequadamente a realidade caótica das implementações de servidores de IA. Servidores modernos de IA operam 24 horas por dia, 7 dias por semana, e esses sistemas não estão apenas sujeitos a estresse térmico, mas também expostos a níveis de umidade que podem levar à condensação.

De acordo com as diretrizes da ASHRAE, a temperatura recomendada em um data center deve variar entre 18°C e 27°C.[2] Com densidades de potência alcançando 30–50kW por rack,[3] e projeções indicando que clusters podem em breve atingir 1.000kW,[4] a dissipação térmica torna-se um grande desafio. Além disso, as diretrizes da ASHRAE permitem pontos de orvalho de até 15°C, o que significa que a presença de umidade é uma preocupação real. Nessas condições, os capacitores enfrentam desafios que os testes de laboratório simplesmente não consideram.

Umidade e corrente de ripple são particularmente prejudiciais. A umidade pode degradar materiais de encapsulamento, enquanto a corrente de ripple estressa a estrutura interna do capacitor. Juntas, essas condições aceleram mecanismos de falha que raramente são ativados em ambientes de teste em laboratório.

Um projeto melhor com especificações mais adequadas

Reconhecendo as dificuldades associadas aos capacitores em data centers, o YAGEO Group introduziu capacitores otimizados e avaliados para aplicações em servidores de IA. Os capacitores orgânicos de alumínio A798 (AO-CAP®) são capacitores de alumínio de estado sólido, projetados para operar em alta umidade e alta temperatura, capazes de suportar as exigências dos servidores de IA. Com tensão nominal de 2V a 2,5V, essas unidades polarizadas estão disponíveis em valores de capacitância de 150µF a 470µF e em dois tamanhos compactos de encapsulamento, medindo apenas 7,3mm × 4,3mm × 1,9mm e 7,3mm × 4,3mm × 2,8mm (C × L × A).

O cátodo é formado por um polímero orgânico condutor sólido, o que resulta em ESR muito baixo e melhor retenção de capacitância em altas frequências. Como não há eletrólito líquido, o A798 oferece longos tempos de vida operacional e capacidade de operar em altas temperaturas. O ESR inerentemente baixo torna esses capacitores adequados para suportar correntes de ripple elevadas que normalmente seriam prejudiciais.

A construção do A798 baseia-se em um empilhamento de elementos de alumínio, que inclui o dielétrico Al2O3 e o contraeletrodo de polímero na superfície, enquanto as camadas externas são formadas por carbono e prata (Figura 2).

Figura 2: Os componentes da família A798 oferecem alta capacitância e longa vida útil sob as condições exigentes dos servidores de IA, graças aos seus materiais avançados, design sofisticado e implementação aprimorada. (Fonte: YAGEO Group)

Internamente, vários elementos de folha metálica são empilhados e posicionados dentro da construção do capacitor, o que é em grande parte responsável pelo ESR muito baixo (Figura 3).

Figura 3: Um diagrama em corte de um capacitor A798 mostra os diversos elementos necessários para criar a função de capacitância. (Fonte: YAGEO Group)

primoramentos no projeto e atualizações nos materiais selecionados foram introduzidos na série A798 para oferecer 1.000 horas a 85°C e umidade relativa muito elevada de 85% — na tensão nominal — além de vida útil e armazenamento com resistência a 125°C. O tamanho compacto do encapsulamento, a alta capacidade de corrente de ripple, a alta temperatura de operação, os baixos parasitas e a estabilidade de capacitância ao longo da vida útil tornam o A798 uma solução ideal para aplicações exigentes em servidores de IA.

Conclusão

Capacitores são essenciais para garantir a operação confiável de cargas de trabalho exigentes de IA. As falhas muitas vezes não resultam de baixa qualidade, mas da incapacidade dos testes padronizados de laboratório em capturar todas as condições severas dos data centers modernos. Os testes padronizados avaliam diversos estresses individuais, porém a operação real de servidores de IA frequentemente combina múltiplos fatores, como ciclos térmicos, corrente de ripple, polarização DC, umidade e pontos de calor localizados, que interagem de maneiras que os testes não conseguem reproduzir completamente.

À medida que as densidades de potência dos sistemas continuam a aumentar, os projetistas precisam considerar toda a gama de limitações dos capacitores e selecionar componentes comprovados para operar além das condições de laboratório e especificamente projetados para ambientes exigentes de servidores de IA.

Artigo escrito por Bill Schweber e publicado no blog da Mouser Electronics: Preventing Capacitor Failures in AI Server Power SystemsTraduzido pela Equipe Embarcados. Visite a página da Mouser Electronics no Embarcados

Comentários:
Notificações
Notificar
0 Comentários
recentes
antigos mais votados
Inline Feedbacks
View all comments
Home » Hardware » Prevenindo falhas de capacitores em sistemas de alimentação de servidores de IA

EM DESTAQUE

WEBINARS

VEJA TAMBÉM

JUNTE-SE HOJE À COMUNIDADE EMBARCADOS

Talvez você goste: