Estrategia Inteligente de Gestión Energética en Vehículos Híbridos de Pila de Combustible

Estrategia Inteligente de Gestión Energética en Vehículos Híbridos de Pila de Combustible

En el panorama de la movilidad de cero emisiones, una arquitectura vehicular destaca por su potencial para combinar autonomía extendida, repostaje rápido y capacidad de respuesta dinámica: el vehículo híbrido eléctrico de pila de combustible (FCHEV, por sus siglas en inglés). A diferencia de los vehículos eléctricos a batería (BEV), que dependen exclusivamente de electricidad almacenada, los FCHEV combinan una pila de combustible de hidrógeno con uno o más sistemas de almacenamiento de energía electroquímica, típicamente baterías de iones de litio y, cada vez más, ultracapacitores. Este tren motriz tripartito ofrece un equilibrio convincente: la salida de hidrógeno de alta densidad energética y limpia, la capacidad de amortiguación en estado estable de las baterías y las ráfagas de potencia ultrarrápidas (y la absorción regenerativa) de los ultracapacitores. Sin embargo, esta misma fortaleza —la complejidad del sistema— crea un formidable desafío de control: cómo asignar la potencia entre tres fuentes distintas en tiempo real, bajo condiciones de conducción en constante cambio, mientras se maximiza la eficiencia, la durabilidad y la capacidad de conducción.

Un estudio reciente de la Universidad de Ciencia y Tecnología de Henan ofrece una respuesta sólida. En su núcleo se encuentra una novedosa estrategia inteligente de gestión de energía (EMS) basada en una versión mejorada del algoritmo de aprendizaje por refuerzo profundo Soft Actor-Critic (SAC). Los investigadores no se limitaron a ajustar un modelo existente; rediseñaron su proceso de entrenamiento fundamental y su interacción con el tren motriz físico. El resultado es un sistema que no solo reacciona a la demanda del conductor: anticipa, optimiza y protege, logrando una mejora promedio medible del 6.4% en la economía de combustible sobre su predecesor, al mismo tiempo que suaviza significativamente la carga operativa en el componente más sensible: la pila de combustible.

Retrocedamos un momento. Las estrategias de control tradicionales para FCHEV se dividen en dos campos. Las estrategias basadas en reglas son simples y confiables pero inflexibles; son esencialmente respuestas preprogramadas «si-entonces» que no pueden adaptarse a patrones de tráfico novedosos o complejos. Las estrategias basadas en optimización, como la programación dinámica (DP), pueden producir resultados casi óptimos, pero son computacionalmente exhaustivas y a menudo requieren el conocimiento de todo el ciclo de conducción futuro, lo que las hace impracticables para su uso en tiempo real a bordo. El auge del aprendizaje por refuerzo profundo (DRL) prometió un camino intermedio: un algoritmo que pudiera aprender la política de control óptima mediante experiencia simulada, adaptándose a nuevas situaciones con intuición similar a la humana, pero ejecutándose de manera lo suficientemente eficiente como para estar integrado en la unidad de control de un vehículo.

Los primeros éxitos del DRL en EMS utilizaron algoritmos como Q-learning o su contraparte profunda, Deep Q-Networks (DQN). Sin embargo, estos enfoques se toparon con un obstáculo fundamental: la «maldición de la dimensionalidad». La asignación de energía en un FCHEV no es un simple interruptor de encendido/apagado; es una decisión continua: ¿cuántos kilovatios debe producir la pila de combustible en este momento? ¿Cuántos debe contribuir la batería? Estas son variables que pueden tomar un número infinito de valores entre sus límites mínimo y máximo. El Q-learning lucha enormemente en estos espacios de acción continuos y de alta dimensionalidad.

El campo luego giró hacia algoritmos como Deep Deterministic Policy Gradient (DDPG), que sobresale en dominios continuos. DDPG aprende una política determinista, lo que significa que para cada estado observado —la velocidad del vehículo, la aceleración, el estado de carga (SoC) de la batería, etc.— produce una y solo una acción «óptima». Si bien esto es computacionalmente eficiente, también es frágil. El mundo real es desordenado. Una lectura del sensor podría ser momentáneamente ruidosa, o un conductor podría realizar una maniobra inesperada. Una política determinista, habiéndose comprometido por completo a una acción precisa, carece de la flexibilidad para absorber con elegancia tales perturbaciones. Es como un funámbulo sin margen de maniobra.

Aquí es donde entra en escena el algoritmo Soft Actor-Critic (SAC). SAC pertenece a una nueva generación de métodos DRL que incorporan el principio de entropía máxima. En lugar de buscar una única acción rígidamente óptima, SAC busca una política estocástica (probabilística): una distribución de acciones que son todas «suficientemente buenas», ponderadas por su probabilidad de éxito. Esta aleatoriedad incorporada sirve como exploración, permitiendo que el controlador maneje con elegancia las incertidumbres y evite quedarse permanentemente estancado en patrones de control subóptimos. Es el funámbulo que puede hacer pequeñas oscilaciones correctivas para mantener el equilibrio.

El equipo de investigación, dirigido por el profesor Tao Fazhan, reconoció el potencial de SAC pero también su talón de Aquiles: la inestabilidad del entrenamiento. En las caóticas etapas iniciales del aprendizaje, un agente de DRL toma muchas malas decisiones. En una configuración SAC tradicional, cada una de estas malas experiencias —un caso en el que el agente ordenó a la pila de combustible que aumentara al 100% de potencia durante una suave coasting, por ejemplo— se registra en el «banco de memoria» del agente, conocido como el búfer de reproducción de experiencias. Durante el entrenamiento, el algoritmo muestrea aleatoriamente de este búfer para aprender. Si el búfer está inundado de fallos catastróficos de las primeras horas de entrenamiento, todo el proceso de aprendizaje puede descarrilar, conduciendo a un controlador que es no funcional o altamente subóptimo.

Su ingeniosa solución fue introducir un mecanismo de «Reproducción de Experiencias Heurísticas». Imagínelo como un mentor sabio que supervisa el aprendizaje de un novato. Antes de que una nueva experiencia se agregue al banco de memoria, el sistema realiza una comprobación de cordura rápida. Compara la nueva acción contra una biblioteca de estrategias de control conocidas y de alta calidad, derivadas de años de datos experimentales previos y experiencia en el dominio. Si la nueva acción es extremadamente irrazonable —por ejemplo, agotar el ultracapacitor a cero en menos de un segundo, o empujar la pila de combustible más allá de su envolvente operativa segura— la experiencia es rechazada. Luego se le solicita al agente que intente nuevamente, generando una acción más plausible para registrar en su lugar.

Este filtro simple pero poderoso actúa como un estabilizador del entrenamiento. No da la respuesta en bandeja; simplemente evita que el agente aprenda de sus errores más flagrantes y dañinos para el sistema. El análisis de convergencia del artículo demuestra esto vívidamente: las curvas de pérdida y recompensa del entrenamiento del SAC mejorado muestran un progreso suave y constante, mientras que las curvas del SAC tradicional exhiben picos y mesetas violentas, indicativas de un proceso de aprendizaje constantemente saboteado por sus propios fracasos pasados.

Pero la inteligencia no se detiene en el algoritmo. Un EMS verdaderamente efectivo para un FCHEV de tres fuentes primero debe simplificar el problema que intenta resolver. El equipo empleó una arquitectura inteligente de dos etapas: Estratificación de Potencia.

La primera etapa utiliza un filtro adaptativo difuso para realizar una «descomposición de frecuencia» en tiempo real de la demanda de potencia del conductor. Imagine la señal de potencia como un acorde musical complejo. Este filtro actúa como un ecualizador de audio sofisticado, separando el acorde en sus notas constituyentes. Las «notas» de alta frecuencia —los picos agudos de potencia necesarios para una aceleración agresiva o las súbitas sobrecargas absorbidas durante un frenado brusco— se enrutan instantáneamente al ultracapacitor. Este componente es idealmente adecuado para este papel, capaz de cargarse y descargarse a velocidades cientos de veces más rápidas que una batería, con una degradación mínima.

Al descargar estos eventos transitorios de alta potencia, el sistema crea una señal de potencia de «frecuencia media y baja» más tranquila y manejable para la segunda etapa: el controlador basado en SAC. Este controlador ahora solo necesita decidir cómo dividir esta demanda de potencia suavizada entre la pila de combustible y la batería de litio. Esta división del trabajo es crítica: protege la pila de combustible de los picos de corriente dañinos y del ciclado térmico, y protege a la batería del estrés por alta corriente, extendiendo así la vida útil de ambos componentes costosos.

El «objetivo» del controlador SAC, definido por su función de recompensa, es elegantemente multifacético. No se trata solo de minimizar el consumo de hidrógeno, aunque eso es primordial. La función de recompensa, inspirada en el principio de la Estrategia de Minimización de Consumo Equivalente (ECMS), también penaliza al controlador por permitir que el SoC de la batería se desvíe demasiado de su punto de ajuste ideal (0.7 en sus pruebas). Esto asegura que la batería permanezca en su ventana operativa más eficiente y duradera, lista para asistir cuando sea necesario sin estar crónicamente sobrecargada o agotada.

La validación de este sistema fue rigurosa. Los investigadores sometieron su estrategia SAC mejorada a una batería de cuatro ciclos de conducción estándar de la industria: el caos de parar y arrancar del Urban Dynamometer Driving Schedule (UDDS), la crucero constante del Highway Fuel Economy Test (HWFET), el perfil mixto del New European Driving Cycle (NEDC) y el más agresivo West Virginia University Suburban Cycle (WVUSUB). A través de este espectro diverso, los resultados fueron consistentes y convincentes.

En el ciclo UDDS altamente dinámico, la estratificación de potencia brilló. Cuando el conductor pisó a fondo el acelerador desde parado, el ultracapacitor proporcionó la ráfaga inicial de potencia, permitiendo que la pila de combustible aumentara de manera más gradual y suave. Durante el frenado, el ultracapacitor absorbió ávidamente la energía regenerativa que de otro modo habría abrumado el circuito de carga de la batería. Los datos del artículo muestran que bajo el SAC mejorado, la curva de potencia de salida de la pila de combustible fue notablemente menos irregular que bajo el SAC tradicional, un indicador directo de un estrés mecánico y térmico reducido.

Crucialmente, esta operación más suave no se logró a costa de la eficiencia. De hecho, la mejoró. La pila de combustible opera de manera más eficiente dentro de un «punto óptimo» específico de su rango de potencia. Al evitar que sea sacada bruscamente de esta zona por demandas transitorias, el sistema la mantuvo funcionando en su banda de alta eficiencia durante períodos más largos. Los datos confirman esto: el SAC mejorado demostró consistentemente una mayor eficiencia operativa de la pila de combustible, particularmente durante los segmentos más volátiles del ciclo de conducción.

Las cifras de economía de combustible hablan por sí solas. La estrategia mejorada entregó un consumo equivalente de hidrógeno de 2.3 L/100 km en UDDS, comparado con 2.5 para el SAC tradicional: una mejora total del 8%. En HWFET, la ganancia fue del 4.3%, y en el exigente WVUSUB, fue del 6.9%. Promediado en las cuatro pruebas, la mejora se situó en un altamente significativo 6.4%. Para una industria donde se celebra una ganancia del 1%, este es un salto masivo.

Más allá de la simulación, el equipo pasó a la validación hardware-in-the-loop en un banco de pruebas sofisticado. Esta plataforma integró componentes reales —pila de combustible, paquete de baterías de litio, módulo de ultracapacitores y un dinamómetro para simular la carga de la carretera— controlados por el algoritmo ejecutándose en un entorno LabVIEW. La prueba del mundo real reflejó las simulaciones: el SAC mejorado mantuvo la eficiencia de la pila de combustible casi exclusivamente dentro del rango óptimo del 50-60%, incluso durante un período deliberadamente duro de 200 segundos de demanda de potencia que fluctuaba rápidamente. Mientras tanto, el SoC de la batería disminuyó de una manera bellamente lineal y predecible, confirmando la capacidad de la estrategia para gestionar el balance energético a largo plazo sin estrés innecesario.

Este trabajo representa un paso significativo hacia adelante, pero los autores ya están mirando hacia el futuro. Su conclusión señala una frontera crítica: si bien su estrategia conserva efectivamente la energía de la batería, no modela directamente la degradación interna de la batería. Una batería no solo pierde carga; su química interna se deteriora lentamente con cada ciclo de carga/descarga, especialmente bajo alto estrés. La próxima generación de EMS inteligentes necesitará incorporar modelos predictivos de salud, transformando el controlador de un contable de energía en un «médico del tren motriz» holístico que prescriba acciones no solo para la eficiencia inmediata, sino para la longevidad plurianual.

En un mercado donde el coste total de propiedad de los vehículos de hidrógeno sigue siendo una barrera clave, extender la vida útil de la pila de combustible de $10,000 o del paquete de baterías de $15,000 no es una nota técnica al pie: es un imperativo comercial. Al unir el aprendizaje por refuerzo profundo con heurísticas prácticas basadas en la física, esta investigación de la Universidad de Ciencia y Tecnología de Henan ha entregado una estrategia que no solo es académicamente elegante, sino industrialmente relevante. Es una señal clara de que el futuro de la movilidad inteligente no estará escrito en código rígido, sino en algoritmos adaptativos y auto-correctorios que aprenden, protegen y optimizan, al igual que los mejores conductores humanos.

Tao Fazhan, Lu Hongxin, Fu Zhumu, Sun Haochen, Ma Haoxiang. Gestión Inteligente de Energía para Vehículos Eléctricos Híbridos de Pila de Combustible. Journal of Henan University of Science and Technology (Natural Science), 2023, 44(6): 49–56. DOI:10.15926/j.issn1672-6871.2023.06.007