Algoritmo de IA Optimiza Gestión de Flotas Eléctricas
La movilidad eléctrica ha dejado de ser una promesa futurista para convertirse en un pilar fundamental de la transformación energética global. Con cifras que proyectan cientos de millones de vehículos eléctricos (VE) en las carreteras en las próximas décadas, su papel trasciende el simple transporte. Estos vehículos están evolucionando hacia activos energéticos dinámicos, capaces de interactuar bidireccionalmente con la red eléctrica. Sin embargo, el verdadero potencial de esta revolución no reside en cada batería individual, sino en la capacidad de gestionar miles de ellas de forma coordinada. Es aquí donde entran en juego los agregadores de vehículos eléctricos (EVA), entidades que agrupan flotas de VE para convertirlas en un recurso energético coherente y valioso. Un nuevo estudio, liderado por Kong Yueping y Yang Shihai del Centro de Servicio de Marketing de State Grid Jiangsu Electric Power Co., Ltd., ha presentado un algoritmo de inteligencia artificial que promete revolucionar la forma en que estos agregadores toman decisiones, maximizando tanto la rentabilidad como la sostenibilidad de las flotas.
El concepto de Vehículo a Red (V2G) es central en esta transición. Permite que los vehículos, cuando están conectados a un punto de carga, no solo consuman energía, sino que también la devuelvan al sistema eléctrico. Esta capacidad de actuar como una batería distribuida masiva ofrece innumerables beneficios: estabiliza la red frente a la intermitencia de las energías renovables, ayuda a suavizar los picos de demanda y abre nuevas vías de ingresos para los propietarios de vehículos eléctricos. Sin embargo, el desafío radica en la escala y la complejidad. Un solo vehículo tiene una capacidad de batería demasiado pequeña para participar directamente en los mercados mayoristas de energía o en servicios de regulación de frecuencia. Es el agregador el que, al sumar la flexibilidad de miles de vehículos, crea un «planta virtual» con el tamaño necesario para ser un jugador relevante en el mercado energético.
Las decisiones que debe tomar un EVA son profundamente complejas y están interconectadas. Por un lado, debe decidir qué cantidad de energía y qué capacidad de reserva (potencia para subir o bajar la generación) ofertar en los mercados de energía del día siguiente y en el mercado de equilibrio. Por otro lado, una vez que se toma esa decisión de mercado, debe resolver cómo distribuir físicamente esa carga o descarga entre los miles de vehículos que componen su flota. Tradicionalmente, estas dos decisiones se han tratado de forma separada o con enfoques simplificados. Los métodos de optimización clásica, como la programación lineal mixta entera, requieren modelos matemáticos precisos y predicciones exactas de variables inciertas como los precios de la electricidad, los patrones de llegada y salida de los vehículos y sus necesidades de carga. Cuando estas predicciones fallan, las estrategias resultantes pueden ser subóptimas o incluso inviables, perjudicando tanto la economía del agregador como la satisfacción del usuario.
Es en este punto de estancamiento donde la investigación de Kong, Yang y su equipo introduce una solución radicalmente diferente: el aprendizaje por refuerzo (Reinforcement Learning, RL). Este enfoque de inteligencia artificial no depende de modelos perfectos del mundo. En su lugar, un «agente» (el algoritmo del agregador) aprende a través de la interacción directa con su entorno. El agente toma una acción (por ejemplo, ofertar una cierta cantidad de energía), observa el resultado (el precio del mercado, la respuesta de la flota) y recibe una recompensa o una penalización. Con el tiempo, el agente aprende la política óptima, es decir, la secuencia de acciones que maximiza su recompensa a largo plazo. Este enfoque es particularmente potente en entornos dinámicos e inciertos, como el mercado eléctrico, donde las condiciones cambian constantemente.
El verdadero logro de este estudio, publicado en la prestigiosa revista Computer Engineering (DOI: 10.19678/j.issn.1000-3428.0068701), no es simplemente aplicar RL, sino diseñar un algoritmo que pueda manejar dos tipos de decisiones simultáneamente, lo que los autores denominan «acciones híbridas». Este enfoque rompe con el paradigma tradicional de tratar la oferta de mercado y la distribución de potencia como problemas aislados.
El algoritmo propuesto, una variante avanzada del Proximal Policy Optimization (PPO), es capaz de generar dos tipos de acciones en cada paso de decisión. Primero, acciones continuas que determinan la magnitud de la oferta en el mercado. Esto incluye cuánta energía (en kWh) se comprará o venderá en el mercado de energía y cuánta capacidad de reserva se comprometerá para servicios de regulación. Estos valores pueden variar en un rango continuo, permitiendo una optimización fina y precisa. Segundo, acciones discretas que controlan una decisión estratégica clave: cómo se distribuye la potencia total entre los vehículos individuales. Aquí, el agente no elige un valor, sino una estrategia específica entre dos opciones principales.
La primera estrategia es la distribución proporcional. Esta estrategia asigna la carga o descarga de forma equitativa, basándose en la «flexibilidad» actual de cada vehículo. La flexibilidad se define como la capacidad de un vehículo para aumentar o disminuir su potencia de carga sin comprometer su necesidad de tener una batería cargada a su hora de salida. Esta estrategia es excelente para preservar la flexibilidad general de la flota, ya que evita que cualquier vehículo se cargue completamente o se descargue por completo demasiado pronto. Esto mantiene a todos los vehículos disponibles para futuras oportunidades de mercado, pero puede implicar un mayor número de ciclos de carga parcial, lo que podría acelerar la degradación de la batería a largo plazo.
La segunda estrategia es la distribución por prioridad. Esta estrategia es más selectiva y se centra en minimizar el desgaste de la batería. Clasifica los vehículos según un «índice de comodidad» que combina cuánto tiempo les queda en la estación y cuánta energía necesitan para alcanzar su objetivo. Los vehículos con poco tiempo de estancia y mucha energía necesaria (poca comodidad) tienen prioridad para cargar. Por el contrario, los vehículos con mucho tiempo de estación y mucha energía almacenada (alta comodidad) tienen prioridad para descargar. Este enfoque protege las baterías de los vehículos que tienen menos margen de maniobra, reduciendo así los costos de degradación. Sin embargo, su desventaja es que puede llevar a un uso desigual de la flota, donde algunos vehículos se utilizan intensamente mientras que otros permanecen subutilizados, lo que reduce la flexibilidad total disponible.
La genialidad del algoritmo HPPO (Hybrid PPO) reside en su capacidad para cambiar dinámicamente entre estas dos estrategias. No se ve obligado a elegir una y adherirse a ella durante todo el día. En cambio, aprende a evaluar el contexto en tiempo real y a tomar la decisión estratégica correcta. Los resultados de las simulaciones son reveladores. Durante las horas nocturnas, cuando los precios de la electricidad son más bajos, el algoritmo tiende a elegir la estrategia proporcional. Esto permite cargar la flota de forma económica y, al mismo tiempo, mantener la flexibilidad de todos los vehículos, preparándolos para posibles oportunidades de descarga durante el día.
A medida que el sol se eleva y los precios de la energía alcanzan su punto máximo, el comportamiento del algoritmo cambia drásticamente. Cambia a la estrategia de prioridad. Cuando el EVA decide descender la flota para vender energía cara al mercado, el algoritmo prioriza la descarga de aquellos vehículos que tienen mucha energía y que se quedarán conectados durante mucho tiempo. Esto asegura que los vehículos con una ventana de carga corta o con baterías ya bajas no sean forzados a descargar, protegiéndolos de un desgaste excesivo. Este cambio estratégico inteligente es la clave de su superioridad.
Las pruebas comparativas realizadas por los investigadores demuestran de forma contundente la eficacia de este enfoque. El algoritmo HPPO fue comparado con varios puntos de referencia, incluyendo versiones del mismo algoritmo PPO que solo utilizaban una estrategia fija (solo proporcional o solo por prioridad) y con otro algoritmo de aprendizaje por refuerzo de vanguardia, el Soft Actor-Critic (SAC). Los resultados fueron concluyentes. El HPPO no solo alcanzó la mayor recompensa acumulada, un indicador directo de mayor rentabilidad, sino que también lo hizo de manera más estable y eficiente.
En comparación con un algoritmo que solo utiliza la estrategia por prioridad, el HPPO redujo el costo operativo total diario en un 1,9%. En comparación con uno que solo utiliza la estrategia proporcional, la reducción fue aún más impresionante: un 3,2%. Esto significa que el simple hecho de permitir el cambio dinámico entre estrategias genera un ahorro económico significativo. Además, el algoritmo SAC, a pesar de su sofisticación, no logró converger en el tiempo de entrenamiento disponible y mostró un rendimiento inferior, lo que subraya la robustez y la eficiencia del enfoque PPO en este escenario específico.
Un segundo aporte fundamental de este trabajo es la forma en que modelan la «flexibilidad agregada» de la flota. La mayoría de los modelos anteriores se centraban únicamente en el aspecto físico: cuánta potencia se puede mover y durante cuánto tiempo. Kong y Yang introducen un elemento crucial: el valor económico de la flexibilidad. Definen que la «flexibilidad de unidad» en un momento dado es igual al precio mayorista de la electricidad en ese momento. Una kilovatio-hora de flexibilidad es mucho más valiosa cuando el precio es alto que cuando es bajo. Su modelo de flexibilidad no solo calcula lo que se puede hacer, sino lo que debe hacerse para maximizar el valor total de la flexibilidad a lo largo del día. Este modelo, que considera las restricciones de carga de cada vehículo y los precios del mercado, permite al EVA tomar decisiones no solo técnicamente factibles, sino económicamente óptimas desde el principio.
La función de recompensa del agente es un reflejo perfecto de los objetivos del mundo real. No se trata solo de maximizar los ingresos por venta de energía. La recompensa penaliza activamente los costos negativos: el costo de comprar energía cara, el costo de la degradación de la batería (modelado como una función polinómica que refleja el desgaste no lineal), el costo de no satisfacer la demanda de carga de un usuario y el costo de no entregar la potencia exacta que se ofertó en el mercado. Al equilibrar todos estos factores, el agente aprende una política de negocio integral que es sostenible tanto desde el punto de vista financiero como del mantenimiento de la flota.
La arquitectura del algoritmo es ingeniosa. Utiliza una red neuronal con una estructura en «ramas». Una capa compartida procesa la información del estado (precios, estado de carga total, etc.). Luego, dos ramas separadas toman el control: una rama para las acciones continuas (la oferta de mercado) y otra para la acción discreta (la elección de la estrategia de distribución). Ambas ramas se entrenan simultáneamente, lo que permite que las decisiones estén coordinadas. Una red de valor compartida evalúa la calidad del estado, guiando todo el proceso de aprendizaje. Esta arquitectura evita la ineficiencia de entrenar dos agentes separados y promueve una cooperación natural entre las dos decisiones.
Las implicaciones de esta investigación son profundas. Para los operadores de parques de carga y las empresas de servicios energéticos, este algoritmo representa una herramienta poderosa para transformar sus instalaciones en centros de gestión energética activa, generando ingresos adicionales y mejorando la eficiencia operativa. Para los propietarios de vehículos eléctricos, significa una participación más rentable en el mercado V2G, con el beneficio adicional de que sus baterías están siendo gestionadas de una manera que minimiza el desgaste, aumentando así su vida útil y protegiendo su inversión.
Para los sistemas eléctricos, la adopción a gran escala de agregadores inteligentes como este podría ser un catalizador para una red más resiliente y sostenible. La capacidad de almacenar energía sobrante de fuentes renovables y liberarla cuando más se necesita es esencial para descarbonizar el sector energético. Este algoritmo no es solo un avance técnico; es un paso crucial hacia un futuro donde los vehículos eléctricos no son solo consumidores de energía, sino ciudadanos energéticos activos y responsables.
Kong Yueping, Yang Shihai et al., Marketing Service Center of State Grid Jiangsu Electric Power Co., Ltd., Computer Engineering, DOI: 10.19678/j.issn.1000-3428.0068701