Modelo de Gestión para Flotas de Taxis Autónomos Mejora Rentabilidad y Eficiencia Energética

Un innovador estudio desarrollado por investigadores de la Universidad de Tecnología de Guangdong ha presentado un nuevo modelo de planificación dinámica para flotas de taxis eléctricos autónomos que mejora significativamente la rentabilidad operativa a largo plazo al integrar predicciones de ingresos futuros en la toma de decisiones en tiempo real. Liderado por Zeng Weiliang y Han Yu de la Escuela de Automatización, junto con Fu Hui de la Escuela de Ingeniería Electromecánica, la investigación emplea técnicas de aprendizaje por refuerzo para optimizar simultáneamente las estrategias de enrutamiento y carga, marcando un avance clave en los sistemas de movilidad urbana inteligente.

Publicado en la revista Industrial Engineering Journal, el estudio aborda una limitación crítica en los modelos tradicionales de asignación de taxis: su enfoque en la optimización de costos inmediatos, ignorando el impacto que las decisiones actuales pueden tener en los ingresos futuros. Los sistemas convencionales suelen utilizar algoritmos de asignación codiciosa que asignan el vehículo más cercano a cada solicitud de viaje, sin considerar cómo esta decisión afecta la disponibilidad futura, la posición estratégica o el consumo energético. Aunque estos métodos son computacionalmente eficientes, frecuentemente resultan en una distribución subóptima de la flota, tiempos de espera más largos para los pasajeros y un uso ineficiente de la energía, especialmente en flotas autónomas de gran escala que operan las 24 horas del día.

Para superar estas deficiencias, el equipo desarrolló un marco novedoso que evalúa no solo el beneficio inmediato de cada decisión de asignación, sino también su impacto potencial en ganancias futuras. Este enfoque prospectivo se logra mediante el uso de una función de valor de estado aproximada mediante redes neuronales profundas, que estima el retorno acumulativo a largo plazo asociado con el estado espacio-temporal de un vehículo tras ejecutar una acción específica. Al incorporar este valor futuro previsto en la decisión de asignación actual, el modelo permite una reposicionamiento más estratégico de los vehículos, una gestión inteligente de la carga y una mejor asignación de pasajeros.

La innovación central reside en la integración de la tecnología de vehículo a red (V2G) y las tarifas eléctricas por horarios en la lógica de asignación. A diferencia de los modelos convencionales que tratan la carga como una actividad necesaria pero pasiva, este sistema utiliza activamente las estaciones de carga como microrredes donde los taxis autónomos inactivos pueden cargar durante las horas de menor demanda o devolver energía a la red durante los picos de consumo, generando así ingresos adicionales. Este flujo bidireccional de energía transforma a los vehículos eléctricos de simples unidades de transporte en activos energéticos móviles que contribuyen a la estabilidad de la red y reducen simultáneamente los costos operativos de la flota.

El modelo opera dentro de una ventana de tiempo fija —establecida en cinco minutos en la simulación— durante la cual el sistema evalúa todas las acciones disponibles para cada vehículo «asignable». Estas acciones incluyen permanecer inactivo, reubicarse a una nueva zona, cargar, descargar o aceptar una solicitud de pasajero. Cada acción recibe un valor compuesto que combina su retorno financiero inmediato con el valor futuro descontado del estado resultante del vehículo. La solución global de asignación se determina luego mediante la resolución de un problema de emparejamiento bipartito ponderado que maximiza el valor total de la flota, respetando restricciones como un vehículo por viaje y un viaje por vehículo.

Para garantizar eficiencia computacional y escalabilidad, los investigadores emplearon un proceso de solución en dos etapas. Primero, una heurística codiciosa identifica una solución inicial de alta calidad basada en la clasificación de los valores de acción, priorizando la recogida de pasajeros cuando los valores son comparables. Esta solución inicial se refina posteriormente utilizando un solucionador de programación entera, permitiendo al sistema manejar entornos urbanos de gran escala con cientos de vehículos y miles de nodos. Todo el proceso se repite en cada paso de tiempo, permitiendo una adaptación continua a las condiciones de tráfico y patrones de demanda cambiantes.

El entrenamiento de la función de valor de estado se basa en una arquitectura de aprendizaje por refuerzo profundo mejorada con redes neuronales dobles y repetición de experiencias, técnicas comúnmente utilizadas en el aprendizaje Q profundo (DQN). Una red de evaluación estima el valor actual de los estados de los vehículos, mientras que una red de destino separada proporciona señales de entrenamiento estables al calcular retornos futuros bootstrap. Las tuplas de experiencia —compuestas por estado, acción, recompensa y estado siguiente— se almacenan en un búfer de repetición y se muestrean en mini-lotes para actualizar la red de evaluación, mejorando la eficiencia de los datos y reduciendo la correlación entre actualizaciones consecutivas. El equilibrio entre exploración y explotación se gestiona mediante una política ε-greedy, donde el sistema explora inicialmente acciones aleatorias para recopilar diversas experiencias antes de desplazarse gradualmente hacia decisiones guiadas por el valor a medida que el modelo converge.

La validación experimental se realizó utilizando una red vial simulada extraída de Shenzhen, que cubre un área urbana de 6 km × 6 km con 2.876 vías y 1.712 intersecciones. La flota de prueba constó de 40 vehículos eléctricos autónomos, cada uno equipado con una batería de 200 kWh, capaz de cargar y descargar a 150 kW. Las solicitudes de viaje se generaron según un proceso de Poisson calibrado con datos históricos de demanda de taxis, con probabilidades de origen concentradas hacia el centro de la ciudad y destinos asignados aleatoriamente. La tolerancia de espera de los pasajeros se modeló como una variable aleatoria uniforme entre 10 y 30 minutos, reflejando expectativas de usuario realistas.

Las tarifas comerciales de electricidad por horarios en Shenzhen se incorporaron a la simulación, con períodos distintos de pico, valle y media carga. Durante las horas punta (10:00–15:00 y 18:00–21:00), los precios de la electricidad alcanzaron 1,38 yuan/kWh, mientras que en las horas valle cayeron a 0,28 yuan/kWh entre las 23:00 y las 07:00. Esta diferencia de precio significativa crea fuertes incentivos económicos para estrategias inteligentes de carga y descarga, que el modelo propuesto aprovecha para minimizar los costos netos de energía.

El rendimiento se comparó con tres enfoques establecidos: Primero en Llegar, Primero en Servir (FCFS), que asigna el vehículo disponible más cercano a cada solicitud; Beneficio Óptimo (OB), que maximiza el ingreso inmediato en cada paso de tiempo; y un modelo estándar de Red Q Profunda (DQN) adaptado para la asignación de múltiples vehículos. Todos los algoritmos se probaron durante un período de operación simulado de 100 días, con los resultados promediados en 10 conjuntos de pruebas independientes para garantizar solidez estadística.

Los hallazgos revelaron ventajas sustanciales para el modelo propuesto. En la simulación de 100 días, el nuevo modelo logró un aumento del 25% en las ganancias operativas totales en comparación con el mejor método de referencia. Esta ganancia proviene de una combinación de tasas de servicio más altas, menores gastos energéticos y una mejor utilización de la flota. Específicamente, la tasa de respuesta a pasajeros —la proporción de solicitudes de viaje cumplidas con éxito— aumentó en 4 puntos porcentuales, superando el 73% en comparación con el 69% del DQN y por debajo del 60% para FCFS y OB. Al mismo tiempo, el tiempo de espera promedio de los pasajeros disminuyó en un 20%, de más de 20 minutos bajo FCFS a poco menos de 8 minutos, mejorando la satisfacción del usuario y la competitividad en el mercado de movilidad.

La reducción de costos energéticos fue particularmente notable. A pesar de un mayor consumo eléctrico general debido al aumento del movimiento de vehículos y el volumen de servicio, el costo neto de energía —la diferencia entre los gastos de carga y los ingresos por descarga— se redujo en un 50%. Este ahorro dramático se atribuye a la capacidad del modelo para anticipar las fluctuaciones de precios y programar estratégicamente la carga durante los períodos de bajo costo, mientras vende energía almacenada de vuelta a la red durante las ventanas de precios altos. En contraste, el modelo DQN, aunque intentó incorporar valor futuro, no logró capturar completamente los patrones temporales de precios de electricidad y a menudo convergió a óptimos locales, lo que llevó a una gestión energética menos efectiva.

El éxito del modelo también destaca la importancia del diseño de sistemas integrales en la movilidad autónoma. En lugar de tratar el enrutamiento, la carga y la asignación de pasajeros como problemas de optimización separados, el marco integrado reconoce su interdependencia. Por ejemplo, enviar un vehículo a una zona de alta demanda distante puede incurrir en costos de viaje inmediatos, pero puede generar mayores recompensas a largo plazo si conduce a múltiples viajes consecutivos. De manera similar, retrasar una recogida para cargar primero en una estación cercana puede aumentar ligeramente el tiempo de espera del pasajero, pero asegura que el vehículo permanezca operativo y evita reubicaciones de emergencia costosas más adelante.

Además, el modelo demuestra cómo las flotas autónomas pueden servir como recursos energéticos flexibles dentro de la infraestructura de ciudades inteligentes. Al agregar la capacidad de almacenamiento de docenas o cientos de vehículos, los operadores de flotas pueden participar en programas de respuesta a la demanda, proporcionar servicios de regulación de frecuencia y ayudar a equilibrar la integración de energías renovables. Este doble papel —como proveedores de movilidad y activos que apoyan a la red— mejora la viabilidad económica de los servicios de movilidad autónoma mientras contribuye a objetivos de sostenibilidad más amplios.

Otra fortaleza clave del enfoque es su adaptabilidad a diferentes contextos urbanos y requisitos operativos. La función de valor basada en redes neuronales se puede reentrenar con patrones de demanda locales, redes viales y tarifas eléctricas, lo que la hace aplicable a ciudades de todo el mundo. Además, el diseño modular permite la incorporación de restricciones u objetivos adicionales, como modelos de degradación de baterías, congestión en estaciones de carga o métricas de impacto ambiental, sin necesidad de cambios fundamentales en el algoritmo principal.

A pesar de sus logros, los autores reconocen varias limitaciones y vías para trabajos futuros. El modelo actual asume condiciones idealizadas, incluyendo carga/descarga instantánea, ninguna cola en las estaciones de carga y conocimiento perfecto de las distribuciones de demanda futura. En la implementación real, factores como el envejecimiento de la batería, tasas de carga variables y comportamiento de pasajeros incierto necesitarían abordarse. Además, la transición de la simulación a pruebas en el mundo real presenta desafíos relacionados con la precisión de los sensores, la latencia de comunicación y la garantía de seguridad.

Sin embargo, el estudio representa un paso significativo hacia adelante en la gestión inteligente de flotas autónomas de vehículos eléctricos. Su énfasis en el valor a largo plazo sobre las ganancias a corto plazo se alinea con las realidades operativas de los servicios de movilidad 24/7, donde las decisiones tomadas hoy afectan directamente la rentabilidad de mañana. Mientras las ciudades de todo el mundo buscan reducir la congestión, las emisiones y los costos de transporte, soluciones como esta ofrecen un camino hacia sistemas de movilidad urbana más eficientes, sostenibles y económicamente viables.

Las implicaciones se extienden más allá de los servicios de transporte compartido. Los mismos principios podrían aplicarse a otras aplicaciones de vehículos autónomos compartidos, como flotas de entrega, microtránsitos o logística de la última milla. En cada caso, la capacidad de anticipar la demanda futura y optimizar tanto el movimiento como el uso de energía puede conducir a mejoras de rendimiento sustanciales. Además, a medida que madura la tecnología de vehículos autónomos y evolucionan los marcos regulatorios, la integración de capacidades V2G podría convertirse en una característica estándar, transformando a los vehículos eléctricos en componentes integrales de redes energéticas distribuidas.

Desde una perspectiva política, la investigación subraya la necesidad de una planificación coordinada entre los sectores de transporte y energía. Las municipalidades que invierten en movilidad autónoma deben considerar las sinergias con el desarrollo de redes inteligentes, asegurando que la infraestructura de carga no solo sea suficiente en cantidad, sino también estratégicamente ubicada y capaz de flujo de energía bidireccional. Las estructuras de incentivos, como precios dinámicos o cargos por congestión, pueden guiar aún más el comportamiento de la flota hacia resultados socialmente óptimos, como una menor congestión en el centro de la ciudad o menores cargas pico en la electricidad.

Para las partes interesadas de la industria, el estudio proporciona un caso de negocio convincente para adoptar sistemas avanzados de asignación impulsados por inteligencia artificial. Aunque la inversión inicial en infraestructura de datos y experiencia en aprendizaje automático puede ser significativa, los retornos a largo plazo en términos de ingresos aumentados, costos operativos reducidos y mayor satisfacción del cliente pueden superar con creces estos gastos. Las empresas que adopten estas tecnologías temprano podrían obtener una ventaja competitiva en el mercado de movilidad como servicio, que evoluciona rápidamente.

En conclusión, el trabajo de Zeng Weiliang, Han Yu y Fu Hui presenta una solución integral y práctica a uno de los desafíos más urgentes en el transporte autónomo: cómo equilibrar las demandas de servicio inmediatas con la eficiencia operativa a largo plazo. Al integrar expectativas de ingresos futuros en decisiones de asignación en tiempo real y aprovechar la funcionalidad dual de los vehículos eléctricos como transportistas y portadores de energía, el modelo establece un nuevo estándar para la gestión inteligente de flotas. A medida que los taxis eléctricos autónomos pasan de proyectos piloto a una implementación generalizada, enfoques como este serán esenciales para desbloquear su máximo potencial económico y ambiental.

Zeng Weiliang, Han Yu, Fu Hui. Industrial Engineering Journal. doi: 10.3969/j.issn.1007-7375.230095