چکیده
مقدمه
کار مرتبط
روش شناسی
بیان مسأله
مدل یادگیری تقویتی عمیق
الگوریتم های یادگیری تقویتی عمیق
نتایج تجربی
نتیجه
منابع
Abstract
Introduction
Related Work
Methodology
Problem Statement
Deep Reinforcement Learning Model
Deep Reinforcement Learning Algorithms
Experimental Results
Conclusion
References
چکیده
پیشرفتهای اخیر در یادگیری تقویتی عمیق نتایج امیدوارکنندهای را در حل مسائل کنترلی پیچیده با حالتهای ابعادی بالا و فضای عمل نشان داده است. با الهام از این، ما از جدیدترین روشهای یادگیری تقویت عمیق (DRL) برای بهبود تحرک ترافیک آزادراه و کاهش تنگناها و تراکمهای مکرر استفاده میکنیم. به طور خاص، این مقاله یک سیستم کنترل ترافیک متمرکز را پیشنهاد میکند که میتواند کنترلکنندههای ترافیک چندگانه اندازهگیری رمپ (RM) و محدودیت سرعت متغیر (VSL) را در آزادراهها هماهنگ کند تا کل زمان سفر را به حداقل برساند. این سیستم از یک ساختار دولایه جدید برای همگامسازی کنترلکنندههای مختلف ترافیک استفاده میکند و روشهای DRL مبتنی بر منتقد را برای یادگیری اقدامات مشترک در یک محیط ترافیکی با ابعاد بالا معرفی میکند. عملکرد پاداش، زمان انتظار وسایل نقلیه، میانگین سرعت بخشهای مختلف جاده، و محدودیت صف در رمپ را برای بهبود تحرک ترافیک در نظر میگیرد. ما همچنین یک کنترلر بازخورد یکپارچه را به عنوان معیار پیشنهاد کردیم. نتایج شبیهسازی نشان میدهد که روشهای مبتنی بر منتقد نسبت به روشهای دیگر برتری دارند و میتوانند بیش از 20 درصد از کل زمان سفر را ذخیره کنند. ما همچنین مشکل نفرین ابعاد را با مقایسه عملکرد دو سناریو در شبیهسازی تحلیل کردیم: یکی سناریوی ناحیه در هم تنیده تک رمپ است. راهروی دیگر یک راهرو بزرگراه با رمپ های متعدد درون و بیرون است. نتایج نشان میدهد که سیستم ما میتواند به طور مؤثر این دو موقعیت را بدون کاهش عملکرد قابل توجه اداره کند، به این معنی که سیستم کنترل متمرکز میتواند به طور مؤثر راهروهای آزادراه را با هدایت مستقیم کنترلکنندههای مختلف ترافیک کنترل کند. این همچنین به این نتیجه میرسد که ما میتوانیم از یک واحد کنترل متمرکز مبتنی بر منتقد برای مدیریت ترافیک آزادراه در مقیاس متوسط برای صرفهجویی در منابع محاسباتی به جای استفاده از استراتژیهای همکاری پیچیده استفاده کنیم.
توجه! این متن ترجمه ماشینی بوده و توسط مترجمین ای ترجمه، ترجمه نشده است.
Abstract
Recent advances in deep reinforcement learning have shown promising results in solving sophisticated control problems with high dimensional states and action space. Inspired by this, we use the latest deep reinforcement learning (DRL) methods to improve freeway traffic mobility and alleviate recurring bottlenecks and congestion. More specifically, this paper proposes a centralized traffic control system that can coordinate multiple ramp metering (RM) and variable speed limit (VSL) traffic controllers on freeways to minimize the total travel time. The system uses a novel double-layer structure to synchronize different traffic controllers and introduces the actor-critic-based DRL methods to learn joint actions in a high-dimensional traffic environment. The reward function takes into account the waiting time of vehicles, the average speed of different road sections, and the on-ramp queuing limit to improve traffic mobility. We also proposed an integrated feedback controller as a benchmark. The simulation results show that the actor-critic-based methods are superior to other methods and can save more than 20% of the total travel time. We also analyzed the curse of dimensionality problem by comparing the performance of two scenarios in the simulation: one is a single-ramp interweaving area scenario; the other is a large freeway corridor with multiple on-ramps and off-ramps. The results show that our system can effectively handle these two situations without significant performance degradation, which means that the centralized control system can effectively control freeway corridors by directly guiding various traffic controllers. This also leads to the conclusion that we can use a centralized actor-critic-based control unit to manage medium-scale freeway traffic to save computing resources instead of using complex collaboration strategies.
Introduction
The freeway bottleneck occurs when the traffic demand exceeds traffic capacity, resulting in capacity drop and traffic congestion. As a rule of thumb, the bottleneck often forms near the on-ramp sections, which is the merge area of the freeway. When a large volume of traffic comes from different directions, the on-ramp area is prone to traffic jams and accidents. Thus, many studies focus on relieving traffic congestion and improving traffic mobility around on-ramp sections. The most frequently discussed strategies are ramp metering (RM) [1] and the variable speed limit (VSL) [2] control. The RM restricts vehicles from entering the congested area, while the VSL limits the upstream speed to reduce the inflow traffic. The restrictions will be lifted after congestion is relieved. Although consider either RM or VSL may have good performance in some cases, there are some imperfections. For example, the RM may disturb the nearby road traffic when the on-ramp road is full of vehicles, while the speed limit may adversely affect the upstream traffic. Therefore, the integration of RM and VSL has practical value, as it can combine the merits of both strategies and reduce the side effect of the single control strategy.
Conclusion
This paper proposed a centralized traffic control system that integrates multiple ramp metering and VSL traffic controllers to relieve traffic congestion on the freeway. The centralized system has a straightforward structure and is robust. Besides, we have introduced deep actor-critic algorithms to solve the curse of the dimensionality problem for the control system. Simulation results indicated that the time complexity of the deep actor-critic algorithms increases linearly when controlling more traffic controllers on a larger network. Therefore, our system could effectively manage complicated freeway bottleneck sections with various traffic controllers using a centralized traffic control unit.