<ol id="ebnk9"></ol>

首頁 > 心得體會 > 基于深度強化學習的智能網聯車輛換道軌跡規劃方法

基于深度強化學習的智能網聯車輛換道軌跡規劃方法

發布時間：2025-07-19 08:54:40 來源：心得體會點擊：

小中大

字號：

手機查看

馮耀，景首才，3*，惠飛，趙祥模，劉建蓓

（1.長安大學信息工程學院，陜西 710064，中國；
2.交通運輸部交通安全與應急保障技術行業研發中心，陜西 710075，中國；
3.中交第一公路勘察設計研究院有限公司，陜西 710075，中國）

智能網聯車輛搭載先進的感知設備，融合無線通信技術，實現車與車、車與路的信息共享，利用合理的決策規劃與控制方法，可以提高車輛的安全性，減少擁堵和提升駕乘舒適性，因此相關的自動駕駛運動決策規劃方法成為近年來的研究熱點[1-2]。換道是車輛行駛過程中的一項基本任務，對車輛的安全行駛起著非常重要的作用，同時也是智能網聯車輛的關鍵技術之一[3]。隨著車輛智能化水平的提高，兼顧安全與交通效能的車輛變道決策規劃逐漸成為智能網聯車輛變道研究的熱點之一[4]。

現有的智能網聯車輛的換道軌跡規劃方法主要包括3 類：基于采樣和搜索的算法、基于幾何曲線函數的算法、基于優化的控制算法?；诓蓸雍退阉鞯某Ｒ姺椒ㄓ锌焖贁U展隨機樹法(rapid-exploration random tree,RRT)[5]、Dijkstra 算法[6]、A*算法[7]等。張衛波等[8]提出的改進RRT 算法,解決了RRT 算法采樣效率低下的問題，提高了路徑規劃的效果。這類方法適用范圍較大，但其采樣過程復雜且計算量大，在規劃期間未能考慮汽車的動力學等約束。

基于幾何曲線函數的軌跡規劃方法主要有多項式曲線[9]、螺旋線[10]、B 樣條曲線[11]、Bezier 曲線[12]等。陳成等[12]將曲率約束、速度約束和加速度約束考慮進四階Bezier 曲線，生成了滿足實時性和有效果性的軌跡?；趲缀吻€函數的方法進行軌跡規劃，其優點是方便構建和插入新的路徑點集，使得到的參考軌跡更加平滑連續，但是其路徑的優化性并不能得到保證。

基于優化的控制算法是將軌跡規劃作為一個優化問題，將車輛的期望狀態作為優化目標，從而得到最優軌跡。徐揚等[13]將行車環境勢場作為模型預測控制的優化目標，生成最優參考軌跡，實現對無人車的縱橫向控制。江浩斌等[14]結合實際駕駛人變道數據，研究了基于自適應偽普法的變道切入點選擇優化方法?；趦灮目刂扑惴紤]了車輛的運動學和動力學約束，可實現多優化目標問題的求解，但面對精度要求較高的模型時其計算時效較低。

換道軌跡規劃是一個考慮時間的序貫決策問題，完成換道過程中的每一步都是決策的結果，共同構成該換道問題的解，從而實現軌跡規劃，相較于上述傳統的換道決策軌跡規劃方法，在解決具有復雜時序交互特點的車輛換道軌跡規劃問題時，深度強化學習方法更具有優勢[15]。

目前，強化學習已經被廣泛應用到車輛自動駕駛領域[16]。文獻[17-18]采用改進深度Q 網絡（deep Q-network，DQN 算法實現了自動駕駛車輛的換道決策。PENG Baiyu 等[19]使用深度雙Q 網絡（dueling double deep Q-network，DDDQN）網絡，將圖像和主車速度作為狀態輸入實現了端到端的自動駕駛。CHEN Jianyu[20]引入了潛在序貫環境模型，與強化學習相結合，在復雜的城市駕駛場景中取得了較好的效果。LI Guofa 等[21]建立了駕駛風險評估的安全指標，利用深度強化學習尋找期望風險最小的策略，生成魯棒的安全駕駛策略。當前的深度強化學習算法中，DQN 類的算法其輸出為離散的動作，無法應用到車輛速度、加速度等連續變量的控制中；
谷歌DeepMind 團隊提出的DDPG 算法[22]實現了連續動作空間的應用，但存在Q 值高估的情況，在不斷的迭代過程中會使誤差擴大，從而使得學到的策略失效。

綜上所述，基于傳統軌跡規劃算法的劣勢以及現有強化學習算法在軌跡規劃方面的不足，本文使用雙延遲深度確定性策略梯度算法(twin delayed deep deterministic policy gradient,TD3)[23],采用裁剪雙Q 學習、目標策略噪聲處理和延遲策略網絡更新3 個技巧，減緩DDPG 算法Q 值高估的程度，提高算法效率。針對考慮安全與能效的智能網聯車輛換道時空軌跡規劃問題，設計分層式換道決策規劃架構，解耦智能網聯車輛的縱橫向運動學約束，建立縱橫向離散化的車輛運動學模型；
為了保障換道過程中的安全性，構建考慮安全性與高效性的換道決策博弈論模型；
以降低燃油消耗和提高駕駛效率為目標，研究基于深度強化學習(TD3 網絡)的智能網聯車輛換道軌跡規劃方法；
最后以3 個典型換道場景為仿真用例，驗證了算法的有效性。

1.1 分層式架構設計

智能網聯車輛的換道軌跡規劃，是在已知全局路徑的基礎上，結合實時車輛狀態和動態道路交通環境信息，根據局部實際場景規劃出一條包含空間位置-車速映射關系的時間序列點集或關系式[24]。換道過程中的決策與規劃只與車輛當前狀態有關，與車輛之前的歷史狀態沒有關系[25]，針對這一特征，本文設計了分層式智能網聯車輛換道決策規劃架構，如圖1所示。

圖1 分層式智能網聯車輛換道決策規劃架構

按照信息的傳遞將車輛換道分為環境感知、行為決策層和軌跡規劃3 層。環境感知層中智能網聯車輛搭載了車載攝像頭、激光雷達、毫米波雷達等傳感器實現對環境信息的感知，并且能夠以LTE-V2X 的通信方式在低延時、無丟包的情況下獲取周圍車輛的速度、加速度、位置等信息；
行為決策層車輛利用純策略博弈換道決策模型，在保障安全的條件下，確定車輛行駛行為；
軌跡規劃層利用基于深度強化學習的換道軌跡優化算法，構建考慮換道油耗和舒適性的智能網聯車輛縱橫向換道軌跡。

1.2 車輛運動學模型

軌跡規劃是面向車輛上層控制的運動狀態規劃，為車輛下層跟蹤控制器提供優化參考軌跡。因此，本文利用車輛點運動模型描述車輛狀態[26]，對車輛運動學模型進行縱橫向解耦，并以Δt為采樣時間進行離散化，得到車輛縱橫運動方程及約束條件如下：

其中：vxt、vyt分別表示t時刻車輛的縱向速度和橫向速度，xt和yt分別表示t刻車輛的縱、橫坐標?？v、橫向加速度axt、ayt,由每個時間步Δt中車輛與算法交互得到，vx,max和vy,max分別是縱橫向速度的最大值，xmax和ymax分別是縱橫向位置的最大值，tf為換道的完成時間。通過運動學公式得到下一時刻車輛的位置和速度，直到車輛到達換道目標位置或駛離車道時終止狀態結束。

車輛換道前需根據當前行駛狀態及周圍車輛狀態在確保安全的條件下決策換道行為。換道決策是換道車輛與周圍車輛策略博弈的一個過程，通過博弈得到使雙方的收益達到最大[27]，因此本文建立了基于博弈論的智能網聯車輛換道決策模型。

2.1 基于博弈論的換道決策模型

博弈的基本要素有博弈參與者、參與者的策略集和每種策略對應的收益函數。本文建立了基于完全信息靜態純策略博弈的換道決策模型，完全信息博弈表示所有博弈參與者的物理狀態、策略空間和收益函數對于其他參與者都是透明的，純策略指的是構成的策略不考慮博弈參與者的行為概率。

車輛換道示意圖如圖2 所示，其中M 車為換道車輛；
Ao車和Bo車分別為原始車道前車和跟隨車輛；
Ad車和Bd車分別為目標車道前車和跟隨車輛；
Li,i={Ad,Bd,Ao,Bo}，表示換道車輛與周圍車輛的車頭間距。

圖2 車輛換道示意圖

換道時博弈的參與者為換道車輛M，目標車道跟隨車輛Bd和目標道前車Ad，換道車輛M 的策略集為Φ1={m1,m2}，包括2 種純策略，其中m1表示換道，m2表示不換道；
目標車道車輛Bd，Ad的策略集為Φ2={di1,di2}，其中di1表示車輛允許換道，di2表示拒絕換道。

以確保換道的安全性和提高換道的效率為目的，建立體現安全和駕駛效率的收益函數，以最小安全距離作為安全性的評估指標，利用當前策略完成換道所需時間與原始狀態下所需時間對比評判該策略的時效收益，使得車輛在博弈時考慮這2 個因素最終得到換道行為決策。換道車輛和目標車道車輛的收益函數定義如下：

其中，Rsafe、Rtime，表示決策車輛考慮安全性和時效性所獲得的收益，其計算公式如(8) -(12);αs、αt分別為安全性收益和時效性收益的權重系數,αs+αt=1,代表進行換道決策時不同駕駛因素的重要程度。

其中Lhead為當前時刻兩車的車頭間距，Lmin為當前狀態下所需的最小安全距離（以換道車輛M 和目標車道前車Ad為例），當兩車勻速運動時，可寫成公式(10)；
vMx和vLdx分別表示換道車輛和目標車道前車的縱向速度，aMx和aLdx為換道車輛和目標車道前車的縱向加速度。t0表示保持原狀態下達到目的地所需的時間，xtarg為換道目的點的縱向坐標；
tf表示當前策略下到達換道終點所需要的時間，可由軌跡規劃部分得出。

2.2 換道決策收益矩陣

根據搭建好的博弈模型求取最優換道決策，即達到Nash 均衡的狀態[28]。Nash 均衡是一組對于所有的博弈參與者均是最佳的策略集合，任何參與者在不選擇該策略的情況下，都不會有更佳收益。在換道博弈中，Nash 均衡可以理解為每一輛車在當前交通環境下所選擇的最優駕駛策略，所有車都不會舍棄最優策略去選擇其他策略。

如在一次博弈下，有n個換道參與者，車輛的單個策略可表示為ci，其策略集和收益分別表示為Ci和Ri，則該博弈可表示為

本文采用收益矩陣來求解換道博弈模型的最優策略，通過式(7)分別求出換道車輛M 與目標車道車輛Ad和Bd進行博弈時的博弈收益，換道車輛的收益用RM表示，目標車道車輛的收益用RD表示，如RM(di1,m1)表示換道車輛選擇“換道”策略，目標車道車輛選擇“允許換道”策略而得到的收益，列出博弈收益矩陣，如表1 所示。

表1 博弈收益矩陣

表1 中，換道車輛與目標車道前車和跟隨車分別進行博弈，得到4 種博弈結果為：換道車輛進行換道，目標車道車輛允許換道；
換道車輛進行換道，目標車道車輛拒絕換道；
換道車輛不換道，目標車道車輛允許換道；
換道車輛不換道，目標車道車輛拒絕換道。只有換道車輛選擇“換道”策略，且目標車道前后車都做出“允許換道”的策略時，才能成功執行換道。

計算出每種策略下換道車輛和目標車道車輛考慮安全性和時效性的收益值，得到博弈收益矩陣，如果博弈矩陣中存在某一純策略(din,mn)使得下式（15）成立，則稱(din,mn)為當前博弈的純策略Nash 均衡。即為當前環境下車輛做出的最優換道決策，根據此決策確定所需求解的換道軌跡規劃子問題，如左換道、右換道、車道保持（不換道）。

3.1 強化學習

強化學習是一種典型的經驗驅動、自主學習的方法，用來解決序貫決策的問題，換道問題可以用Markov 決策過程（Markov decision process，MDP）進行建模，其主要元素為S,A,P,R,γ，智能體的狀態集用S 表示；
決策所產生的動作構成動作集A；
P表示當前狀態轉移到下一狀態的概率；
R 為獎勵集；
γ為獎勵折扣因子，其值越大，在進行策略選擇時越具有全局性，反之則只考慮當前收益。強化學習的最優策略π*滿足如下條件[29]，即：

本文使用TD3 網絡框架作為智能網聯車輛換道軌跡規劃的架構，TD3 算法沿用Actor-Critic 類算法的網絡框架，使用Actor 網絡進行策略的選擇，Critic網絡對狀態-動作(state-action)對進行評估，能夠處理連續狀態空間和動作空間的問題，將車輛的當前狀態作為Actor 網絡的輸入，輸出為車輛執行的動作at，Critic 網絡以車輛當前狀態st和動作at作為輸入，輸出為累計獎勵的期望Qπ(st,at) (以下用Q值描述)。

表示成遞歸的Bellman 方程形式為

Critic 網絡通過最小化損失函數Loss 進行更新：

Actor 網絡通過策略梯度進行更新：

TD3 算法在DDPG 基礎上，使用兩個策略評估Critic 網絡計算Q值，如式(20)，在進行Critic 網絡的梯度更新時，選取二者的較小值，以減緩過估計問題；
對目標動作的計算添加基于正態分布的噪聲，使得Q值函數更新更加平滑；
延遲更新策略網絡使得Q值的評估更穩定?；赥D3 的智能網聯車輛換道軌跡規劃架構如圖3 所示。

圖3 基于TD3 的智能網聯車輛換道軌跡規劃架構

3.2 基于TD3 網絡的智能網聯車輛換道軌跡規劃問題建模

智能網聯車輛換道問題的交互過程如下：假設車輛在t時刻的狀態為st，Actor 網絡輸入st，輸出當前時刻的動作選擇at，與環境進行交互得到車輛下一狀態st+1和采取本次動作的獎勵rt，將每一步采集的樣本(st，at，rt，st+1)進行存儲，車輛通過與環境不斷交互-探索產生大量的數據，TD3 算法則從這些數據中采樣進行訓練，在考慮油耗和舒適性的情況下不斷優化策略選擇網絡和策略評估網絡，得到整個換道過程中的車輛加、減速決策序列和車輛狀態序列。

針對基于TD3 算法的智能網聯車輛換道問題的軌跡規劃模型，設計其狀態、動作和獎勵函數。

3.2.1 狀態空間

狀態空間中包含智能網聯車輛換道所需要的全部信息，每個時刻都需要獲取當前車輛的縱坐標xt，橫坐標yt，縱向速度vxt，橫向速度vyt。每一時刻的狀態用一個四元組表示，st=[xt,vxt;yt,vyt]。

3.2.2 動作空間

動作空間主要定義智能網聯車輛所采取的動作，結合車輛運動學縱橫向解耦狀態方程（1-4），用縱橫向加速度作為智能網聯車輛的動作，考慮駕駛的舒適性[30]，縱向加速度axt的取值范圍設定為[-2,2] m/s2；
考慮車的橫向安全約束和橫向舒適性，橫向加速度ayt的取值范圍為[-0.2,0.2] m/s2。每一時刻的動作用一個二元組表示，at=[axt，ayt]。

3.2.3 獎勵函數

強化學習中，獎勵函數對于引導智能體采取獲得更高收益的動作，從而得到期望策略具有重要作用。因此,設計合理的獎勵函數是智能網聯車輛能否完成換道任務的關鍵。

本算法期望智能網聯車輛以最快的換道效率和最小的燃油消耗從當前車道換到目標車道，并能夠與前車以相同的速度保持安全車距行駛。

1) 沿目標車道中心線獎勵設置Ry

其中：yt和ytarg分別表示車輛當前位置的橫向坐標和目標位置的橫向坐標，此項是為了讓車輛在換道過程中盡量靠近車道中心線行駛。

2) 目標速度獎勵設置Rv

其中：axt為表示當前時刻的縱向加速度，vxt和vtarg分別表示當前時刻的縱向速度和換道目標速度，此項目的是使換道車輛能夠按照期望速度行駛，提高換道效率。

3) 油耗獎勵設置Re

油耗計算使用了K.Ahn 等[31]建立的VT-Micro微觀油耗排放模型，

其中，MOEe為瞬時燃油消耗，包括線性、二次和三次速度和加速度項的組合，表示在速度的k次冪和加速度的q次冪下MOEe的模型系數，此項用瞬時燃油消耗作為懲罰項，使車輛學習到節能的換道方式。

4) 終止獎勵設置Rd

智能網聯車輛處于終止狀態時，本回合實驗結束，終止狀態包括駛離車道范圍、達到最大仿真步數但未完成換道、在誤差范圍內到達換道終點這3 種情況。當智能網聯車輛出現駛離車道或者未完成換道任務時，給予較大的懲罰；
而當智能網聯車輛在誤差允許的范圍內完成換道任務時，則給予較大的獎勵：

其中，C1、C2取較大的正數。

綜合上述4 個影響智能網聯車輛換道因素來驅動車輛以高效、舒適和節能的方式完成換道任務。最終的聯合獎勵函數Rt設計為

其中，wy,wv,we,wd分別為不同收益的權重系數，表示其重要程度。

3.3 基于TD3 的換道軌跡規劃流程

完成換道問題的建模后，確定換道車輛的換道起點和換道終點位置，設置訓練回合數和超參數，通過以下步驟對TD3 網絡進行訓練，如表2 所示，使其能夠在考慮油耗、舒適性的情況下完成換道任務。

表2 TD3 算法流程

本文所用的硬件設備為：Window10 64位操作系統，顯卡Nvidia Quadro P600，處理器為Intel 至強Bronze 3104，內存為16GB；
軟件設備為：編程語言python3.8，深度學習框架Pytorch1.8，用gym 庫創建仿真實驗場景，運行環境為pycharm2020。

4.1 仿真環境設計

為了驗證換道軌跡規劃的有效性，實驗使用python 作為仿真環境，模仿了gym 庫中的仿真環境設計規則，設計了一個長120 m，寬3.5 m 的單向雙車道，并做出如下假設：

1）只考慮直道上相鄰車道的換道行為;

2）車輛做出的決策和規劃都是依據當前時刻的狀態進行的，車輛狀態發生變化時重新進行決策和規劃。

換道車輛的初始速度為指定速度范圍內的隨機值，初始位置為指定的換道起點，周圍車輛的行駛速度為當前時刻的速度值，換道終點為滿足最小安全換道距離的指定位置。車輛駛出車道或達到最大步數時結束本回合。

4.2 參數設定及模型訓練

實驗中TD3 網絡的結構如表3 所示，訓練超參數設置如表4 所示。

表3 TD3 網絡結構

表4 主要超參數說明

4.3 訓練及測試結果分析

4.3.1 左換道軌跡規劃

在這個場景中，假設換道車輛的初始位置在右車道中心線起點(1.75,0) m 處，初始速度在43.2～72 km/h中隨機初始化，周圍車輛的行駛速度為57.6 km/h，換道車輛與原始車道前車的車頭間距為50 m，與目標車道前后車的車頭間距均為60 m，目標位置為左車道中心線(-1.75，100) m 處，博弈收益中的權重系數αs、αt分別取0.6 和0.4，得到左換道時的博弈收益矩陣如表5 所示。

表5 左換道博弈收益矩陣

由表5 可知，此時博弈的最優策略為：換道車輛進行左換道，目標車道車輛允許換道（換道車輛與目標車道車輛前后車的車頭間距是一樣的，得到的博弈收益矩陣是相同的）。訓練結果及換道車輛以初始速度12 m/s 進行左換道的測試結果如圖4 所示。

圖4 左換道訓練結果

4.3.2 車道保持軌跡規劃

在這個場景中，假設換道車輛的初始位置在右車道中心線起點(1.75,0) m 處，初始速度為54～90 km/h中隨機初始化，周圍車輛的行駛速度為72 km/h，換道車輛與原始車道前車的車頭間距為30 m，與目標車道前后車的車頭間距均為20 m，目標位置為右車道中心線 (1.75，100) m 處，博弈收益中的權重系數αs，αt分別取0.6 和0.4，得到車道保持時的博弈收益矩陣如表6 所示。

表6 車道保持博弈收益矩陣

由表6 可知，此時博弈的最優策略為：換道車輛不換道，周圍車輛拒絕換道，因此換道車輛需要減速進行車道保持，訓練結果及車輛以初始速度為25 m/s進行車道保持的測試結果如圖5 所示。

圖5 車道保持訓練結果

4.3.3 右換道軌跡規劃

在這個場景中，假設換道車輛的初始位置在左車道中心線起點(-1.75,0) m 處，初始速度為 54～90 km/h中隨機初始化，周圍車輛行駛速度為72 km/h，換道車輛與原始車道前車的車頭間距為50 m，與目標車道前后車的車頭間距均為60 m，目標位置為右車道中心線(1.75，120) m 處，博弈收益中的權重系數αs，αt分別取0.6 和0.4，得到右換道時的博弈收益矩陣如表7所示。

表7 右換道博弈收益矩陣

由表7 可知，此時博弈的最優策略為換道車輛進行右換道，周圍車輛允許換道。訓練結果及換道車輛以初始速度16 m/s 進行右換道的測試結果如圖6 所示。

圖6 右換道訓練結果

從左換道、右換道的實驗結果看出: 車輛智能體在前150 個回合中處于試錯階段，車輛智能體不知道如何進行換道，總是由于異常結束而導致回合提前結束;大概從150 回合后，收集到足夠的歷史數據后，開始逐步學習提升，每回合所得的累積收益開始增大，說明車輛智能體學習到的策略在不斷變好，由剛開始的無法完成換道任務到能夠逐步完成換道，并不斷增加（為了便于看出智能體學習到的策略在進行優化，使用滑動平均曲線將收益進行平滑，收益曲線波動是由于不同初始速度完成換道所得到的收益不同），最終逐漸穩定在一個范圍內，表明車輛的策略的優化過程，此時車輛智能體能夠到達設定的換道終點，且換道車輛的速度與環境車的速度相等，能夠安全完成換道任務。用訓練好的模型進行測試，得到的換道軌跡如圖4c、6c 所示，速度控制曲線如圖4d、6d 所示。

在換道過程中考慮油耗問題，以油耗的大小作為對智能體的懲罰: 油耗越大，懲罰越大，希望車輛智能體能夠以節能的方式完成換道任務。車輛在左、右換道任務中訓練前后完成換道任務的平均油耗對比如表8所示。

從表8 可見，未經過TD3 算法學習前，左換道過程中每步的平均油耗為30 mL/ s，右換道過程中每步的平均油耗為32 mL/ s；
經過算法提升后的左換道過程中的單步平均油耗為11 mL/ s，右換道過程中的單步平均油耗為18 mL/ s；
左、右換道過程中的平均油耗分別減少了63%和44%，達到了節能駕駛的目的。

表8 平均油耗對比

實驗2 中由于當前車輛不滿足安全換道條件，此時車輛需要進行車道保持，并減速行駛，最終與周圍車輛的速度相同，如圖5c 所示，車輛的初始速度為25 m/s,到達目標位置的速度為20 m/s；
測試得到的車道保持軌跡如圖5b 所示。

使用DDPG 算法和TD3 算法進行左換道和右換道實驗時每回合所用的訓練時間對比如圖7 中所示。

圖7 DDPG 與TD3 訓練時間對比

總的訓練時間、每回合的平均訓練時間以及具體場景的單步軌跡規劃所需時間對比如表9 所示。

從表9 中看出，使用TD3 算法在左換道和右換道實驗中所用的訓練時間均少于DDPG，在左換道實驗中，TD3 總的訓練速度和每回合的平均訓練速度較DDPG提升了約12%。在右換道實驗中，TD3 總的訓練速度和每回合的平均訓練速度較DDPG 提升了約9%。綜上，與DDPG 算法相比，本文所用算法的平均訓練速度提升了約10.5%；
而且采用訓練好的模型完成左、右換道場景完整的軌跡規劃所需時間均在1.3 s 內，單步規劃所需時間在10 ms 內，可滿足實時要求。因為所需時間與處理器性能有關，若采用高性能處理器所需時間會更短。

表9 訓練時間對比

本文提出了基于深度強化學習的智能網聯車輛換道軌跡規劃方法，在考慮安全性、舒適性、燃油經濟性和效率的情況下實現對智能網聯車輛的換道軌跡規劃。使用基于完全信息的靜態純策略博弈模型做出換道決策，保證了決策的安全性和時效性，并確定需要求解的軌跡規劃子問題；
將換道軌跡規劃問題解耦為縱橫向控制問題，使用TD3 算法進行求解，在獎勵設計部分，使用瞬時燃油消耗、與期望速度的差值和加速度作為獎懲項，引導車輛以節能、高效、舒適的方式得到換道軌跡。

通過設計左換道、車道保持和右換道的仿真實驗，表明了算法在燃油經濟性和實時性方面的優勢。與DDPG 算法作比較，本文所提方法在左換道和右換道實驗中的平均訓練效率提升了約10.5%，平均油耗分別減少了63%和44%，且用該模型進行換道的軌跡規劃，單步軌跡的規劃時間在10 ms 內，能夠實時規劃車輛的行駛軌跡。

猜你喜歡智能網車道軌跡交通運輸部：擴大新能源智能網聯汽車應用中國交通信息化(2022年9期)2022-11-19北斗+手機實現車道級導航應用衛星應用(2021年11期)2022-01-19避免跟車闖紅燈的地面車道線科學大眾(2021年9期)2021-07-16淺談MTC車道改造中國交通信息化(2020年11期)2021-01-14軌跡讀友·少年文學(清雅版)(2020年4期)2020-08-24軌跡讀友·少年文學(清雅版)(2020年3期)2020-07-24基于單片機的智能網控風扇設計電子制作(2019年11期)2019-07-04智能網聯硬實力趨強汽車觀察(2018年12期)2018-12-26迎戰智能網聯大爆發汽車觀察(2018年10期)2018-11-06軌跡現代裝飾(2018年5期)2018-05-26

相

關

案

例

今日頭條

2024年新訓消防員心得體會(通用)

2024年新訓消防員心得體會(通用)

猜你喜歡

精彩圖片

2024年新訓消防員心得體會(通用)

2024年新訓消防員心得體會(通用)

毛概心得體會800字（范文推薦）

毛概心得體會800字（范文推薦）

關于團日活動心得

關于團日活動心得

2024年度青春心向黨建功新時代心得體會(通用)

2024年度青春心向黨建功新時代心得體會(通用)

推薦內容

軌跡網聯深度

国产另类无码专区|日本教师强伦姧在线观|看纯日姘一级毛片|91久久夜色精品国产按摩|337p日本欧洲亚洲大胆精

<ol id="ebnk9"></ol>