評論

滿額折

深度強化學習：學術前沿與實戰應用（簡體書）

系列名：智能科學與技術叢書
ISBN13：9787111646648
出版社：機械工業出版社
作者：劉馳; 王占健; 馬曉鑫
出版日：2020/03/23
裝訂／頁數：平裝／377頁
規格：24cm*17cm (高/寬)
版次：一版
關鍵字：深度強化學習：學術前沿與實戰應用（簡體書）、深度、度強、強化、化學、學習、學術、術前、前沿、實戰、應用、簡體、機械工業出版社、劉馳、王占健、馬曉鑫、簡體書、工業技術、自動化技術、計算技術、自動推理、機器學習、

中國圖書館分類

：

自動推理、機器學習

人民幣定價：99 元

定價

：NT$ 594 元

優惠價

：87 折 517 元

領券後再享88折起

領

海外經銷商無庫存，到貨日平均30天至45天

可得紅利積點：15 點

相關商品

商品簡介

作者簡介

名人/編輯推薦

序

商品簡介

本書共分為四篇，即深度強化學習、多智能體深度強化學習、多工深度強化學習和深度強化學習的應用。由淺入深、通俗易懂，涵蓋經典算法和近幾年的前沿技術進展。特別是書中詳細介紹了每一種代表性算法的代碼原型實現，旨在理論與實踐相結合，讓讀者學有所得、學有所用。

第一篇（包含第1～3章）主要講解深度強化學習基礎，側重於單智能體強化學習算法，相對簡單，有助於初級讀者理解，同時涵蓋了近幾年的經典算法和一些前沿的研究成果。
第二篇（包含第4～5章）主要側重於對多智能體深度強化學習的講解，從多智能體強化學習基本概念到相關算法的講解和分析，以多個極具代表性的算法為例帶領讀者逐步學習多智能體訓練及控制的理論與方法。同時，還介紹了多智能體強化學習領域一些前沿學術成果。
第三篇（包含第6～7章）擴展到多工場景，稱為多工深度強化學習。首先介紹了多工強化學習的基本概念和相關基礎知識，隨後講解了部分經典的多工深度強化學習算法。
第四篇（包含第8～11章）主要講解深度強化學習的實際應用，涉及遊戲、機器人控制、計算機視覺和自然語言處理四大領域。通過領域應用中思想和方法的講解，培養讀者跨領域解決實際問題的能力，以幫助讀者熟練掌握和使用深度強化學習這一強大的方法來解決和優化實際工程領域中的問題。

作者簡介

劉馳
北京理工大學計算機學院副院長、教授、博士生導師，英國工程技術學會會士（IET Fellow），IEEE高級會員（IEEE Senior Member），英國計算機學會會士（Fellow of British Computer Society）和英國皇家藝術學會會士（Fellow of Royal Society of Arts）。分別於清華大學和英國帝國理工學院獲得學士和博士學位，曾任美國IBM T.J. Watson研究中心和IBM中國研究院研究主管，並在德國電信研究總院（柏林）任博士後研究員。研究方向為大資料與物聯網技術。主持了國家自然科學基金、國家重點研發計畫課題、工信部、教育部、裝發預研等20餘省部級研究項目。共發表SCI/EI論文百餘篇，其中ESI高被引論文2篇、CCF- A類論文20餘篇，授權國內外發明專利14項，編寫書籍9本，Google Scholar索引3500餘次，H index為28。現任國家自然科學基金會評專家、科技部重點研發計畫會評專家、教育部科技獎評審專家、全國信標委技術委員會委員、中國電子學會理事、中國計算機學會青工委委員、中國計算機學會物聯網/大資料/普適計算專委會委員、中國電子學會物聯網專委會委員/副秘書長、中國自動化學會大資料專委會委員、中國通信學會物聯網專委會委員等；以及IEEE Transactions on Network Science and Engineering編委、IEEE ICC 2020 Symposium Chair for Next Generation Networking。入選了國家人社部“高層次留學人才回國資助計畫”、中國科協“青年人才托舉工程”、陝西省第八批“百人計畫（短期項目）”、中國產學研合作促進獎、中國電子學會優秀科技工作者、國家“十二五”輕工業科技創新先進個人、2017年中國物聯網年度人物等。並獲得省部級一等獎1項、二等獎1項、三等獎1項。

名人/編輯推薦

講解深度強化學習的理論及其應用，深入解讀主要算法的代碼，提供其在遊戲、機器人、CV和NLP領域的實踐應用

序

隨著計算設備算力的不斷提升和可用資料量的持續積累，基於大資料的機器學習（Machine Learning）方法近年來得到了空前的發展，且可以預見在一段時間內還將繼續飛速發展。機器學習的突出成就離不開深度學習（Deep Learning）。深度神經網絡的出現，使得原始圖像、視頻和自然語言等資料來源可作為輸入和輸出，從而為諸多複雜問題提供了強大的解決方案。基於深度學習的人工智能產品也正在快速滲入和改變著我們的日常生活，如人臉識別、購物網站的個性化推薦、無人駕駛等。此外，機器翻譯、自主決策、目標跟蹤及一系列技術成果也在醫療、教育和網絡安全等重要領域得到了實質性的應用。
強化學習（Reinforcement Learning），又稱再勵學習、評價學習，是機器學習的一個重要分支，傳統上主要用於解決與環境交互過程中的自主決策和自動控制問題，通過不斷改善智能體自身的行為，學得最優的行動策略。廣義上說，任何有“決策”的任務都可以使用強化學習方法，比如無人駕駛、機器人控制、遊戲競技等，但也不限於此，比如個性化推薦算法、網絡傳輸等非控制領域也可以使用強化學習方法。近年來，最著名的強化學習應用當屬AlphaGo圍棋，其學得的策略所表現出的控制/決策能力已經達到甚至超過了人類頂級水準，其中使用了深度強化學習（Deep Reinforcement Learning）。深度強化學習是強化學習的重要發展，是指採用深度神經網絡作為模型的強化學習方法。它的起源很早，但著名的案例是Google DeepMind在2013年NIPS研討會上發表的DQN（Deep Q Network）方法，該方法在多款Atari遊戲中取得了不俗的表現。之後，深度強化學習的發展便一發不可收拾，學術界和工業界均大力推動其發展。本書重點講解深度強化學習近年來的重要進展及其典型應用場景。
本書共分為四篇，即深度強化學習、多智能體深度強化學習、多工深度強化學習和深度強化學習的應用，內容由淺入深、通俗易懂，涵蓋近幾年最經典、最前沿的技術進展。特別是書中詳細介紹了每一種算法的代碼原型實現，做到了理論與實踐相結合，讓讀者學有所得、學有所用。
第一篇主要講解深度強化學習基礎，側重於單智能體強化學習算法，相對簡單，有助於初級讀者理解。本篇包含第1～3章，從基礎到算法，分類清晰。

l 第1章主要講解強化學習的發展歷史、基本概念及一些相關的基礎知識，以幫助讀者對強化學習有一個全面的瞭解和認知，也為本書後面的重點章節提供基礎性的知識鋪墊。

l 第2章側重於講解基於單智能體的深度強化學習算法，涵蓋了DQN、DDPG、Rainbow等典型算法，以及最新的研究成果，如基於模型、基於分層的深度強化學習算法等。

l 第3章提供了一些分散式深度強化學習方法，以適應分散式運算的情況，有助於縮短模型的訓練時間和進行大規模任務的計算。

第二篇主要側重於對多智能體深度強化學習的講解，承接上一篇的單智能體環境，本篇將問題複雜化，擴大到多智能體的情況。本篇包含第4章和第5章，從多智能體強化學習基本概念到相關算法的講解、分析，以多個極具代表性的算法為例帶領讀者逐步學習多智能體訓練和控制的理論與方法。此外，還為讀者提供了當下多智能體強化學習領域最前沿的一些學術成果，緊跟發展潮流。

l 第4章主要講解多智能體的基本概念及相關的背景知識，以幫助讀者更好地進入多智能體世界。

l 第5章按類別講解大量多智能體強化學習算法，從基於值函數的算法到基於策略的算法，再到基於AC框架的算法，應有盡有。本章囊括了當下大部分經典和前沿研究，讓讀者在掌握經典知識的同時也能夠把握最新的發展方向。

第三篇再一次將問題複雜化，擴大到多工的情況，也稱為多工深度強化學習。與多智能體強化學習明顯不同，多工強化學習既可以是單智能體多工的情況，也可以是多智能體多工的情況，因此情況變得更為複雜了。結構如同第二篇，本篇依然是首先介紹多工強化學習的基本概念和相關基礎知識（第6章），隨後講解部分經典的多工強化學習算法（第7章）。由於多工強化學習依然是較為前沿的研究方向，所以本篇的算法相對少一些。

l 第6章主要介紹多工強化學習的基本概念和相關知識，讓讀者對其有一個詳細的瞭解和認知，以幫助讀者順利地步入多工深度強化學習場景。

l 第7章主要講解4個多工強化學習算法、框架，這些方法大都源自DeepMind團隊，代表著多工強化學習領域最為經典和前沿的工作。

第四篇包括第8～11章，主要講解強化學習特別是深度強化學習的一些實際應用，涉及遊戲、機器人控制、計算機視覺和自然語言處理四大領域。本篇側重於講解深度強化學習方法在其他領域應用的思想和方法，培養讀者跨領域解決問題的能力，以幫助讀者熟練掌握和使用深度強化學習這個強大的方法去解決、優化其他領域中的一些實際問題。

l 第8章給出深度強化學習方法在遊戲領域的應用，這也是一個極有意思的領域，例如，DQN的代表作就是玩Atari遊戲，並且超越了人類頂級玩家。本章重點講解如何把遊戲場景建模為強化學習問題，以及訓練模型自動玩Atari遊戲的核心過程和相關代碼。

l 第9章主要給出深度強化學習算法在機器人控制領域的應用實例，包括無地圖導航、視覺導航、機器人足球等，側重於講解模擬環境中機器人控制問題的分析、建模和實踐性解決方案。

l 第10章給出強化學習與計算機視覺領域相結合的例子，分析了將深度強化學習技術應用於圖像、視頻的詳細過程，例如，圖像字幕、圖像恢復、視頻快進和視覺跟蹤等。

l 第11章則講解深度強化學習應用於自然語言處理方面的實例，如對話機器人、情感–情感翻譯和遠端監督關係提取等。深度強化學習與自然語言的結合目前還是較為前沿的研究方向，還有許多領域相關問題讀者也可以親自嘗試著去解決。

本書的編撰人員包括：劉馳、王占健、戴子彭、馬曉鑫、樸成哲、林秋霞、趙一諾、趙映、李世林、劉文鼎。
深度強化學習技術發展迅速，屬於當下最熱門的前沿技術之一。因作者能力、水準有限，書中難免出現不足與謬誤之處，還請讀者多多包涵，同時也懇請讀者給予批評指正，不勝感激。

前言
致謝
數學符號
第一篇深度強化學習
第1章深度強化學習基礎 2
1.1 強化學習 2
1.1.1 強化學習的發展歷史 2
1.1.2 強化學習簡介 4
1.1.3 深度強化學習簡介 6
1.2 馬爾可夫屬性和決策過程 9
1.2.1 馬爾可夫屬性 9
1.2.2 馬爾可夫決策過程 11
1.3 強化學習核心概念 12
1.3.1 值函數 12
1.3.2 動態規劃 14
1.3.3 時間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡介 18
1.4.2 算法 19
1.4.3 相關變量及影響 20
1.4.4 實現方法 21
第2章深度強化學習算法 22
2.1 基於值的深度強化學習算法 22
2.1.1 深度Q網絡 22
2.1.2 深度雙Q網絡 27
2.1.3 競爭網絡架構 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結合體：Rainbow 37
2.1.6 基於動作排除的DQN 42
2.2 基於策略的深度強化學習算法 46
2.2.1 循環確定性策略梯度 46
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略優化 62
2.2.4 近端策略優化 68
2.3 基於模型的深度強化學習算法 73
2.3.1 基於模型加速的連續深度Q-learning 73
2.3.2 範例模型探索 80
2.3.3 基於模型集成的信賴域策略優化 88
2.3.4 時間差分模型 95
2.4 基於分層的深度強化學習算法 102
2.4.1 分層深度強化學習 102
2.4.2 基於封建網絡的分層強化學習 109
2.4.3 基於隨機神經網絡的分層強化學習 116
第3章分布式深度強化學習 123
3.1 分布式系統 123
3.1.1 分布式系統簡介 123
3.1.2 分布式系統的發展歷史 124
3.1.3 架構演進 125
3.1.4 主流分布式系統框架 128
3.2 分布式深度強化學習算法 129
3.2.1 分布式近端策略優化 129
3.2.2 分布式深度確定性策略梯度 138
3.3 分布式深度強化學習框架 145
3.3.1 重要性加權Actor-Learner架構 145
3.3.2 分布式優先經驗複用池 153
第二篇多智能體深度強化學習
第4章多智能體深度強化學習基礎 162
4.1 多智能體強化學習 162
4.1.1 多智能體強化學習發展歷史 162
4.1.2 多智能體強化學習簡介 164
4.1.3 優勢和挑戰 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關研究 169
4.2.3 POMDP應用領域 170
第5章多智能體深度強化學習算法 171
5.1 基於值函數的多智能體深度強化學習 171
5.1.1 基於DQN的多智能體網絡 171
5.1.2 增強智能體間學習 174
5.1.3 協同多智能體學習的價值分解網絡 178
5.1.4 多智能體深度強化學習的穩定經驗複用池 182
5.1.5 單調值函數分解 187
5.1.6 深度強化學習中的對立智能體建模 190
5.1.7 平均場多智能體強化學習 193
5.2 基於策略的多智能體深度強化學習 197
5.2.1 基於自身策略的其他智能體行為預測 197
5.2.2 雙重平均方案 201
5.2.3 多智能體深度強化學習的統一博弈論方法 208
5.3 基於AC框架的多智能體深度強化學習 212
5.3.1 多智能體深度確定性策略梯度 212
5.3.2 多智能體集中規劃的價值函數策略梯度 220
5.3.3 多智能體系統的策略表示學習 227
5.3.4 部分可觀察環境下的多智能體策略優化 231
5.3.5 基於聯網智能體的完全去中心化MARL 236
第三篇多任務深度強化學習
第6章多任務深度強化學習基礎 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰 247
6.2 策略蒸餾法 248
第7章多任務深度強化學習算法 253
7.1 無監督強化與輔助學習 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優勢分析 261
7.2 使用漸進式神經網絡解決任務的複雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優勢分析 266
7.3 基於單智能體的多任務共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優勢分析 272
7.4 使用PopArt歸一化多任務更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優勢分析 276
第四篇深度強化學習的應用
第8章遊戲 278
8.1 Gym Retro遊戲平臺 278
8.1.1 平臺簡介 278
8.1.2 安裝Gym Retro平臺 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函數說明 283
8.2 相關應用 285
8.2.1 Pong遊戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章機器人控制 312
9.1 機器人導航 312
9.1.1 無地圖導航 312
9.1.2 社會感知機器人導航 316
9.2 路徑規劃 321
9.3 機器人視覺 324
第10章計算機視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進 345
10.2.3 視覺跟蹤 348
第11章自然語言處理 354
11.1 與知識庫交互的多輪對話智能體 354
11.1.1 概率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結 359

主題書展

主題書展

更多書展

本週66折

敲療：經絡對位敲打法－比拍打更有效，比刀療更安全！第一本完整介紹經絡原理的治痠止痛圖解書

海天漫筆─三民叢刊209

Diamond：鮮血、汗水與泥土，一部鑽石貿易的全球史

淨土概論(平)

一星期零一夜：電話爺爺貝爾說故事

不只蘋果掉下來！：現代科學之父牛頓

詹姆士(平)

種瓜得瓜種豆得豆：遺傳學之父孟德爾

日本近代文學概說

動物畫

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大，除封面破損、內頁脫落等較嚴重的狀態，其餘商品將正常出貨。

特別提醒：部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供，需以QR CODE 連結至當地網站註冊“並通過驗證程序”，方可下載使用。

無現貨庫存之簡體書，將向海外調貨：
海外有庫存之書籍，等候約45個工作天;
海外無庫存之書籍，平均作業時間約60個工作天，然不保證確定可調到貨，尚請見諒。

為了保護您的權益，「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨，請在商品鑑賞期內寄回，且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

熱搜：

深度強化學習：學術前沿與實戰應用（簡體書）

商品資訊

系列名：智能科學與技術叢書

ISBN13：9787111646648

出版社：機械工業出版社

作者：劉馳; 王占健; 馬曉鑫

出版日：2020/03/23

裝訂／頁數：平裝／377頁

規格：24cm*17cm (高/寬)

版次：一版

商品簡介

作者簡介

名人/編輯推薦

序

目次

主題書展

簡體熱門影劇書展

簡體書新到貨

魅力．花火特展

悅讀紀特展

簡體新書搶先報

簡體新生代華文原創小說特展

領券專區

文具禮品大賞

泰戈爾經典詩集與小說戲劇集

母親節書展

本週66折

敲療：經絡對位敲打法－比拍打更有效，比刀療更安全！第一本完整介紹經絡原理的治痠止痛圖解書

海天漫筆─三民叢刊209

Diamond：鮮血、汗水與泥土，一部鑽石貿易的全球史

淨土概論(平)

一星期零一夜：電話爺爺貝爾說故事

不只蘋果掉下來！：現代科學之父牛頓

詹姆士(平)

種瓜得瓜種豆得豆：遺傳學之父孟德爾

日本近代文學概說

動物畫

您曾經瀏覽過的商品

購物須知