TOP
0
0
【簡體曬書區】 單本79折,5本7折,活動好評延長至5/31,趕緊把握這一波!
強化學習精要:核心算法與TensorFlow實現(簡體書)
滿額折

強化學習精要:核心算法與TensorFlow實現(簡體書)

商品資訊

人民幣定價:80 元
定價
:NT$ 480 元
優惠價
87418
領券後再享88折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:12 點
相關商品
商品簡介
目次

商品簡介

《強化學習精要:核心算法與TensorFlow 實現》用通俗幽默的語言深入淺出地介紹了強化學習的基本算法與代碼實現,為讀者構建了一個完整的強化學習知識體系,同時介紹了這些算法的具體實現方式。從基本的馬爾可夫決策過程,到各種複雜的強化學習算法,讀者都可以從本書中學習到。本書除了介紹這些算法的原理,還深入分析了算法之間的內在聯繫,可以幫助讀者舉一反三,掌握算法精髓。書中介紹的代碼可以幫助讀者快速將算法應用到實踐中。

前言
從你拿起本書的那一刻起,我們就一起踏上了這段有關強化學習的冒險之旅。本書中有簡單直白的敘述,也有複雜冗長的證明;有詼諧幽默,也有深刻的思考。所有的一切,都是為了幫助你更輕鬆地對強化學習有更多瞭解、更多感悟。
一年之前,我在拙作《深度學習輕鬆學:核心算法與視覺實踐》中,同樣以這段話作為開篇,唯一不同的是這一次書的主題換成了強化學習。近年來,強化學習領域有了很大的發展,基於強化學習開發的智能體也被人們熟知。於是越來越多的人開始關注強化學習,瞭解這個領域,並使用強化學習的方法解決問題。隨著深度學習的發展,強化學習也逐漸發揮出了自己的實力,憑藉更靈活的問題定義方式,解決了很多其他方法難以解決的問題。
雖然強化學習這個領域已經有了多年的積累與發展,但是與深度學習相比,國內外與此相關的書籍與課程偏少。同時,由於強化學習融合了很多領域的知識,本身的技術難度較大,學習起來比較困難。兩者疊加,使得強化學習仍然是一個令很多人感到困惑的概念。
為了學習強化學習中的各種知識,作為本書的作者,我也花費了很多的精力。在閱讀了很多經典的書籍、論文和博客之後,我開始對強化學習有了自己的理解和體會。同時也積累了不少關於強化學習的“學習筆記”,其中的一部分已經在一些公開場合,例如我的知乎專欄《無痛的機器學習》(https://zhuanlan.zhihu.com/hsmyy)中與讀者分享過。在交流的過程中,我能感受到讀者對強化學習的濃厚興趣,同時自己也在分享中得到了提高。
經過長時間的積累,這些心得與體會最終凝結成了本書。在這個過程中我重新回顧了自己所學的知識,也進一步思考了強化學習各部分知識點之間的聯繫。我希望可以給大家呈現一個盡可能完整而豐富的強化學習世界,與大家共同探討強化學習中的無限可能。
為了使更多的人能夠從本書中得到收穫,我選擇強化學習中比較經典的算法進行了介紹,這些都是強化學習中十分重要的內容,對不瞭解強化學習的讀者來說,可以幫助你快速瞭解強化學習的知識體系,對這個領域有一個全面的認識;對正在學習強化學習的讀者來說,本書中的知識同樣可以幫助你梳理強化學習的核心要點,加深對這些基本問題的理解。
在編寫這本書的過程中,我又一次體會到求知的艱辛。獲取知識的道路總是充滿荊棘,除了自身不斷地努力,更少不了身邊人對我的支持鼓勵。感謝家人對我的理解與支持,感謝編輯鄭柳潔女士再次成為我的伯樂,為我提供了很多幫助,感謝劉曉鳴先生為本書繪製了大量插圖。我相信我們的努力付出會使更多的人享受獲得知識的快樂。
本書的主要內容
強化學習在機器學習中的難度不低,它需要很多方面的知識輔助,同時自身也已經形成了一個龐大的體系。本書並不能幫助讀者完全掌握強化學習的所有知識點,所能做的只是展示其中部分基礎內容。本書不是一本科普讀物,想要閱讀本書需要具備一定的基礎知識,如微積分、線性代數等。部分章節也會梳理這些基礎知識,以確保讀者掌握這些知識的核心思想。本書各章節的核心內容如下。
第一部分主要介紹與強化學習有關的基礎知識,例如數學基礎、對應的程序開發基礎、強化學習的基本計算方法等。
第1章已經介紹了強化學習的基本概念,相信讀者對強化學習的目標、特點已經有了一定的瞭解。
第2章介紹相關的數學知識,如線性代數、概率論、重要性採樣、信息論等,幫助讀者快速回顧即將用到的數學知識。
第3章介紹強化學習中會用到的優化知識,主要介紹常見的梯度下降法(Gradient Descent)、共軛梯度法和自然梯度法,這三種方法將出現在後面的算法中。
第4章介紹書中代碼使用的計算框架TensorFlow。TensorFlow 是一款使用十分廣泛的框架,很多強化學習的算法選擇使用它進行實現,因此我們有必要學習它。本章將簡單介紹它的使用方法和一些基本原理,熟悉TensorFlow 的讀者可以跳過本章。
第5章介紹本書使用的另一個框架Gym 及在此框架上實現的算法集合Baselines。Gym 集成了大量的強化學習仿真環境,Baselines 則基於TensorFlow 和Gym 實現了一些經典的算法。本章將簡單介紹這兩個框架的基礎知識。
第6章介紹強化學習的基礎知識。例如馬爾可夫決策過程(Markov Decision Process),以及在簡單問題上的兩種經典動態規劃求解法:策略迭代法和價值迭代法。這些方法是強化學習算法的基石,絕大多數強化學習方法都是根據這些知識演變來的。
第二部分介紹以最優值函數為思想的一系列算法,其中的代表算法為Deep Q Network和Rainbow。
第7章介紹蒙特卡羅(Monte-Carlo)和時序差分(Temporal-Difference)兩種求解Model-free 問題的方法,並介紹Deep Q Network 算法的細節。
第8章介紹Deep Q-Learning 的一些改進算法,如Priority Replay Buffer、Duel Network等,並介紹改進的集成算法Rainbow。
第三部分介紹以策略梯度(Policy Gradient)為思想的一系列算法,其中的代表算法為Actor-Critic。
第9章介紹策略梯度法和Actor-Critic 算法的原理,同時介紹A2C 算法的實現細節。
第10章介紹使策略單調提升的算法,其中的代表為Trust Region Policy Optimization(TRPO)算法。
第11章介紹高樣本使用率的策略梯度算法,其中的代表算法為ACER 算法和確定策略梯度法(Deterministic Policy Gradient)。
第四部分介紹強化學習其他方面的內容。
第12章介紹回報稀疏情況下的一些求解方法,其中包括基於層次的強化學習和基於課程學習(Curriculum Learning)思想的方法。
第13 章介紹模型已知的一些算法,如基於蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS)的強化學習算法和iLQR 算法的原理。
第五部分介紹反向強化學習的基礎知識。
第14章介紹反向強化學習的基礎,以及基本的求解方法。
第15 章介紹最大熵反向強化學習(Max Entropy Inverse Reinforcement Learning)和生成對抗模仿學習(Generative Adversarial Imitation Learning)算法的內容。
雖然本書介紹了很多強化學習的內容,但實際上這只是強化學習中的一小部分,不過這些內容可以作為讀者入門強化學習的基礎,希望在下面的學習中讀者能夠有所收穫,並以此為基礎瞭解更多有關強化學習的內容。
由於本人才疏學淺,行文間難免有所紕漏,望各位讀者多多包涵,不吝賜教。
作者

目次

目錄
第一部分強化學習入門與基礎知識
1 引言2
1.1 強化學習的概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.1.1 巴浦洛夫的狗. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 俄羅斯方塊. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 站在被實驗者的角度看問題. . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 強化學習效果的評估. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.1 不斷試錯. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3.2 看重長期回報. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 強化學習與監督學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4.1 強化學習與監督學習的本質. . . . . . . . . . . . . . . . . . . . . 9
1.4.2 模仿學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 強化學習的實驗環境. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.5.1 Arcade Learning Environment . . . . . . . . . . . . . . . . . . . . . 12
1.5.2 Box2D . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5.3 MuJoCo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5.4 Gym . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.6 本書的主要內容. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.7 參考資料. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 數學與機器學習基礎17
2.1 線性代數基礎. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.2 對稱矩陣的性質. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 特徵值與特徵向量. . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.2 對稱矩陣的特徵值和特徵向量. . . . . . . . . . . . . . . . . . . . 22
2.2.3 對稱矩陣的對角化. . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 概率論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 概率與分佈. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 最大似然估計. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4 重要性採樣. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5 信息論基礎. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.6 KL 散度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.7 凸函數及其性質. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.8 機器學習的基本概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.9 機器學習的目標函數. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.10 總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3 優化算法47
3.1 梯度下降法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.1 什麼是梯度下降法. . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.1.2 優雅的步長. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2 動量算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3 共軛梯度法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.1 精妙的約束. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.3.2 共軛. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.3.3 優化步長的確定. . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
3.3.4 Gram-Schmidt 方法. . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.3.5 共軛梯度. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
3.4 自然梯度法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.1 基本概念. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4.2 Fisher 信息矩陣. . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
3.4.3 自然梯度法目標公式. . . . . . . . . . . . . . . . . . . . . . . . . 76
3.5 總結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4 TensorFlow 入門78
4.1 TensorFlow 的基本使用方法. . . . . . . . . . . . . . . . . . . . . . . . . 78
4.2 TensorFlow 原理介紹. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2.1 創建變量的scope . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.2 創建一個Variable 背後的故事. . . . . . . . . . . . . . . . . . . . 89
4.2.3 運算操作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
4.2.4 tf.gradients . . . . . . . . . . . . . . . . . . . . . . . .

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 418
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區