強化學習(第2版)
  • 推薦0
  • 收藏1
  • 瀏覽210

強化學習(第2版)

(加)Richard S. Sutton(理查德·桑頓) , (美)Andrew G. Barto(安德魯·巴圖) (作者)  俞凱 等 (譯者) 梁衛紅 (責任編輯)

  • 書  號:
  • 預計出版日期:2019-06-30
  • 頁  數:
  • 開  本:
  • 出版狀態:圖書立項

相關圖書

機器學習互聯網業務安全實踐

王帥 吳哲夫 (作者)

互聯網產業正在從IT時代邁入DT時代(數據時代),同時互聯網產業的繁榮也催生了黑灰產這樣的群體。那么,在數據時代應該如何應對互聯網業務安全威脅?機器學習技術在互...

 

實戰深度學習算法:零起點通關神經網絡模型(基于Python和NumPy實現)

徐彬 (作者)

深度學習是機器學習的重要分支。本書系統地介紹了如何用 Python 和 NumPy 一步步地實現深度學習的基礎模型,無須借助 TensorFlow、PyTorc...

 

知識圖譜:方法、實踐與應用

陳華鈞 王昊奮 漆桂林 (作者)

知識圖譜是較為典型的多學科交叉領域,涉及知識工程、自然語言處理、機器學習、圖數據庫等多個領域。本書系統地介紹知識圖譜涉及的關鍵技術,如知識建模、關系抽取、圖存儲...

 

深度學習之TensorFlow工程化項目實戰

李金洪 (作者)

這是一本非常全面的、專注于實戰的AI 圖書,兼容TensorFlow 1.x 和2.x 版本,共75 個實例。 全書共分為5 篇:第1 篇,介紹了學習準備、搭...

 

OpenCV輕松入門:面向python

李立宗 (作者)

本書基于面向 Python 的 OpenCV(OpenCV for Python),介紹了圖像處理的方方面面。本書以 OpenCV 官方文檔的知識脈絡為主線,并...

 

聊天機器人:對話式體驗產品設計

Amir Shevat (作者) 淘寶(中國)軟件有限公司 (譯者)

從亞馬遜的Alexa語音助手到蘋果的Siri,從Slack的聊天機器人到短信和電子郵件機器人,我們越來越依賴于軟件驅動的聊天應用。在這本實用指南中,作者Amir...

¥65.00
《強化學習(第2版)》作為強化學習思想的深度解剖之作,被業內公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發,深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,并以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。
《強化學習(第2版)》適合所有對強化學習感興趣的讀者閱讀、收藏。
《強化學習(第2版)》作為強化學習思想的深度解剖之作,被業內公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發,深入淺出又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,并以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。
俞凱,思必馳聯合創始人、首席科學家、上海交通大學計算機系研究員,譯有《解析深度學習:語音識別實踐》一書。
譯者序
“思想總是走在行動的前面,就好像閃電總是走在雷鳴之前。”德國詩人海涅的詩句再恰當不過地描述了我第一次讀到本書英文原版時的感受。
縱觀人工智能技術的發展歷史,就是一部思想、理論、算法、工程應用的成就交替出現而又交相輝映的歷史。傳統人工智能領域的三大學派:以邏輯推斷和貝葉斯學習為代表的符號主義學派、以神經網絡為代表的聯結主義學派以及以控制論和強化學習為代表的行為主義學派,在不同的歷史階段都產生了很多絕妙的思想和理論成果,而技術應用的水平和范圍也讓它們受到的關注度起起落落。 20世紀 40年代到 50年代,行為主義的控制論因其在航空、航天、機械、化工等領域的巨大成功受到了極大重視,也獨立產生了自動控制等技術學科,甚至連早期的計算機專業也都是從控制相關的專業中分出來的,但其應用往往不被認為是一種“智能”,因而長期獨立發展,游離于人工智能研究者的視野之外;而 20世紀 50年代人工智能的概念被正式提出以后,符號主義的數理邏輯以及貝葉斯學習等經典機器學習理論一直一枝獨秀,引領著人工智能的研究和應用,尤其是專家系統和經典機器學習理論的大量成功應用,使得它成為 20世紀在人工智能研究中占據統治地位的主流學派;聯結主義的神經網絡的發展則一波三折, 20世紀 60年代類腦模型的研究和 80年代反向傳播算法的提出都使得神經網絡的研究在短時間內出現過熱潮,然而理論局限和應用瓶頸一次又一次地把神經網絡的研究打入冷宮,直到 21世紀初,深度學習理論被提出,借助 GPU等計算機硬件的算力飛躍并與大數據結合,迅速產生了巨大的產業技術紅利,使得聯結主義一躍成為當前人工智能研究最炙手可熱的學派。而無論技術應用如何風云變幻,產業發展如何潮起潮落,在人工智能的發展歷程中,始終有一批思想的先行者以近乎頑固的執著態度在不同時代的“非主流”方向上進行著思考和探索,而正是這些執著甚至孤獨的思想者,在技術應用熱潮冷卻后的暗夜里保留了火種,照亮了人類不停息的探索之路。
本書的兩位作者 Richard S. Sutton和 Andrew G. Barto就是這樣的思想先行者,而本書所介紹的“強化學習”,則是后深度學習時代技術發展的重要火種之一。以聯結主義的神經網絡為代表的深度學習毫無疑問是 21世紀初人工智能領域的最重要、最具實用意義的技術突破之一,它為基礎研究走向產業應用做出了巨大貢獻,也相應地贏得了巨大的聲譽和關注。然而,如火如荼的產業應用掩蓋不住冷靜的研究者們對人工智能未來走向的擔憂,越來越多的研究者把深度學習的改良性研究視為工業界的應用技巧,而開始關注與聯結主義的經典深度學習不同的人工智能范式探索。這其中,不同學派的思想融合產生了兩個重要趨勢。一個是將聯結主義與符號主義融合起來,將神經網絡的“黑箱學習”與先驗知識、符號推理和經典機器學習結合,實現可解釋、可推理、可操控的新一代“白箱學習”;另一個則是將聯結主義與行為主義融合起來,將基于靜態數據和標簽的、數據產生與模型優化相互獨立的“開環學習”,轉變為與環境動態交互的、在線試錯的、數據(監督信號)產生與模型優化緊密耦合在一起的“閉環學習”。強化學習就是“閉環學習”范式的典型代表,正如本書中所介紹的,它與傳統的預先收集或構造好數據及標簽的有監督學習有著本質的區別,它強調在與環境的交互中獲取反映真實目標達成度的反饋信號,強調模型的試錯學習和序列決策行為的動態和長期效應。這使得強化學習在人工智能領域的一些難題,如我本人所從事的認知型人機口語對話系統的研究中,具有無可替代的重要地位。而這些寶貴的思想,也為聯結主義的深度學習在小數據、動態環境、自主學習等方面的進一步發展提供了重要的基礎。在 AlphaGo戰勝李世石之后, AlphaZero以其完全憑借自我學習超越人類在各種棋類游戲中數千年經驗的能力再次刷新了人類對人工智能的認識,也使得強化學習與深度學習的結合受到了學術界和產業界的前所未有的關注。
《強化學習》的英文第 2版正是在這樣的背景下出版的。本書并非一本實用主義的算法普及材料,而是一本強化學習思想的深度解剖之作,是強化學習基礎理論的經典論述。本書沒有從復雜的數學角度對強化學習的相關理論和方法給以極其嚴格的形式化推導,而是從強化學習的基本思想出發,深入淺出而又嚴謹細致地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法,并以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。自 1998年第 1版出版以來,本書就一直是強化學習領域的經典導論性教材。在第 2版中,原作者又加入了很多新的內容,包括對深度強化學習應用(如 AlphaGo)的介紹,以及更新的思想和理解等,使得本書既保持對核心理論的清晰簡明的講解,又包含了與時俱進的最新應用成果和作者的最新思想。本書既可以作為一到兩學期的強化學習課程的初級教材,也可以作為研究者自學的入門教程。在本書的翻譯過程中, Richard S. Sutton和 Andrew G. Barto還特意為中國讀者寫了一段寄語,其中提到希望本書的中文譯本能夠促進中國學生產生更多的新思想,為世界范圍的強化學習的研究繁榮做出貢獻。這一期望也使我倍感榮幸,希望本書的中文譯本能夠讓他們的思想為更多的中國研究者所了解,并作為一個種子,在中國孕育并產生人工智能前沿研究的新思想。
本書的翻譯得到了上海交通大學計算機系智能語音實驗室同學們的大力支持,尤其是劉奇、陳志、陳露和吳越同學付出了大量的精力進行組織和排版整理,卞天靈、曹瑞升、杜晨鵬、黃子礫、金凱祺、蘭鷗羽、李晨達、李大松、李福斌、李杰宇、李沐陽、劉辰、劉嘯遠、盧怡宙、馬嬈、盛佩瑤、王晨、王鴻基、王巍、吳嫣然、吳章昊、徐志航、楊閏哲、楊葉新、葉子豪、張王優、趙晏彬、周翔等同學都為本書的翻譯做出了貢獻。同時,也特別感謝蘇州大學劉全教授,陸軍軍醫大學王曉霞博士,清華大學劉樂章同學和北京交通大學張智慧同學對翻譯稿進行了試讀并幫助審校。本書的翻譯也得到了電子工業出版社的大力支持,在此一并表示衷心的感謝。翻譯過程難免存在疏漏和錯誤,歡迎讀者批評指正。
俞凱
2019年 4月

第二版前言
本書第 1版出版的 20年以來,在機器學習 (包括強化學習 )前沿技術發展的推動下,人工智能取得了重大進展。這些進展不僅歸功于這些年迅猛發展起來的計算機強大的計算能力,也受益于許多理論和算法上的創新。面對這些進展,我們早有對 1998年第 1版書進行更新再版的打算,但直到 2012年才開始真正著手編纂。第 2版的目標與第 1版一致:為強化學習的核心概念與算法提供清晰簡明的解釋,以供所有相關學科的讀者學習。這一版仍然是一本概要介紹性的讀物,仍然關注最核心的在線學習算法,同時增加了一些近年來日趨重要的話題,并拓展了部分內容,給出了更新的理解。強化學習領域可以延伸出很多不同的方向,但我們并不想包羅萬象,在此為可能出現的些許遺漏表示歉意。
第 2版記號變化
和第 1版一樣,我們沒有以最嚴謹的形式化的方式來定義強化學習,也沒有采用特別抽象的術語表達,但是為了大家能更深入地理解,有些話題仍然需要用數學來解釋。無數學需求的讀者可以選擇跳過灰色框中的數學原理部分。在教學過程中,我們發現一些新的記號可以消除一些共同的疑惑點,因此本書的部分記號和上一版相比略有差異。首先我們對隨機變量進行了區分,以大寫字母表示變量本身,小寫字母表示對應的實例。比如時刻 t的狀態、動作和收益被表示為 St、At和 Rt,而它們可能的取值被表示為 s、a和 r。與之相伴隨,我們用小寫字母的形式 (例如 vл)來表示價值函數,用大寫字母表示其表格型的估計值,比如 Qt (s, a)。近似價值函數是具有隨機參數的確定性函數,因此用小寫字母表示,比如 v.(s,wt) ≈vл(s)。向量用粗體的小寫字母表示 (包括隨機變量),比如權值向量wt (先前用 θt表示 )、特征向量 xt (先前用фt表示 )。大寫粗體用以表示矩陣。在第 1版中我們使用了特殊記號Pass′和Rass′來表示轉移概率和期望收益。但這種記號并不能完整地表示出收益的動態性,只表示了期望值,因此只適用于動態規劃而不適用于強化學習。另一個缺點是上下標的過度使用。因此,在這一版中我們明確采用 p(s′,r |s, a)的記號來表示給定當前狀態 s和動作 a后,下一時刻的狀態 s′和收益 r的聯合概率分布。所有的記號變化都收錄在稍后的“符號列表”中。
第 2版內容結構
第 2版在原先的基礎上進行了許多拓展,整體結構也有所變化。第 1章是導論性的介紹,其后分為三個部分。第 I部分 (第 2~8章)會盡可能多地用表格型的案例講解強化學習,主要包括針對表格型案例的學習和規劃算法,以及它們在 n步法和 Dyna中的統一表達。這部分介紹的許多算法是第 2版的新增內容,包括 UCB、期望 Sarsa、雙重學習、樹回溯、 Q(σ)、RTDP和 MCTS。從介紹表格型案例開始,可以在最簡單的情況下理解算法的核心思想。本書的第 II部分 (第 9~13章)致力于將這些思想從表格型的情況擴展到函數逼近,包含人工神經網絡、傅立葉變換基礎、 LSTD、核方法、梯度 TD和強調 TD方法、平均收益方法、真實的在線 TD(λ)和策略梯度方法等新內容。第 2版大幅拓展了對離軌策略的介紹,首先是第 5~7章講解表格型的案例,之后在第 11章和第 12章講解函數逼近法。另一個變化是,這一版將 n步自舉法 (在第 7章中詳細闡述 )中的前向視圖思想與資格跡 (在第 12章中單獨闡述 )中的后向視圖思想分開詳細講解。本書的第 III部分加入了大量闡述強化學習與心理學 (第 14章)、神經科學 (第 15章)聯系的新章節,更新了針對多種案例,包括 Atari游戲、 Watson的投注策略和圍棋人工智能 AlphaGo、AlphaGo Zero (第 16章)的研究章節。盡管如此,本書涵蓋的內容仍然只是該領域的一小部分,只反映了我們長期以來對低成本無模型方法的興趣,這些方法可以很好地適應大規模的應用。最后一章包括了對強化學習未來的社會影響的討論。無論好壞,第 2版的篇幅達到了第 1版的兩倍。
本書旨在作為一到兩學期強化學習課程的初級教材。一個學期的課程可以著重對前 10章進行討論,掌握核心思想,根據需要再將其他章節,或者其他書籍的某些章節,比如 Bertsekas和 Tsitsiklis (1996)、Wiering和 van Otterlo (2012),以及 Szepesvári (2010)或其他文獻作為輔助材料。根據學生的背景,在線有監督學習的一些額外材料可能會對學習這門課有所幫助。比如“選項”的概念和模型 (Sutton、Precup和 Singh,1999)就是一個很好的補充。兩學期的課程可以使用所有章節內容及補充材料。本書還可以作為機器學習、人工智能或神經網絡等課程的一部分。這種情況只需要講述部分內容,我們推薦對第 1章進行簡要概述,然后學習第 2章到 2.4節和第 3章,隨后根據時間和興趣選擇其余章節。第 6章的內容對于本書和相關課程來說是最重要的。關于機器學習或神經網絡的課程應該使用第 9章和第 10章的內容,而關于人工智能或規劃算法的課程應該使用第 8章的內容。在整本書中,相對比較難且對于其他課程不那么重要的章節和部分已用 .注明。這些部分在第一次閱讀時可以跳過,這不會影響后續閱讀。練習中一些進階的、對理解基礎概念不那么重要的問題也已經用 .標識。
大多數章節最后會出現題為“參考文獻和歷史備注”的部分,在這部分中,我們針對本章中一些值得深入探究的概念和觀點提供了進一步閱讀和研究的材料,并描述了相關的 歷史背景。盡管我們試圖使這些部分內容具有權威性和完整性,但也不免會忽略一些重要的前期工作。為此,我們再次表示歉意,也歡迎讀者提出更正和擴展。
本書寫作背景
和第 1版一樣,我們用本書的這一版紀念 A. Harry Klopf。是 Harry把本書的作者們介紹給彼此,也是他關于大腦和人工智能的想法,使我們踏上對強化學習研究的漫長征程。 Harry是俄亥俄州賴特 -帕特森空軍基地空軍科學研究所 (AFOSR)航空電子管理局的一位高級研究員,他受過神經生理學的訓練,并一直對機器智能很感興趣。在解釋自然智能、機器智能基礎機理的問題上,他并不滿意當時的人們對“平衡態搜索”(equilibrium-seeking)過程 (包括內部穩態自調整過程和基于錯誤糾正的模式分類方法)的廣泛重視。他指出,嘗試最大化某種準則 (無論該準則是什么)的系統與搜索平衡態的系統在本質上有所不同,而具有最大化準則的系統才是理解自然智能的重要方向,是構建人工智能的關鍵。Harry從 AFOSR申請了項目資助,用于評估這些思想以及相關思想的科學價值。該項目于 20世紀 70年代末在馬薩諸塞州阿默斯特大學 (麻省大學阿默斯特分校 )進行,最初由 Michael Arbib、William Kilmer和 Nico Spinelli指導,他們是麻省大學阿默斯特分校計算機與信息科學系的教授,系統神經科學控制論中心的創始成員。這是一支十分有遠見的團隊,專注于神經科學和人工智能交叉方向。
Barto,一位來自密歇根大學的博士,擔任該項目的博士后研究員。與此同時,在斯坦福大學攻讀計算機科學和心理學的本科生 Sutton,就經典條件反射中的刺激時機的作用這一話題和 Harry產生了共同興趣。 Harry向麻省大學提出建議,認為 Sutton可以成為該項目的一名重要補充人員。因此, Sutton成為了麻省大學的研究生,在成為副教授的 Barto的指導下攻讀博士學位。
本書中對強化學習的研究都出自 Harry推動的這一項目,且受其想法啟發而來。此外,也是通過 Harry,作者們才得以聚到一起進行長期愉快的合作。因此,我們將本書獻給 Harry,以紀念他對于強化學習領域和我們合作的重要貢獻。我們也感謝 Arbib、 Kilmer和 Spinelli教授為我們提供探索這些想法的機會。最后,感謝 AFOSR在研究早期給予我們的慷慨支持,并感謝 NSF (美國國家科學基金會 )在接下來的幾年中給予的慷慨支持。
致謝
我們還要感謝在第 2版中為我們提供靈感和幫助的許多人,同樣我們也要對第 1版中致謝過的所有人再次表示深深的感謝,如果不是他們對第 1版的貢獻,這一版也不會面世。在這個長長的致謝列表中,我們增加了許多特別為第 2版作出貢獻的人。多年來在使用該教材的教授的課堂上,我們的學生以各種各樣的方式作出貢獻:指正錯誤,提供修改方案,也包括對我們沒解釋清楚的地方表達困惑。我們還要特別感謝 Martha Steenstrup閱讀并提供詳細的意見。如果沒有這些心理學和神經科學領域專家的幫助,相關章節將無法完成。感謝 John Moore多年來在動物學習實驗、理論和神經科學方面的耐心指導,John仔細審閱了第 14章和第 15章的多版草稿。感謝 Matt Botvinick、Nathaniel Daw、Peter Dayan和 Yael Niv對這些章節的建議,對我們閱讀大量文獻給予的重要指導,以及對早期草稿中錯誤的斧正。當然,這些章節一定還存在某些紕漏。我們感謝 Phil Thomas幫助我們尋找非心理學、非神經科學研究的人士來閱讀這些章節,感謝 Peter Sterling幫助我們改進注釋部分。感謝 Jim Houk為我們介紹基底核神經中樞進行信息處理的過程,并提醒我們注意其他一些相關的神經科學的內容。在案例學習的章節, José Martínez、 Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和 Phil Thomas幫助我們了解他們的強化學習應用程序的細節,并對這些章節的草稿提出了十分有用的意見。特別感謝 David Silver幫助我們更好地理解蒙特卡洛樹搜索和 DeepMind的圍棋程序(Go-playing program)。感謝 George Konidaris在傅立葉基的相關章節提供的幫助,感謝 Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和 Pierre-Luc Bacon在多方面對我們提供的幫助。
Sutton還要感謝阿爾伯塔大學強化學習和人工智能實驗室的成員對第 2版的貢獻,特別是 Rupam Mahmood對于第 5章中關于離軌策略蒙特卡洛方法的重要貢獻, Hamid Maei在第 11章中提出的關于離軌策略學習的觀點, Eric Graves在第 13章中進行的實驗, Shangtong Zhang復現并驗證了幾乎所有的實驗結果, Kris De Asis在第 7章和第 12章中提供的新技術內容,以及 Harm van Seijen提出的 n步方法與資格跡分離的觀點, (和 Hado van Hasselt一起 )和第 12章中涉及的資格跡前向、后向等價性的觀點。 Sutton也非常感謝阿爾伯塔省政府和加拿大國家科學與工程研究委員會在整個第 2版的構思和編寫期間給予的支持和自由。特別感謝 Randy Goebel在阿爾伯塔省創建的包容支持、具有遠見的基礎研究環境。同時,也還要感謝在撰寫本書的最后 6個月中 DeepMind給予的支持。
最后,我們要感謝許多閱讀網絡發布的第 2版的細心讀者們,他們發現了許多我們忽視的錯誤,提醒我們注意可能出現的混淆點。

第一版前言
我們最早是在 1979年末開始關注如今被稱為強化學習的領域。那時我們都在麻省大學研究一個項目,這個項目是諸多的早期項目之一,旨在證明具有由類似神經元一樣的有自適應能力的單元所組成的網絡,是實現人工智能的一種前途可觀的想法。這個項目研究了 A. Harry Klopf提出的“自適應系統異構理論”。Harry的研究是靈感源泉,使我們能夠批判性地去探索,并將它們與自適應系統的早期工作歷史進行比較。我們的任務是梳理這些想法,理解它們之間的關系和相對重要性。這項任務延續至今,但在 1979年我們就開始意識到,那些一直以來被人視為理所當然的最簡單的想法,從計算角度來看,受到的關注實在寥寥。那就是關于一個學習系統最簡單的思想,即學習系統總是有某些需要,它總是通過調整自身的行為來最大化其所在環境給出的一些特殊信號。這就是“享樂主義”學習系統的概念,或者如我們現在所說,強化學習的概念。
和其他人一樣,我們以為強化學習已經在早期的控制論 (cybernetics)和人工智能領域中被詳盡地研究過了,然而仔細調查才發現并非如此。盡管強化學習促進了一些最早的對學習的計算性研究,但大多數研究者轉而研究了其他的方向,如模式分類、有監督學習和自適應控制,或者完全放棄了對學習的研究。因此,學習如何從環境中獲取某些知識這類特殊問題受到的關注較少。現在回想起來,專注于這個想法是推動這個研究分支發展的關鍵一步。直到大家都認識到這樣一個基本思想尚未被徹底研究的時候,強化學習的計算性研究才會有更多進展。
自那時以來,這個領域已經走過了很長的路,在不同方向發展著。強化學習逐漸成為機器學習、人工智能和神經網絡研究中最活躍的研究領域之一。該領域已經建立了強大的數學基礎,并出現了一些令人矚目的應用。強化學習的計算性研究領域如今已成為一個很大的領域,全世界有數百名研究人員在心理學、控制理論、人工智能和神經科學等不同學科積極地探索著。尤為重要的是,它建立和發展起與最優控制和動態規劃理論的關系。從交互中學習以達到目標這個問題還遠遠沒有解決,但我們對它的理解明顯更好了。我們現在可以從整體上以一致的框架來描述若干思想,例如時序差分、動態規劃和函數逼近。
本書旨在為強化學習的核心概念與算法提供清晰簡明的解釋,以供所有相關學科的讀者學習,但我們無法詳細介紹所有觀點,在大多數情況下,我們會從人工智能和工程實現的角度來講述。與其他領域的聯系留待他人或后續繼續研究探討。我們不以嚴謹、形式化的方式來定義強化學習,不涉及高度的數學抽象,不依賴定理證明式的表述方式,而是試圖以合理的程度來運用數學,使得我們既能指引正確的數學分析方向,又不偏離基本思想的簡單性和一般性。
致謝
從某種意義上說,本書的編寫已經歷時 30年了,我們要感謝很多人。首先,感謝那些親自幫助我們建立整體思想的人:Harry Klopf幫助我們認識到強化學習需要復興;Chris Watkins、Dimitri Bertsekas、John Tsitsiklis和 Paul Werbos幫助我們認識到探索強化學習與動態規劃關系的價值; John Moore和 Jim Kehoe提供了對于動物學習理論的見解和靈感; Oliver Selfridge強調了適應性的廣度和重要性;還有我們的同事和學生以各種方式提供了幫助:Ron Williams、Charles Anderson、Satinder Singh、Sridhar Mahadevan、 Steve Bradtke、Bob Crites、Peter Dayan和 Leemon Baird;Paul Cohen、Paul Utgo .、Martha Steenstrup、Gerry Tesauro、Mike Jordan、Leslie Kaelbling、Andrew Moore、 Chris Atkeson、Tom Mitchell、Nils Nilsson、Stuart Russell、Tom Dietterich、Tom Dean和 Bob Narendra的討論豐富了我們對強化學習的看法。感謝 Michael Littman、Gerry Tesauro、Bob Crites、Satinder Singh和 Wei Zhang,他們分別提供了 4.7節、15.1節、
15.4節、15.5節和 15.6節的具體內容。感謝美國空軍科學研究所、美國國家科學基金會和 GTE實驗室長期以來的支持。
我們也要感謝很多讀過本書草稿并提供寶貴意見的人,包括 Tom Kalt、John Tsitsik-lis、Pawel Cichosz、Olle G.llmo、Chuck Anderson、Stuart Russell、Ben Van Roy、Paul Steenstrup、Paul Cohen、Sridhar Mahadevan、Jette Randlov、Brian Sheppard、Thomas O’Connell、Richard Coggins、Cristina Versino、John H. Hiett、Andreas Badelt、Jay Ponte、Joe Beck、Justus Piater、Martha Steenstrup、Satinder Singh、Tommi Jaakkola、 Dimitri Bertsekas、Torbj.rn Ekman、Christina Bj.rkman、Jakob Carlstr.m和 Olle Palm-gren。最后,感謝 Gwyn Mitchell在許多方面提供的幫助,感謝 MIT出版社的 Harry Stanton和 Bob Prior對我們的支持。

目錄

目錄
第1 章導論· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.1 強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1
1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4
1.3 強化學習要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5
1.4 局限性與適用范圍· · · · · · · · · · · · · · · · · · · · · · · · · · 7
1.5 擴展實例:井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8
1.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12
1.7 強化學習的早期歷史· · · · · · · · · · · · · · · · · · · · · · · · · 13
第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23
第2 章多臂賭博機· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25
2.1 一個k 臂賭博機問題· · · · · · · · · · · · · · · · · · · · · · · · 25
2.2 動作-價值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27
2.3 10 臂測試平臺· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28
2.4 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30
2.5 跟蹤一個非平穩問題· · · · · · · · · · · · · · · · · · · · · · · · · 32
2.6 樂觀初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34
2.7 基于置信度上界的動作選擇· · · · · · · · · · · · · · · · · · · · · 35
2.8 梯度賭博機算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37
2.9 關聯搜索(上下文相關的賭博機) · · · · · · · · · · · · · · · · · · 40
2.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41
強化學習(第2 版)
第3 章有限馬爾可夫決策過程· · · · · · · · · · · · · · · · · · · · · · · · 45
3.1 “智能體-環境”交互接口· · · · · · · · · · · · · · · · · · · · · · 45
3.2 目標和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51
3.3 回報和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52
3.4 分幕式和持續性任務的統一表示法· · · · · · · · · · · · · · · · · 54
3.5 策略和價值函數· · · · · · · · · · · · · · · · · · · · · · · · · · · 55
3.6 最優策略和最優價值函數· · · · · · · · · · · · · · · · · · · · · · 60
3.7 最優性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65
3.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66
第4 章動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71
4.1 策略評估(預測) · · · · · · · · · · · · · · · · · · · · · · · · · · 72
4.2 策略改進· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75
4.3 策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78
4.4 價值迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80
4.5 異步動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83
4.6 廣義策略迭代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84
4.7 動態規劃的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85
4.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86
第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89
5.1 蒙特卡洛預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90
5.2 動作價值的蒙特卡洛估計· · · · · · · · · · · · · · · · · · · · · · 94
5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95
5.4 沒有試探性出發假設的蒙特卡洛控制· · · · · · · · · · · · · · · · 98
5.5 基于重要度采樣的離軌策略· · · · · · · · · · · · · · · · · · · · · 101
5.6 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107
5.7 離軌策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108
5.8 ? 折扣敏感的重要度采樣· · · · · · · · · · · · · · · · · · · · · · 110
5.9 ? 每次決策型重要度采樣· · · · · · · · · · · · · · · · · · · · · · 112
5.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113
第6 章時序差分學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.1 時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117
6.2 時序差分預測方法的優勢· · · · · · · · · · · · · · · · · · · · · · 122
6.3 TD(0) 的最優性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124
6.4 Sarsa:同軌策略下的時序差分控制· · · · · · · · · · · · · · · · · 127
6.5 Q 學習:離軌策略下的時序差分控制· · · · · · · · · · · · · · · · 129
6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131
6.7 最大化偏差與雙學習· · · · · · · · · · · · · · · · · · · · · · · · · 133
6.8 游戲、后位狀態和其他特殊例子· · · · · · · · · · · · · · · · · · · 135
6.9 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136
第7 章n 步自舉法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139
7.1 n 步時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · 140
7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144
7.3 n 步離軌策略學習· · · · · · · · · · · · · · · · · · · · · · · · · · 146
7.4 ? 帶控制變量的每次決策型方法· · · · · · · · · · · · · · · · · · · 148
7.5 不需要使用重要度采樣的離軌策略學習方法:n 步樹回溯算法· · · 150
7.6 ? 一個統一的算法:n 步Q()· · · · · · · · · · · · · · · · · · · · 153
7.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155
第8 章基于表格型方法的規劃和學習· · · · · · · · · · · · · · · · · · · 157
8.1 模型和規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157
8.2 Dyna:集成在一起的規劃、動作和學習· · · · · · · · · · · · · · · 159
8.3 當模型錯誤的時候· · · · · · · · · · · · · · · · · · · · · · · · · · 164
8.4 優先遍歷· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166
8.5 期望更新與采樣更新的對比· · · · · · · · · · · · · · · · · · · · · 170
8.6 軌跡采樣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173
強化學習(第2 版)8.7 實時動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176
8.8 決策時規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 179
8.9 啟發式搜索· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 180
8.10 預演算法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 182
8.11 蒙特卡洛樹搜索· · · · · · · · · · · · · · · · · · · · · · · · · · 184
8.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 187
8.13 第I 部分總結· · · · · · · · · · · · · · · · · · · · · · · · · · · 188
第II 部分表格型近似求解方法· · · · · · · · · · · · · · · · · · · · · · · · 193
第9 章基于函數逼近的同軌策略預測· · · · · · · · · · · · · · · · · · · 195
9.1 價值函數逼近· · · · · · · · · · · · · · · · · · · · · · · · · · · · 195
9.2 預測目標(VE ) · · · · · · · · · · · · · · · · · · · · · · · · · · · 196
9.3 隨機梯度和半梯度方法· · · · · · · · · · · · · · · · · · · · · · · 198
9.4 線性方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 202
9.5 線性方法的特征構造· · · · · · · · · · · · · · · · · · · · · · · · · 207
9.5.1 多項式基· · · · · · · · · · · · · · · · · · · · · · · · · · · 208
9.5.2 傅立葉基· · · · · · · · · · · · · · · · · · · · · · · · · · · 209
9.5.3 粗編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 212
9.5.4 瓦片編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · 214
9.5.5 徑向基函數· · · · · · · · · · · · · · · · · · · · · · · · · · 218
9.6 手動選擇步長參數· · · · · · · · · · · · · · · · · · · · · · · · · · 219
9.7 非線性函數逼近:人工神經網絡· · · · · · · · · · · · · · · · · · · 220
9.8 最小二乘時序差分· · · · · · · · · · · · · · · · · · · · · · · · · · 225
9.9 基于記憶的函數逼近· · · · · · · · · · · · · · · · · · · · · · · · · 227
9.10 基于核函數的函數逼近· · · · · · · · · · · · · · · · · · · · · · · 229
9.11 深入了解同軌策略學習:“興趣”與“強調” · · · · · · · · · · · · 230
9.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 232
iv
目錄
第10 章基于函數逼近的同軌策略控制· · · · · · · · · · · · · · · · · · · 239
10.1 分幕式半梯度控制· · · · · · · · · · · · · · · · · · · · · · · · 239
10.2 半梯度n 步Sarsa· · · · · · · · · · · · · · · · · · · · · · · · · 242
10.3 平均收益:持續性任務中的新的問題設定· · · · · · · · · · · · · 245
10.4 棄用折扣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 249
10.5 差分半梯度n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · 251
10.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 252
第11 章 基于函數逼近的離軌策略方法· · · · · · · · · · · · · · · · · · 253
11.1 半梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 254
11.2 離軌策略發散的例子· · · · · · · · · · · · · · · · · · · · · · · 256
11.3 致命三要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 260
11.4 線性價值函數的幾何性質· · · · · · · · · · · · · · · · · · · · · 262
11.5 對貝爾曼誤差做梯度下降· · · · · · · · · · · · · · · · · · · · · 266
11.6 貝爾曼誤差是不可學習的· · · · · · · · · · · · · · · · · · · · · 270
11.7 梯度TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 274
11.8 強調TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 278
11.9 減小方差· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 279
11.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 280
第12 章資格跡· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 283
12.1 -回報· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 284
12.2 TD()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 287
12.3 n-步截斷- 回報方法· · · · · · · · · · · · · · · · · · · · · · · 291
12.4 重做更新:在線-回報算法· · · · · · · · · · · · · · · · · · · 292
12.5 真實的在線TD() · · · · · · · · · · · · · · · · · · · · · · · · 294
12.6 ? 蒙特卡洛學習中的荷蘭跡· · · · · · · · · · · · · · · · · · · · 296
12.7 Sarsa()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 298
12.8 變量 和
· · · · · · · · · · · · · · · · · · · · · · · · · · · · 303
v
強化學習(第2 版)
12.9 帶有控制變量的離軌策略資格跡· · · · · · · · · · · · · · · · · 304
12.10 從Watkins 的Q() 到樹回溯TB() · · · · · · · · · · · · · · · 308
12.11 采用資格跡保障離軌策略方法的穩定性· · · · · · · · · · · · · · 310
12.12 實現中的問題· · · · · · · · · · · · · · · · · · · · · · · · · · · 312
12.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 312
第13 章策略梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 317
13.1 策略近似及其優勢· · · · · · · · · · · · · · · · · · · · · · · · 318
13.2 策略梯度定理· · · · · · · · · · · · · · · · · · · · · · · · · · · 320
13.3 REINFORCE:蒙特卡洛策略梯度· · · · · · · · · · · · · · · · 322
13.4 帶有基線的REINFORCE · · · · · · · · · · · · · · · · · · · · 325
13.5 “行動器-評判器”方法· · · · · · · · · · · · · · · · · · · · · · 327
13.6 持續性問題的策略梯度· · · · · · · · · · · · · · · · · · · · · · 329
13.7 針對連續動作的策略參數化方法· · · · · · · · · · · · · · · · · 332
13.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 333
第III 部分表格型深入研究· · · · · · · · · · · · · · · · · · · · · · · · · · 337
第14 章心理學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 339
14.1 預測與控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 340
14.2 經典條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · · 341
14.2.1 阻塞與高級條件反射· · · · · · · · · · · · · · · · · · · · · 342
14.2.2 Rescorla-Wagner 模型· · · · · · · · · · · · · · · · · · · · 344
14.2.3 TD 模型· · · · · · · · · · · · · · · · · · · · · · · · · · 347
14.2.4 TD 模型模擬· · · · · · · · · · · · · · · · · · · · · · · · 348
14.3 工具性條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · 355
14.4 延遲強化· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 359
14.5 認知圖· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 361
14.6 習慣行為與目標導向行為· · · · · · · · · · · · · · · · · · · · · 362
14.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 366
第15 章神經科學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 373
15.1 神經科學基礎· · · · · · · · · · · · · · · · · · · · · · · · · · · 374
15.2 收益信號、強化信號、價值和預測誤差· · · · · · · · · · · · · · 375
15.3 收益預測誤差假說· · · · · · · · · · · · · · · · · · · · · · · · 377
15.4 多巴胺· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 379
15.5 收益預測誤差假說的實驗支持· · · · · · · · · · · · · · · · · · · 382
15.6 TD 誤差/多巴胺對應· · · · · · · · · · · · · · · · · · · · · · · 385
15.7 神經“行動器-評判器” · · · · · · · · · · · · · · · · · · · · · · 390
15.8 行動器與評判器學習規則· · · · · · · · · · · · · · · · · · · · · 393
15.9 享樂主義神經元· · · · · · · · · · · · · · · · · · · · · · · · · · 397
15.10 集體強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · 399
15.11 大腦中的基于模型的算法· · · · · · · · · · · · · · · · · · · · · 402
15.12 成癮· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 403
15.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 404
第16 章應用及案例分析· · · · · · · · · · · · · · · · · · · · · · · · · · · 413
16.1 TD-Gammon · · · · · · · · · · · · · · · · · · · · · · · · · · · 413
16.2 Samuel 的跳棋程序· · · · · · · · · · · · · · · · · · · · · · · · 418
16.3 Watson 的每日雙倍投注· · · · · · · · · · · · · · · · · · · · · 421
16.4 優化內存控制· · · · · · · · · · · · · · · · · · · · · · · · · · · 424
16.5 人類級別的視頻游戲· · · · · · · · · · · · · · · · · · · · · · · 428
16.6 主宰圍棋游戲· · · · · · · · · · · · · · · · · · · · · · · · · · · 433
16.6.1 AlphaGo · · · · · · · · · · · · · · · · · · · · · · · · · · 436
16.6.2 AlphaGo Zero · · · · · · · · · · · · · · · · · · · · · · · 439
16.7 個性化網絡服務· · · · · · · · · · · · · · · · · · · · · · · · · · 442
16.8 熱氣流滑翔· · · · · · · · · · · · · · · · · · · · · · · · · · · · 446
強化學習(第2 版)
第17 章前沿技術· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 451
17.1 廣義價值函數和輔助任務· · · · · · · · · · · · · · · · · · · · · 451
17.2 基于選項理論的時序摘要· · · · · · · · · · · · · · · · · · · · · 453
17.3 觀測量和狀態· · · · · · · · · · · · · · · · · · · · · · · · · · · 456
17.4 設計收益信號· · · · · · · · · · · · · · · · · · · · · · · · · · · 460
17.5 遺留問題· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 464
17.6 人工智能的未來· · · · · · · · · · · · · · · · · · · · · · · · · · 467
參考文獻· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 473

讀者評論

相關博文

0k000澳客网竞彩