{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,12,11]],"date-time":"2024-12-11T05:56:13Z","timestamp":1733896573336,"version":"3.30.1"},"reference-count":25,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,10,23]],"date-time":"2022-10-23T00:00:00Z","timestamp":1666483200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,10,23]],"date-time":"2022-10-23T00:00:00Z","timestamp":1666483200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,10,23]]},"DOI":"10.1109\/iros47612.2022.9981030","type":"proceedings-article","created":{"date-parts":[[2022,12,26]],"date-time":"2022-12-26T19:38:15Z","timestamp":1672083495000},"page":"2462-2467","source":"Crossref","is-referenced-by-count":1,"title":["Safety Guided Policy Optimization"],"prefix":"10.1109","author":[{"given":"Dohyeong","family":"Kim","sequence":"first","affiliation":[{"name":"Seoul National University,Department of Electrical and Computer Engineering and ASRI,Seoul,Korea,08826"}]},{"given":"Yunho","family":"Kim","sequence":"additional","affiliation":[{"name":"Robotics and Artificial Intelligence Lab, Korea Advanced Institute of Science and Technology,Department of Mechanical Engineering,Daejeon,Republic of Korea,34141"}]},{"given":"Kyungjae","family":"Lee","sequence":"additional","affiliation":[{"name":"Chung-Ang University,Department of Artificial Intelligence,Seoul,Korea,06974"}]},{"given":"Songhwai","family":"Oh","sequence":"additional","affiliation":[{"name":"Seoul National University,Department of Electrical and Computer Engineering and ASRI,Seoul,Korea,08826"}]}],"member":"263","reference":[{"key":"ref1","first-page":"7444","article-title":"Solar: Deep structured representations for model-based reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang"},{"issue":"1","key":"ref2","first-page":"1334","article-title":"End-to-end training of deep visuomotor policies","volume":"17","author":"Levine","year":"2016","journal-title":"J. Mach. Learn. Res."},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.010"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1177\/0278364919887447"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2020.xvi.064"},{"key":"ref6","first-page":"490","article-title":"Learning to manipulate object collections using grounded state representations","volume-title":"Proc. Conf. Robot Learn","author":"Wilson"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1201\/9781315140223"},{"key":"ref8","first-page":"3304","article-title":"Provably efficient safe exploration via primal-dual policy optimization","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Ding"},{"article-title":"Reward constrained policy optimization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Tessler","key":"ref9"},{"issue":"1","key":"ref10","first-page":"6070","article-title":"Risk-constrained reinforcement learning with percentile risk criteria","volume":"18","author":"Chow","year":"2017","journal-title":"J. Mach. Learn. Res."},{"key":"ref11","first-page":"22","article-title":"Constrained policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Achiam"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11797"},{"article-title":"Conservative safety critics for exploration","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Bharadhwaj","key":"ref13"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3070252"},{"key":"ref15","article-title":"Safe exploration in continuous action spaces","author":"Dalal","year":"2018","journal-title":"arXiv preprint"},{"key":"ref16","article-title":"Benchmarking safe exploration in deep reinforcement learning","author":"Ray","year":"2019","journal-title":"arXiv preprint"},{"volume-title":"Jackal ugv - small weatherproof robot","year":"2015","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2019.2920206"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013387"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197200"},{"key":"ref21","article-title":"A lyapunov-based approach to safe reinforcement learning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","volume":"31","author":"Chow"},{"key":"ref22","first-page":"2067","article-title":"Trial without error: Towards safe reinforcement learning via human intervention","volume-title":"Proc. Int. Conf. Autonomous Agents and MultiAgent Systems","author":"Saunders"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/BF02591962"},{"key":"ref24","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schulman"},{"key":"ref25","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv preprint"}],"event":{"name":"2022 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)","start":{"date-parts":[[2022,10,23]]},"location":"Kyoto, Japan","end":{"date-parts":[[2022,10,27]]}},"container-title":["2022 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9981026\/9981028\/09981030.pdf?arnumber=9981030","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,11]],"date-time":"2024-12-11T00:40:51Z","timestamp":1733877651000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9981030\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,23]]},"references-count":25,"URL":"https:\/\/doi.org\/10.1109\/iros47612.2022.9981030","relation":{},"subject":[],"published":{"date-parts":[[2022,10,23]]}}}