{"id":"https://openalex.org/W4285603657","doi":"https://doi.org/10.24963/ijcai.2022/508","title":"Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble","display_name":"Towards Applicable Reinforcement Learning: Improving the Generalization and Sample Efficiency with Policy Ensemble","publication_year":2022,"publication_date":"2022-07-01","ids":{"openalex":"https://openalex.org/W4285603657","doi":"https://doi.org/10.24963/ijcai.2022/508"},"language":"en","primary_location":{"id":"doi:10.24963/ijcai.2022/508","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/508","pdf_url":"https://www.ijcai.org/proceedings/2022/0508.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"bronze","oa_url":"https://www.ijcai.org/proceedings/2022/0508.pdf","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5101929207","display_name":"Zhengyu Yang","orcid":"https://orcid.org/0000-0003-4136-6538"},"institutions":[{"id":"https://openalex.org/I183067930","display_name":"Shanghai Jiao Tong University","ror":"https://ror.org/0220qvk04","country_code":"CN","type":"education","lineage":["https://openalex.org/I183067930"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Zhengyu Yang","raw_affiliation_strings":["Shanghai Jiao Tong University"],"affiliations":[{"raw_affiliation_string":"Shanghai Jiao Tong University","institution_ids":["https://openalex.org/I183067930"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5102807475","display_name":"Kan Ren","orcid":"https://orcid.org/0000-0002-4032-9615"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Kan Ren","raw_affiliation_strings":["Microsoft Research"],"affiliations":[{"raw_affiliation_string":"Microsoft Research","institution_ids":["https://openalex.org/I4210164937"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5035359374","display_name":"Xufang Luo","orcid":"https://orcid.org/0000-0002-3405-554X"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Xufang Luo","raw_affiliation_strings":["Microsoft Research"],"affiliations":[{"raw_affiliation_string":"Microsoft Research","institution_ids":["https://openalex.org/I4210164937"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101433372","display_name":"Minghuan Liu","orcid":"https://orcid.org/0009-0009-5585-1746"},"institutions":[{"id":"https://openalex.org/I183067930","display_name":"Shanghai Jiao Tong University","ror":"https://ror.org/0220qvk04","country_code":"CN","type":"education","lineage":["https://openalex.org/I183067930"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Minghuan Liu","raw_affiliation_strings":["Shanghai Jiao Tong University"],"affiliations":[{"raw_affiliation_string":"Shanghai Jiao Tong University","institution_ids":["https://openalex.org/I183067930"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101522967","display_name":"Weiqing Liu","orcid":"https://orcid.org/0000-0003-1951-2594"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Weiqing Liu","raw_affiliation_strings":["Microsoft Research"],"affiliations":[{"raw_affiliation_string":"Microsoft Research","institution_ids":["https://openalex.org/I4210164937"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5101544241","display_name":"Jiang Bian","orcid":"https://orcid.org/0000-0002-9472-600X"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Jiang Bian","raw_affiliation_strings":["Microsoft Research"],"affiliations":[{"raw_affiliation_string":"Microsoft Research","institution_ids":["https://openalex.org/I4210164937"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5090720315","display_name":"Weinan Zhang","orcid":"https://orcid.org/0000-0002-0127-2425"},"institutions":[{"id":"https://openalex.org/I183067930","display_name":"Shanghai Jiao Tong University","ror":"https://ror.org/0220qvk04","country_code":"CN","type":"education","lineage":["https://openalex.org/I183067930"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Weinan Zhang","raw_affiliation_strings":["Shanghai Jiao Tong University"],"affiliations":[{"raw_affiliation_string":"Shanghai Jiao Tong University","institution_ids":["https://openalex.org/I183067930"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5100440920","display_name":"Dongsheng Li","orcid":"https://orcid.org/0000-0003-3103-8442"},"institutions":[{"id":"https://openalex.org/I4210164937","display_name":"Microsoft Research (United Kingdom)","ror":"https://ror.org/05k87vq12","country_code":"GB","type":"company","lineage":["https://openalex.org/I1290206253","https://openalex.org/I4210164937"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Dongsheng Li","raw_affiliation_strings":["Microsoft Research"],"affiliations":[{"raw_affiliation_string":"Microsoft Research","institution_ids":["https://openalex.org/I4210164937"]}]}],"institutions":[],"countries_distinct_count":2,"institutions_distinct_count":8,"corresponding_author_ids":["https://openalex.org/A5101929207"],"corresponding_institution_ids":["https://openalex.org/I183067930"],"apc_list":null,"apc_paid":null,"fwci":1.4659,"has_fulltext":false,"cited_by_count":16,"citation_normalized_percentile":{"value":0.84146923,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":{"min":89,"max":99},"biblio":{"volume":null,"issue":null,"first_page":"3659","last_page":"3665"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.9998000264167786,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12101","display_name":"Advanced Bandit Algorithms Research","score":0.995199978351593,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}},{"id":"https://openalex.org/T11326","display_name":"Stock Market Forecasting Methods","score":0.9890000224113464,"subfield":{"id":"https://openalex.org/subfields/1803","display_name":"Management Science and Operations Research"},"field":{"id":"https://openalex.org/fields/18","display_name":"Decision Sciences"},"domain":{"id":"https://openalex.org/domains/2","display_name":"Social Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.8314558863639832},{"id":"https://openalex.org/keywords/computer-science","display_name":"Computer science","score":0.8088176250457764},{"id":"https://openalex.org/keywords/regularization","display_name":"Regularization (linguistics)","score":0.7451671957969666},{"id":"https://openalex.org/keywords/generalization","display_name":"Generalization","score":0.644588053226471},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.4895945191383362},{"id":"https://openalex.org/keywords/artificial-intelligence","display_name":"Artificial intelligence","score":0.47051897644996643},{"id":"https://openalex.org/keywords/machine-learning","display_name":"Machine learning","score":0.46478959918022156},{"id":"https://openalex.org/keywords/task","display_name":"Task (project management)","score":0.4407814145088196},{"id":"https://openalex.org/keywords/ensemble-learning","display_name":"Ensemble learning","score":0.43773314356803894},{"id":"https://openalex.org/keywords/imperfect","display_name":"Imperfect","score":0.419737845659256},{"id":"https://openalex.org/keywords/mathematical-optimization","display_name":"Mathematical optimization","score":0.33699917793273926},{"id":"https://openalex.org/keywords/mathematics","display_name":"Mathematics","score":0.08319851756095886}],"concepts":[{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.8314558863639832},{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.8088176250457764},{"id":"https://openalex.org/C2776135515","wikidata":"https://www.wikidata.org/wiki/Q17143721","display_name":"Regularization (linguistics)","level":2,"score":0.7451671957969666},{"id":"https://openalex.org/C177148314","wikidata":"https://www.wikidata.org/wiki/Q170084","display_name":"Generalization","level":2,"score":0.644588053226471},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.4895945191383362},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.47051897644996643},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.46478959918022156},{"id":"https://openalex.org/C2780451532","wikidata":"https://www.wikidata.org/wiki/Q759676","display_name":"Task (project management)","level":2,"score":0.4407814145088196},{"id":"https://openalex.org/C45942800","wikidata":"https://www.wikidata.org/wiki/Q245652","display_name":"Ensemble learning","level":2,"score":0.43773314356803894},{"id":"https://openalex.org/C2780310539","wikidata":"https://www.wikidata.org/wiki/Q12547192","display_name":"Imperfect","level":2,"score":0.419737845659256},{"id":"https://openalex.org/C126255220","wikidata":"https://www.wikidata.org/wiki/Q141495","display_name":"Mathematical optimization","level":1,"score":0.33699917793273926},{"id":"https://openalex.org/C33923547","wikidata":"https://www.wikidata.org/wiki/Q395","display_name":"Mathematics","level":0,"score":0.08319851756095886},{"id":"https://openalex.org/C199360897","wikidata":"https://www.wikidata.org/wiki/Q9143","display_name":"Programming language","level":1,"score":0.0},{"id":"https://openalex.org/C41895202","wikidata":"https://www.wikidata.org/wiki/Q8162","display_name":"Linguistics","level":1,"score":0.0},{"id":"https://openalex.org/C138885662","wikidata":"https://www.wikidata.org/wiki/Q5891","display_name":"Philosophy","level":0,"score":0.0},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.0},{"id":"https://openalex.org/C187736073","wikidata":"https://www.wikidata.org/wiki/Q2920921","display_name":"Management","level":1,"score":0.0},{"id":"https://openalex.org/C134306372","wikidata":"https://www.wikidata.org/wiki/Q7754","display_name":"Mathematical analysis","level":1,"score":0.0},{"id":"https://openalex.org/C162324750","wikidata":"https://www.wikidata.org/wiki/Q8134","display_name":"Economics","level":0,"score":0.0}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.24963/ijcai.2022/508","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/508","pdf_url":"https://www.ijcai.org/proceedings/2022/0508.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"}],"best_oa_location":{"id":"doi:10.24963/ijcai.2022/508","is_oa":true,"landing_page_url":"https://doi.org/10.24963/ijcai.2022/508","pdf_url":"https://www.ijcai.org/proceedings/2022/0508.pdf","source":{"id":"https://openalex.org/S4363608755","display_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","issn_l":null,"issn":null,"is_oa":false,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence","raw_type":"proceedings-article"},"sustainable_development_goals":[{"display_name":"Quality Education","score":0.44999998807907104,"id":"https://metadata.un.org/sdg/4"}],"awards":[],"funders":[],"has_content":{"pdf":true,"grobid_xml":true},"content_urls":{"pdf":"https://content.openalex.org/works/W4285603657.pdf","grobid_xml":"https://content.openalex.org/works/W4285603657.grobid-xml"},"referenced_works_count":27,"referenced_works":["https://openalex.org/W1191599655","https://openalex.org/W1934570606","https://openalex.org/W2043806097","https://openalex.org/W2064556564","https://openalex.org/W2100128988","https://openalex.org/W2150884987","https://openalex.org/W2296631966","https://openalex.org/W2736601468","https://openalex.org/W2785389871","https://openalex.org/W2787800669","https://openalex.org/W2891714643","https://openalex.org/W2953364219","https://openalex.org/W2954360742","https://openalex.org/W2963133245","https://openalex.org/W2966128956","https://openalex.org/W2991274265","https://openalex.org/W2996896271","https://openalex.org/W3004082694","https://openalex.org/W3013828496","https://openalex.org/W3103780890","https://openalex.org/W3105637493","https://openalex.org/W3126245186","https://openalex.org/W3128855716","https://openalex.org/W3170059879","https://openalex.org/W3172115140","https://openalex.org/W4221158332","https://openalex.org/W4298206671"],"related_works":["https://openalex.org/W2374250903","https://openalex.org/W1546413948","https://openalex.org/W2263832889","https://openalex.org/W2243884323","https://openalex.org/W42072456","https://openalex.org/W4306904969","https://openalex.org/W4243095785","https://openalex.org/W3162204513","https://openalex.org/W4387894447","https://openalex.org/W2089057551"],"abstract_inverted_index":{"It":[0],"is":[1,22,159],"challenging":[2],"for":[3,48,161],"reinforcement":[4],"learning":[5],"(RL)":[6],"algorithms":[7,57,169],"to":[8,60,126,128],"succeed":[9],"in":[10,63,74,94],"real-world":[11,162],"applications.":[12],"Take":[13],"financial":[14],"trading":[15],"as":[16],"an":[17,95],"example,":[18],"the":[19,27,50,104,121],"market":[20],"information":[21],"noisy":[23],"yet":[24],"imperfect":[25],"and":[26,37,44,70,103,108,131,143,158,170,175],"macroeconomic":[28],"regulation":[29],"or":[30],"other":[31,171],"factors":[32],"may":[33],"shift":[34],"between":[35],"training":[36],"evaluation,":[38],"thus":[39],"it":[40],"requires":[41],"both":[42,110],"generalization":[43],"high":[45],"sample":[46],"efficiency":[47,157],"resolving":[49],"task.":[51],"However,":[52],"directly":[53],"applying":[54],"typical":[55],"RL":[56,72],"can":[58,139],"lead":[59],"poor":[61],"performance":[62],"such":[64],"scenarios.":[65],"To":[66],"derive":[67],"a":[68,79,116],"robust":[69,160],"applicable":[71],"algorithm,":[73],"this":[75],"work,":[76],"we":[77,151],"design":[78],"simple":[80],"but":[81],"effective":[82],"method":[83],"named":[84],"Ensemble":[85],"Proximal":[86],"Policy":[87],"Optimization":[88],"(EPPO),":[89],"which":[90,124],"learns":[91],"ensemble":[92,106,172],"policies":[93],"end-to-end":[96],"manner.":[97],"Notably,":[98],"EPPO":[99,114,138,154],"combines":[100],"each":[101],"policy":[102,105,122,167],"organically":[107],"optimizes":[109],"simultaneously.":[111],"In":[112],"addition,":[113],"adopts":[115],"diversity":[117],"enhancement":[118],"regularization":[119],"over":[120],"space":[123],"helps":[125],"generalize":[127],"unseen":[129],"states":[130],"promotes":[132],"exploration.":[133],"We":[134],"theoretically":[135],"prove":[136],"that":[137,153],"increase":[140],"exploration":[141],"efficacy,":[142],"through":[144],"comprehensive":[145],"experimental":[146],"evaluations":[147],"on":[148],"various":[149],"tasks,":[150],"demonstrate":[152],"achieves":[155],"higher":[156],"applications":[163],"compared":[164],"with":[165],"vanilla":[166],"optimization":[168],"methods.":[173],"Code":[174],"supplemental":[176],"materials":[177],"are":[178],"available":[179],"at":[180],"https://seqml.github.io/eppo.":[181]},"counts_by_year":[{"year":2026,"cited_by_count":2},{"year":2025,"cited_by_count":7},{"year":2024,"cited_by_count":6},{"year":2023,"cited_by_count":1}],"updated_date":"2026-03-20T23:20:44.827607","created_date":"2025-10-10T00:00:00"}