{"id":"https://openalex.org/W7138234184","doi":"https://doi.org/10.1609/aaai.v40i35.40195","title":"DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs","display_name":"DRAFT-RL: Multi-Agent Chain-of-Draft Reasoning for Reinforcement Learning-Enhanced LLMs","publication_year":2026,"publication_date":"2026-03-14","ids":{"openalex":"https://openalex.org/W7138234184","doi":"https://doi.org/10.1609/aaai.v40i35.40195"},"language":null,"primary_location":{"id":"doi:10.1609/aaai.v40i35.40195","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40195","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40195/44156","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"type":"article","indexed_in":["crossref"],"open_access":{"is_oa":true,"oa_status":"diamond","oa_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40195/44156","any_repository_has_fulltext":false},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5129700110","display_name":"Yuanhao Li","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":true,"raw_author_name":"Yuanhao Li","raw_affiliation_strings":["Beijing University of Posts and Telecommunications"],"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129684539","display_name":"Mingshan Liu","orcid":null},"institutions":[{"id":"https://openalex.org/I200769079","display_name":"Hong Kong University of Science and Technology","ror":"https://ror.org/00q4vv597","country_code":"HK","type":"education","lineage":["https://openalex.org/I200769079"]}],"countries":["HK"],"is_corresponding":false,"raw_author_name":"Mingshan Liu","raw_affiliation_strings":["The Hong Kong University of Science and Technology"],"affiliations":[{"raw_affiliation_string":"The Hong Kong University of Science and Technology","institution_ids":["https://openalex.org/I200769079"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129673663","display_name":"Hongbo Wang","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Hongbo Wang","raw_affiliation_strings":["Beijing University of Posts and Telecommunications"],"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129659091","display_name":"Yiding Zhang","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yiding Zhang","raw_affiliation_strings":["Beijing University of Posts and Telecommunications"],"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"middle","author":{"id":"https://openalex.org/A5129647259","display_name":"Yifei Ma","orcid":null},"institutions":[{"id":"https://openalex.org/I139759216","display_name":"Beijing University of Posts and Telecommunications","ror":"https://ror.org/04w9fbh59","country_code":"CN","type":"education","lineage":["https://openalex.org/I139759216"]}],"countries":["CN"],"is_corresponding":false,"raw_author_name":"Yifei Ma","raw_affiliation_strings":["Beijing University of Posts and Telecommunications"],"affiliations":[{"raw_affiliation_string":"Beijing University of Posts and Telecommunications","institution_ids":["https://openalex.org/I139759216"]}]},{"author_position":"last","author":{"id":"https://openalex.org/A5129730136","display_name":"Wei Tan","orcid":null},"institutions":[{"id":"https://openalex.org/I36234482","display_name":"University of Bristol","ror":"https://ror.org/0524sp257","country_code":"GB","type":"education","lineage":["https://openalex.org/I36234482"]}],"countries":["GB"],"is_corresponding":false,"raw_author_name":"Wei Tan","raw_affiliation_strings":["University of Bristol"],"affiliations":[{"raw_affiliation_string":"University of Bristol","institution_ids":["https://openalex.org/I36234482"]}]}],"institutions":[],"countries_distinct_count":3,"institutions_distinct_count":6,"corresponding_author_ids":["https://openalex.org/A5129700110"],"corresponding_institution_ids":["https://openalex.org/I139759216"],"apc_list":null,"apc_paid":null,"fwci":0.0,"has_fulltext":true,"cited_by_count":0,"citation_normalized_percentile":{"value":0.42171086,"is_in_top_1_percent":false,"is_in_top_10_percent":false},"cited_by_percentile_year":null,"biblio":{"volume":"40","issue":"35","first_page":"29530","last_page":"29537"},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.31769999861717224,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.31769999861717224,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.21150000393390656,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T12026","display_name":"Explainable Artificial Intelligence (XAI)","score":0.07530000060796738,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6373999714851379},{"id":"https://openalex.org/keywords/reflection","display_name":"Reflection (computer programming)","score":0.5462999939918518},{"id":"https://openalex.org/keywords/code","display_name":"Code (set theory)","score":0.42660000920295715},{"id":"https://openalex.org/keywords/case-based-reasoning","display_name":"Case-based reasoning","score":0.4081000089645386},{"id":"https://openalex.org/keywords/convergence","display_name":"Convergence (economics)","score":0.373199999332428},{"id":"https://openalex.org/keywords/automated-reasoning","display_name":"Automated reasoning","score":0.2825999855995178}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.6836000084877014},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6373999714851379},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6295999884605408},{"id":"https://openalex.org/C65682993","wikidata":"https://www.wikidata.org/wiki/Q1056451","display_name":"Reflection (computer programming)","level":2,"score":0.5462999939918518},{"id":"https://openalex.org/C2776760102","wikidata":"https://www.wikidata.org/wiki/Q5139990","display_name":"Code (set theory)","level":3,"score":0.42660000920295715},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.4081000089645386},{"id":"https://openalex.org/C2777303404","wikidata":"https://www.wikidata.org/wiki/Q759757","display_name":"Convergence (economics)","level":2,"score":0.373199999332428},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.3587999939918518},{"id":"https://openalex.org/C195344581","wikidata":"https://www.wikidata.org/wiki/Q2555318","display_name":"Automated reasoning","level":2,"score":0.2825999855995178},{"id":"https://openalex.org/C2781316041","wikidata":"https://www.wikidata.org/wiki/Q1230584","display_name":"Diversity (politics)","level":2,"score":0.27649998664855957},{"id":"https://openalex.org/C125411270","wikidata":"https://www.wikidata.org/wiki/Q18653","display_name":"Encoding (memory)","level":2,"score":0.26249998807907104},{"id":"https://openalex.org/C188147891","wikidata":"https://www.wikidata.org/wiki/Q147638","display_name":"Cognitive science","level":1,"score":0.26010000705718994},{"id":"https://openalex.org/C2777508537","wikidata":"https://www.wikidata.org/wiki/Q7936620","display_name":"Visual reasoning","level":2,"score":0.259799987077713},{"id":"https://openalex.org/C67203356","wikidata":"https://www.wikidata.org/wiki/Q1321905","display_name":"Reinforcement","level":2,"score":0.25699999928474426},{"id":"https://openalex.org/C86827895","wikidata":"https://www.wikidata.org/wiki/Q7098582","display_name":"Opportunistic reasoning","level":4,"score":0.2524999976158142}],"mesh":[],"locations_count":1,"locations":[{"id":"doi:10.1609/aaai.v40i35.40195","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40195","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40195/44156","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"}],"best_oa_location":{"id":"doi:10.1609/aaai.v40i35.40195","is_oa":true,"landing_page_url":"https://doi.org/10.1609/aaai.v40i35.40195","pdf_url":"https://ojs.aaai.org/index.php/AAAI/article/download/40195/44156","source":{"id":"https://openalex.org/S4210191458","display_name":"Proceedings of the AAAI Conference on Artificial Intelligence","issn_l":"2159-5399","issn":["2159-5399","2374-3468"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/P4310320058","host_organization_name":"Association for the Advancement of Artificial Intelligence","host_organization_lineage":["https://openalex.org/P4310320058"],"host_organization_lineage_names":["Association for the Advancement of Artificial Intelligence"],"type":"conference"},"license":null,"license_id":null,"version":"publishedVersion","is_accepted":true,"is_published":true,"raw_source_name":"Proceedings of the AAAI Conference on Artificial Intelligence","raw_type":"journal-article"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":true,"pdf":true},"content_urls":{"pdf":"https://content.openalex.org/works/W7138234184.pdf","grobid_xml":"https://content.openalex.org/works/W7138234184.grobid-xml"},"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Large":[0],"Language":[1],"Models":[2],"(LLMs)":[3],"have":[4],"shown":[5],"impressive":[6],"capabilities":[7],"in":[8,45,120,156],"multi-step":[9],"reasoning":[10,46,61,104,134],"and":[11,24,41,85,116,123,141,150,159],"problem-solving.":[12],"Recent":[13],"works":[14],"introduce":[15],"multi-agent":[16,63],"reflection":[17],"frameworks":[18],"where":[19],"multiple":[20,74],"LLM":[21,125],"agents":[22,84,152],"critique":[23],"refine":[25,102],"each":[26,71],"other\u2019s":[27],"outputs":[28],"using":[29],"reinforcement":[30],"learning":[31],"(RL).":[32],"However,":[33],"these":[34],"approaches":[35],"often":[36],"rely":[37],"on":[38,132],"single-shot":[39],"responses":[40],"lack":[42],"structural":[43],"diversity":[44],"exploration.":[47],"In":[48],"this":[49],"paper,":[50],"we":[51],"propose":[52],"DRAFT-RL,":[53],"a":[54,86],"novel":[55],"framework":[56],"that":[57,145],"integrates":[58],"Chain-of-Draft":[59],"(CoD)":[60],"into":[62],"RL":[64],"training.":[65],"Instead":[66],"of":[67],"generating":[68],"single":[69],"responses,":[70],"agent":[72,126],"produces":[73],"drafts":[75,98],"per":[76],"query,":[77],"which":[78],"are":[79,99],"then":[80],"evaluated":[81],"by":[82,153],"peer":[83],"learned":[87],"reward":[88],"model":[89],"to":[90,101],"identify":[91],"the":[92],"most":[93],"promising":[94],"trajectory.":[95],"These":[96],"selected":[97],"used":[100],"future":[103],"strategies":[105],"through":[106],"actor-critic":[107],"learning.":[108],"DRAFT-RL":[109,146],"enables":[110],"explicit":[111],"multi-path":[112],"exploration,":[113],"peer-guided":[114],"reflection,":[115],"reward-aligned":[117],"selection,":[118],"resulting":[119],"more":[121],"robust":[122],"interpretable":[124],"behavior.":[127],"We":[128],"evaluate":[129],"our":[130],"method":[131],"complex":[133],"tasks":[135],"including":[136],"code":[137],"synthesis,":[138],"symbolic":[139],"math,":[140],"knowledge-intensive":[142],"QA,":[143],"demonstrating":[144],"outperforms":[147],"existing":[148],"reflective":[149],"RL-based":[151],"significant":[154],"margins":[155],"both":[157],"accuracy":[158],"convergence":[160],"speed.":[161]},"counts_by_year":[],"updated_date":"2026-04-19T08:26:33.389920","created_date":"2026-03-18T00:00:00"}