{"id":"https://openalex.org/W4416063947","doi":"https://doi.org/10.48550/arxiv.2509.06283","title":"SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents","display_name":"SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents","publication_year":2025,"publication_date":"2025-09-08","ids":{"openalex":"https://openalex.org/W4416063947","doi":"https://doi.org/10.48550/arxiv.2509.06283"},"language":"en","primary_location":{"id":"pmh:oai:arXiv.org:2509.06283","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2509.06283","pdf_url":"https://arxiv.org/pdf/2509.06283","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"type":"preprint","indexed_in":["arxiv","datacite"],"open_access":{"is_oa":true,"oa_status":"green","oa_url":"https://arxiv.org/pdf/2509.06283","any_repository_has_fulltext":true},"authorships":[{"author_position":"first","author":{"id":"https://openalex.org/A5114373630","display_name":"Xuan-Phi Nguyen","orcid":null},"institutions":[],"countries":[],"is_corresponding":true,"raw_author_name":"Nguyen, Xuan-Phi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5114373631","display_name":"Shrey Pandit","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Pandit, Shrey","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5103240632","display_name":"Revanth Gangi Reddy","orcid":"https://orcid.org/0009-0009-8915-579X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Reddy, Revanth Gangi","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5031014820","display_name":"Aimin Xu","orcid":"https://orcid.org/0000-0002-0668-033X"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xu, Austin","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5042646536","display_name":"Silvio Savarese","orcid":null},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Savarese, Silvio","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"middle","author":{"id":"https://openalex.org/A5032046813","display_name":"Caiming Xiong","orcid":"https://orcid.org/0000-0003-0349-8628"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Xiong, Caiming","raw_affiliation_strings":[],"affiliations":[]},{"author_position":"last","author":{"id":"https://openalex.org/A5005443526","display_name":"Shafiq Joty","orcid":"https://orcid.org/0000-0002-9222-2641"},"institutions":[],"countries":[],"is_corresponding":false,"raw_author_name":"Joty, Shafiq","raw_affiliation_strings":[],"affiliations":[]}],"institutions":[],"countries_distinct_count":0,"institutions_distinct_count":7,"corresponding_author_ids":["https://openalex.org/A5114373630"],"corresponding_institution_ids":[],"apc_list":null,"apc_paid":null,"fwci":null,"has_fulltext":false,"cited_by_count":0,"citation_normalized_percentile":null,"cited_by_percentile_year":null,"biblio":{"volume":null,"issue":null,"first_page":null,"last_page":null},"is_retracted":false,"is_paratext":false,"is_xpac":false,"primary_topic":{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.3003000020980835,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},"topics":[{"id":"https://openalex.org/T11714","display_name":"Multimodal Machine Learning Applications","score":0.3003000020980835,"subfield":{"id":"https://openalex.org/subfields/1707","display_name":"Computer Vision and Pattern Recognition"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10028","display_name":"Topic Modeling","score":0.1589999943971634,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}},{"id":"https://openalex.org/T10462","display_name":"Reinforcement Learning in Robotics","score":0.07800000160932541,"subfield":{"id":"https://openalex.org/subfields/1702","display_name":"Artificial Intelligence"},"field":{"id":"https://openalex.org/fields/17","display_name":"Computer Science"},"domain":{"id":"https://openalex.org/domains/3","display_name":"Physical Sciences"}}],"keywords":[{"id":"https://openalex.org/keywords/key","display_name":"Key (lock)","score":0.6190999746322632},{"id":"https://openalex.org/keywords/reinforcement-learning","display_name":"Reinforcement learning","score":0.6054999828338623},{"id":"https://openalex.org/keywords/focus","display_name":"Focus (optics)","score":0.5038999915122986},{"id":"https://openalex.org/keywords/python","display_name":"Python (programming language)","score":0.4388999938964844},{"id":"https://openalex.org/keywords/autonomous-agent","display_name":"Autonomous agent","score":0.4027999937534332},{"id":"https://openalex.org/keywords/crawling","display_name":"Crawling","score":0.4016000032424927},{"id":"https://openalex.org/keywords/action","display_name":"Action (physics)","score":0.3537999987602234},{"id":"https://openalex.org/keywords/intuition","display_name":"Intuition","score":0.34860000014305115},{"id":"https://openalex.org/keywords/simple","display_name":"Simple (philosophy)","score":0.33230000734329224}],"concepts":[{"id":"https://openalex.org/C41008148","wikidata":"https://www.wikidata.org/wiki/Q21198","display_name":"Computer science","level":0,"score":0.7556999921798706},{"id":"https://openalex.org/C26517878","wikidata":"https://www.wikidata.org/wiki/Q228039","display_name":"Key (lock)","level":2,"score":0.6190999746322632},{"id":"https://openalex.org/C97541855","wikidata":"https://www.wikidata.org/wiki/Q830687","display_name":"Reinforcement learning","level":2,"score":0.6054999828338623},{"id":"https://openalex.org/C154945302","wikidata":"https://www.wikidata.org/wiki/Q11660","display_name":"Artificial intelligence","level":1,"score":0.6011999845504761},{"id":"https://openalex.org/C192209626","wikidata":"https://www.wikidata.org/wiki/Q190909","display_name":"Focus (optics)","level":2,"score":0.5038999915122986},{"id":"https://openalex.org/C519991488","wikidata":"https://www.wikidata.org/wiki/Q28865","display_name":"Python (programming language)","level":2,"score":0.4388999938964844},{"id":"https://openalex.org/C13687954","wikidata":"https://www.wikidata.org/wiki/Q4826847","display_name":"Autonomous agent","level":2,"score":0.4027999937534332},{"id":"https://openalex.org/C100368936","wikidata":"https://www.wikidata.org/wiki/Q1411725","display_name":"Crawling","level":2,"score":0.4016000032424927},{"id":"https://openalex.org/C2780791683","wikidata":"https://www.wikidata.org/wiki/Q846785","display_name":"Action (physics)","level":2,"score":0.3537999987602234},{"id":"https://openalex.org/C107457646","wikidata":"https://www.wikidata.org/wiki/Q207434","display_name":"Human\u2013computer interaction","level":1,"score":0.35120001435279846},{"id":"https://openalex.org/C132010649","wikidata":"https://www.wikidata.org/wiki/Q189222","display_name":"Intuition","level":2,"score":0.34860000014305115},{"id":"https://openalex.org/C2780586882","wikidata":"https://www.wikidata.org/wiki/Q7520643","display_name":"Simple (philosophy)","level":2,"score":0.33230000734329224},{"id":"https://openalex.org/C177264268","wikidata":"https://www.wikidata.org/wiki/Q1514741","display_name":"Set (abstract data type)","level":2,"score":0.32429999113082886},{"id":"https://openalex.org/C119857082","wikidata":"https://www.wikidata.org/wiki/Q2539","display_name":"Machine learning","level":1,"score":0.32030001282691956},{"id":"https://openalex.org/C77967617","wikidata":"https://www.wikidata.org/wiki/Q4677561","display_name":"Active learning (machine learning)","level":2,"score":0.3167000114917755},{"id":"https://openalex.org/C37335422","wikidata":"https://www.wikidata.org/wiki/Q6888134","display_name":"Model-based reasoning","level":3,"score":0.303600013256073},{"id":"https://openalex.org/C90509273","wikidata":"https://www.wikidata.org/wiki/Q11012","display_name":"Robot","level":2,"score":0.29190000891685486},{"id":"https://openalex.org/C4554734","wikidata":"https://www.wikidata.org/wiki/Q593744","display_name":"Knowledge base","level":2,"score":0.29170000553131104},{"id":"https://openalex.org/C182620335","wikidata":"https://www.wikidata.org/wiki/Q2852531","display_name":"Answer set programming","level":3,"score":0.2863999903202057},{"id":"https://openalex.org/C34413123","wikidata":"https://www.wikidata.org/wiki/Q170978","display_name":"Robotics","level":3,"score":0.2808000147342682},{"id":"https://openalex.org/C136197465","wikidata":"https://www.wikidata.org/wiki/Q1729295","display_name":"Variety (cybernetics)","level":2,"score":0.2775000035762787},{"id":"https://openalex.org/C193221554","wikidata":"https://www.wikidata.org/wiki/Q5153664","display_name":"Commonsense reasoning","level":2,"score":0.2775000035762787},{"id":"https://openalex.org/C20162079","wikidata":"https://www.wikidata.org/wiki/Q1151406","display_name":"Case-based reasoning","level":2,"score":0.2759999930858612},{"id":"https://openalex.org/C2776904630","wikidata":"https://www.wikidata.org/wiki/Q356336","display_name":"Adept","level":3,"score":0.27570000290870667},{"id":"https://openalex.org/C192327766","wikidata":"https://www.wikidata.org/wiki/Q1038799","display_name":"Cognitive robotics","level":3,"score":0.2703000009059906},{"id":"https://openalex.org/C195344581","wikidata":"https://www.wikidata.org/wiki/Q2555318","display_name":"Automated reasoning","level":2,"score":0.26089999079704285},{"id":"https://openalex.org/C2777904410","wikidata":"https://www.wikidata.org/wiki/Q7397","display_name":"Software","level":2,"score":0.257099986076355}],"mesh":[],"locations_count":2,"locations":[{"id":"pmh:oai:arXiv.org:2509.06283","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2509.06283","pdf_url":"https://arxiv.org/pdf/2509.06283","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},{"id":"doi:10.48550/arxiv.2509.06283","is_oa":true,"landing_page_url":"https://doi.org/10.48550/arxiv.2509.06283","pdf_url":null,"source":{"id":"https://openalex.org/S4306400194","display_name":"arXiv (Cornell University)","issn_l":null,"issn":null,"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":"https://openalex.org/I205783295","host_organization_name":"Cornell University","host_organization_lineage":["https://openalex.org/I205783295"],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":null,"is_accepted":false,"is_published":null,"raw_source_name":null,"raw_type":"article"}],"best_oa_location":{"id":"pmh:oai:arXiv.org:2509.06283","is_oa":true,"landing_page_url":"http://arxiv.org/abs/2509.06283","pdf_url":"https://arxiv.org/pdf/2509.06283","source":{"id":"https://openalex.org/S4393918464","display_name":"ArXiv.org","issn_l":"2331-8422","issn":["2331-8422"],"is_oa":true,"is_in_doaj":false,"is_core":false,"host_organization":null,"host_organization_name":null,"host_organization_lineage":[],"host_organization_lineage_names":[],"type":"repository"},"license":null,"license_id":null,"version":"submittedVersion","is_accepted":false,"is_published":false,"raw_source_name":null,"raw_type":"text"},"sustainable_development_goals":[],"awards":[],"funders":[],"has_content":{"grobid_xml":false,"pdf":false},"content_urls":null,"referenced_works_count":0,"referenced_works":[],"related_works":[],"abstract_inverted_index":{"Equipping":[0],"large":[1],"language":[2],"models":[3,69,137],"(LLMs)":[4],"with":[5,22,156],"complex,":[6],"interleaved":[7],"reasoning":[8,52,145],"and":[9,51,76,89],"tool-use":[10],"capabilities":[11,30],"has":[12,119],"become":[13],"a":[14,35,99,152],"key":[15,32,184],"focus":[16,129],"in":[17,25,58,98],"agentic":[18,141],"AI":[19],"research,":[20],"especially":[21],"recent":[23],"advances":[24],"reasoning-oriented":[26],"(``thinking'')":[27],"models.":[28],"Such":[29],"are":[31,90],"to":[33,93,138,163,173,187],"unlocking":[34],"number":[36],"of":[37,65,135],"important":[38],"applications.":[39],"One":[40],"such":[41],"application":[42],"is":[43],"Deep":[44],"Research":[45],"(DR),":[46],"which":[47,160],"requires":[48],"extensive":[49],"search":[50],"over":[53],"many":[54],"sources.":[55],"Our":[56,167],"work":[57,118],"this":[59,148],"paper":[60],"focuses":[61],"on":[62,111,130,175],"the":[63],"development":[64],"native":[66],"Autonomous":[67],"Single-Agent":[68],"for":[70,123],"DR":[71],"featuring":[72],"minimal":[73],"web":[74],"crawling":[75],"Python":[77],"tool":[78],"integration.":[79],"Unlike":[80],"multi-agent":[81],"systems,":[82],"where":[83],"agents":[84],"take":[85],"up":[86,172],"pre-defined":[87],"roles":[88],"told":[91],"what":[92],"do":[94],"at":[95],"each":[96],"step":[97],"static":[100],"workflow,":[101],"an":[102],"autonomous":[103],"single-agent":[104],"determines":[105],"its":[106],"next":[107],"action":[108],"dynamically":[109],"based":[110],"context,":[112],"without":[113],"manual":[114],"directive.":[115],"While":[116],"prior":[117],"proposed":[120],"training":[121],"recipes":[122],"base":[124],"or":[125],"instruction-tuned":[126],"LLMs,":[127],"we":[128,150,161,182],"continual":[131],"reinforcement":[132],"learning":[133],"(RL)":[134],"reasoning-optimized":[136],"further":[139],"enhance":[140],"skills":[142],"while":[143],"preserving":[144],"ability.":[146],"Towards":[147],"end,":[149],"propose":[151],"simple":[153],"RL":[154],"recipe":[155],"entirely":[157],"synthetic":[158],"data,":[159],"apply":[162],"various":[164],"open-source":[165],"LLMs.":[166],"best":[168],"variant":[169],"SFR-DR-20B":[170],"achieves":[171],"28.7%":[174],"Humanity's":[176],"Last":[177],"Exam":[178],"benchmark.":[179],"In":[180],"addition,":[181],"conduct":[183],"analysis":[185],"experiments":[186],"provide":[188],"more":[189],"insights":[190],"into":[191],"our":[192],"methodologies.":[193]},"counts_by_year":[],"updated_date":"2026-03-07T16:01:11.037858","created_date":"2025-10-10T00:00:00"}