{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T13:07:22Z","timestamp":1777640842050,"version":"3.51.4"},"reference-count":65,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai Municipality","doi-asserted-by":"publisher","award":["23ZR1422800"],"award-info":[{"award-number":["23ZR1422800"]}],"id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Fusion"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1016\/j.inffus.2025.103444","type":"journal-article","created":{"date-parts":[[2025,7,2]],"date-time":"2025-07-02T11:17:51Z","timestamp":1751455071000},"page":"103444","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":2,"special_numbering":"C","title":["MatchNav: LLM-based enhanced description and instruction matching in vision-and-language navigation"],"prefix":"10.1016","volume":"125","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4843-1953","authenticated-orcid":false,"given":"Chao","family":"Wang","sequence":"first","affiliation":[]},{"given":"Siyuan","family":"Wei","sequence":"additional","affiliation":[]},{"given":"Juntong","family":"Qi","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"2","key":"10.1016\/j.inffus.2025.103444_b1","doi-asserted-by":"crossref","first-page":"230","DOI":"10.1109\/TETCI.2022.3141105","article-title":"A survey of embodied ai: From simulators to research tasks","volume":"6","author":"Duan","year":"2022","journal-title":"IEEE Trans. Emerg. Top. Comput. Intell."},{"key":"10.1016\/j.inffus.2025.103444_b2","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102532","article-title":"Embodied navigation with multi-modal information: A survey from tasks to methodology","volume":"112","author":"Wu","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103444_b3","doi-asserted-by":"crossref","unstructured":"P. Anderson, Q. Wu, D. Teney, J. Bruce, M. Johnson, N. S\u00fcnderhauf, I. Reid, S. Gould, A. van den Hengel, Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, CVPR, 2018.","DOI":"10.1109\/CVPR.2018.00387"},{"key":"10.1016\/j.inffus.2025.103444_b4","doi-asserted-by":"crossref","unstructured":"H. Chen, A. Suhr, D. Misra, N. Snavely, Y. Artzi, TOUCHDOWN: Natural Language Navigation and Spatial Reasoning in Visual Street Environments, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2019.","DOI":"10.1109\/CVPR.2019.01282"},{"key":"10.1016\/j.inffus.2025.103444_b5","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102351","article-title":"Transformer-based vision-language alignment for robot navigation and question answering","volume":"108","author":"Luo","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103444_b6","series-title":"Mapping instructions to actions in 3d environments with visual goal prediction","author":"Misra","year":"2018"},{"key":"10.1016\/j.inffus.2025.103444_b7","series-title":"Proceedings of the Conference on Robot Learning","first-page":"1415","article-title":"Learning to map natural language instructions to physical quadcopter control using simulated flight","volume":"100","author":"Blukis","year":"2020"},{"key":"10.1016\/j.inffus.2025.103444_b8","series-title":"Conference on Robot Learning","first-page":"706","article-title":"A persistent spatial semantic representation for high-level natural language instruction execution","author":"Blukis","year":"2022"},{"key":"10.1016\/j.inffus.2025.103444_b9","doi-asserted-by":"crossref","first-page":"149","DOI":"10.1016\/j.inffus.2021.07.009","article-title":"Multimodal research in vision and language: A review of current and emerging trends","volume":"77","author":"Uppal","year":"2022","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103444_b10","series-title":"Advances in Neural Information Processing Systems","first-page":"20660","article-title":"Evolving graphical planner: Contextual global planning for vision-and-language navigation","volume":"33","author":"Deng","year":"2020"},{"key":"10.1016\/j.inffus.2025.103444_b11","doi-asserted-by":"crossref","unstructured":"J. Chen, C. Gao, E. Meng, Q. Zhang, S. Liu, Reinforced structured state-evolution for vision-language navigation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15450\u201315459.","DOI":"10.1109\/CVPR52688.2022.01501"},{"issue":"7","key":"10.1016\/j.inffus.2025.103444_b12","first-page":"8524","article-title":"Hop+: History-enhanced and order-aware pre-training for vision-and-language navigation","volume":"45","author":"Qiao","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103444_b13","series-title":"Proceedings of the Conference on Robot Learning","first-page":"1415","article-title":"Are you looking? Grounding to multiple modalities in vision-and-language navigation","volume":"100","author":"Hu","year":"2019"},{"key":"10.1016\/j.inffus.2025.103444_b14","series-title":"Diagnosing the environment bias in vision-and-language navigation","author":"Zhang","year":"2020"},{"issue":"12","key":"10.1016\/j.inffus.2025.103444_b15","doi-asserted-by":"crossref","first-page":"4205","DOI":"10.1109\/TPAMI.2020.2972281","article-title":"Vision-language navigation policy learning and adaptation","volume":"43","author":"Wang","year":"2020","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103444_b16","first-page":"652","article-title":"Landmark-rxr: Solving vision-and-language navigation with fine-grained alignment supervision","volume":"34","author":"He","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b17","doi-asserted-by":"crossref","DOI":"10.1016\/j.cviu.2021.103255","article-title":"Multimodal attention networks for low-level vision-and-language navigation","volume":"210","author":"Landi","year":"2021","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.inffus.2025.103444_b18","series-title":"A survey of large language models","author":"Zhao","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b19","series-title":"Towards reasoning in large language models: A survey","author":"Huang","year":"2022"},{"key":"10.1016\/j.inffus.2025.103444_b20","article-title":"Large language models are semi-parametric reinforcement learning agents","volume":"36","author":"Zhang","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b21","article-title":"A survey on evaluation of large language models","author":"Chang","year":"2023","journal-title":"ACM Trans. Intell. Syst. Technol."},{"key":"10.1016\/j.inffus.2025.103444_b22","first-page":"22199","article-title":"Large language models are zero-shot reasoners","volume":"35","author":"Kojima","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b23","first-page":"24824","article-title":"Chain-of-thought prompting elicits reasoning in large language models","volume":"35","author":"Wei","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b24","series-title":"Do as i can, not as i say: Grounding language in robotic affordances","author":"Ahn","year":"2022"},{"key":"10.1016\/j.inffus.2025.103444_b25","doi-asserted-by":"crossref","unstructured":"C.H. Song, J. Wu, C. Washington, B.M. Sadler, W.-L. Chao, Y. Su, Llm-planner: Few-shot grounded planning for embodied agents with large language models, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 2998\u20133009.","DOI":"10.1109\/ICCV51070.2023.00280"},{"key":"10.1016\/j.inffus.2025.103444_b26","series-title":"2023 IEEE International Conference on Robotics and Automation","first-page":"11523","article-title":"Progprompt: Generating situated robot task plans using large language models","author":"Singh","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b27","series-title":"Jarvis: A neuro-symbolic commonsense reasoning framework for conversational embodied agents","author":"Zheng","year":"2022"},{"key":"10.1016\/j.inffus.2025.103444_b28","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102302","article-title":"Enhancing multi-modal fusion in visual dialog via sample debiasing and feature interaction","volume":"107","author":"Lu","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103444_b29","article-title":"Reflexion: Language agents with verbal reinforcement learning","volume":"36","author":"Shinn","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b30","series-title":"Large language models cannot self-correct reasoning yet","author":"Huang","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b31","doi-asserted-by":"crossref","first-page":"0084","DOI":"10.34133\/cbsystems.0084","article-title":"Exploring into the unseen: Enhancing language-conditioned policy generalization with behavioral information","volume":"5","author":"Cao","year":"2024","journal-title":"Cyborg Bionic Syst."},{"issue":"4","key":"10.1016\/j.inffus.2025.103444_b32","doi-asserted-by":"crossref","DOI":"10.1016\/j.isci.2023.106392","article-title":"Relational complexity influences analogical reasoning ability","volume":"26","author":"Leonard","year":"2023","journal-title":"Iscience"},{"key":"10.1016\/j.inffus.2025.103444_b33","series-title":"Conference on Robot Learning","first-page":"394","article-title":"Vision-and-dialog navigation","author":"Thomason","year":"2020"},{"key":"10.1016\/j.inffus.2025.103444_b34","doi-asserted-by":"crossref","unstructured":"H. Kim, J. Li, M. Bansal, Ndh-full: Learning and evaluating navigational agents on full-length dialogue, in: Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021.","DOI":"10.18653\/v1\/2021.emnlp-main.518"},{"key":"10.1016\/j.inffus.2025.103444_b35","article-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume":"32","author":"Lu","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b36","doi-asserted-by":"crossref","unstructured":"P.-L. Guhur, M. Tapaswi, S. Chen, I. Laptev, C. Schmid, Airbert: In-domain pretraining for vision-and-language navigation, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 1634\u20131643.","DOI":"10.1109\/ICCV48922.2021.00166"},{"key":"10.1016\/j.inffus.2025.103444_b37","article-title":"A survey on large language models: Applications, challenges, limitations, and practical usage","author":"Hadi","year":"2023","journal-title":"Authorea Prepr."},{"key":"10.1016\/j.inffus.2025.103444_b38","series-title":"Self-consistency improves chain of thought reasoning in language models","author":"Wang","year":"2022"},{"key":"10.1016\/j.inffus.2025.103444_b39","article-title":"Tree of thoughts: Deliberate problem solving with large language models","volume":"36","author":"Yao","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103444_b40","unstructured":"S. Yao, J. Zhao, D. Yu, N. Du, I. Shafran, K. Narasimhan, Y. Cao, React: Synergizing reasoning and acting in language models, in: International Conference on Learning Representations, ICLR, 2023."},{"key":"10.1016\/j.inffus.2025.103444_b41","series-title":"The rise and potential of large language model based agents: A survey","author":"Xi","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b42","doi-asserted-by":"crossref","unstructured":"J.S. Park, J. O\u2019Brien, C.J. Cai, M.R. Morris, P. Liang, M.S. Bernstein, Generative agents: Interactive simulacra of human behavior, in: Proceedings of the 36th Annual Acm Symposium on User Interface Software and Technology, 2023, pp. 1\u201322.","DOI":"10.1145\/3586183.3606763"},{"key":"10.1016\/j.inffus.2025.103444_b43","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102250","article-title":"MACNS: A generic graph neural network integrated deep reinforcement learning based multi-agent collaborative navigation system for dynamic trajectory planning","volume":"105","author":"Xiao","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103444_b44","series-title":"Conference on Robot Learning","first-page":"287","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","author":"Brohan","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b45","doi-asserted-by":"crossref","unstructured":"W. Zhong, L. Guo, Q. Gao, H. Ye, Y. Wang, Memorybank: Enhancing large language models with long-term memory, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 38, 2024, pp. 19724\u201319731.","DOI":"10.1609\/aaai.v38i17.29946"},{"key":"10.1016\/j.inffus.2025.103444_b46","series-title":"Communicative agents for software development","author":"Qian","year":"2023"},{"issue":"7","key":"10.1016\/j.inffus.2025.103444_b47","doi-asserted-by":"crossref","DOI":"10.1371\/journal.pone.0120644","article-title":"Replication and analysis of ebbinghaus\u2019 forgetting curve","volume":"10","author":"Murre","year":"2015","journal-title":"PloS One"},{"key":"10.1016\/j.inffus.2025.103444_b48","series-title":"A systematic survey of prompt engineering in large language models: Techniques and applications","author":"Sahoo","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b49","series-title":"2024 China Automation Congress","first-page":"4310","article-title":"Hicrisp: An LLM-based hierarchical closed-loop robotic intelligent self-correction planner","author":"Ming","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b50","series-title":"Alfworld: Aligning text and embodied environments for interactive learning","author":"Shridhar","year":"2020"},{"key":"10.1016\/j.inffus.2025.103444_b51","doi-asserted-by":"crossref","unstructured":"X. Puig, K. Ra, M. Boben, J. Li, T. Wang, S. Fidler, A. Torralba, Virtualhome: Simulating household activities via programs, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8494\u20138502.","DOI":"10.1109\/CVPR.2018.00886"},{"key":"10.1016\/j.inffus.2025.103444_b52","doi-asserted-by":"crossref","unstructured":"A. Zhao, D. Huang, Q. Xu, M. Lin, Y.-J. Liu, G. Huang, Expel: Llm agents are experiential learners, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 38, 2024, pp. 19632\u201319642.","DOI":"10.1609\/aaai.v38i17.29936"},{"key":"10.1016\/j.inffus.2025.103444_b53","series-title":"Findings of the Association for Computational Linguistics: NAACL 2024","first-page":"4226","article-title":"ADaPT: As-needed decomposition and planning with language models","author":"Prasad","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b54","series-title":"WESE: Weak exploration to strong exploitation for LLM agents","author":"Huang","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b55","series-title":"ICLR 2024 Workshop on Large Language Model (LLM) Agents","article-title":"AutoGen: Enabling next-gen LLM applications via multi-agent conversation","author":"Wu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b56","series-title":"Reflection-reinforced self-training for language agents","author":"Dou","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b57","series-title":"The Twelfth International Conference on Learning Representations","article-title":"Lemur: Harmonizing natural language and code for language agents","author":"Xu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b58","series-title":"Learning from failure: Integrating negative examples when fine-tuning large language models as agents","author":"Wang","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b59","series-title":"Trial and error: Exploration-based trajectory optimization for llm agents","author":"Song","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b60","series-title":"Agent planning with world knowledge model","author":"Qiao","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b61","series-title":"Knowagent: Knowledge-augmented planning for llm-based agents","author":"Zhu","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b62","series-title":"REVEAL-IT: Reinforcement learning with visibility of evolving agent policy for interpretability","author":"Ao","year":"2024"},{"key":"10.1016\/j.inffus.2025.103444_b63","series-title":"Instructblip: Towards general-purpose vision-language models with instruction tuning","author":"Dai","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b64","series-title":"Llama-adapter v2: Parameter-efficient visual instruction model","author":"Gao","year":"2023"},{"key":"10.1016\/j.inffus.2025.103444_b65","series-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"}],"container-title":["Information Fusion"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525005172?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525005172?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,9,4]],"date-time":"2025-09-04T11:23:59Z","timestamp":1756985039000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1566253525005172"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":65,"alternative-id":["S1566253525005172"],"URL":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103444","relation":{},"ISSN":["1566-2535"],"issn-type":[{"value":"1566-2535","type":"print"}],"subject":[],"published":{"date-parts":[[2026,1]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"MatchNav: LLM-based enhanced description and instruction matching in vision-and-language navigation","name":"articletitle","label":"Article Title"},{"value":"Information Fusion","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103444","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"103444"}}