{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,28]],"date-time":"2026-01-28T21:53:20Z","timestamp":1769637200009,"version":"3.49.0"},"reference-count":73,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2024,10,3]],"date-time":"2024-10-03T00:00:00Z","timestamp":1727913600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,3]],"date-time":"2024-10-03T00:00:00Z","timestamp":1727913600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62233013"],"award-info":[{"award-number":["62233013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62233013"],"award-info":[{"award-number":["62233013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62233013"],"award-info":[{"award-number":["62233013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62233013"],"award-info":[{"award-number":["62233013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62233013"],"award-info":[{"award-number":["62233013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Pattern Anal Applic"],"published-print":{"date-parts":[[2024,12]]},"DOI":"10.1007\/s10044-024-01339-z","type":"journal-article","created":{"date-parts":[[2024,10,3]],"date-time":"2024-10-03T09:02:03Z","timestamp":1727946123000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Instruction-aligned hierarchical waypoint planner for vision-and-language navigation in continuous environments"],"prefix":"10.1007","volume":"27","author":[{"given":"Zongtao","family":"He","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Naijia","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liuyi","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chengju","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qijun","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,10,3]]},"reference":[{"key":"1339_CR1","doi-asserted-by":"crossref","unstructured":"Anderson P, Wu Q, Teney D, Bruce J, Johnson M, S\u00fcnderhauf N, Reid I, Gould S, Van Den\u00a0Hengel A (2018) Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3674\u20133683","DOI":"10.1109\/CVPR.2018.00387"},{"issue":"7","key":"1339_CR2","doi-asserted-by":"publisher","first-page":"3291","DOI":"10.1007\/s00521-023-09217-1","volume":"36","author":"W Wu","year":"2024","unstructured":"Wu W, Chang T, Li X, Yin Q, Hu Y (2024) Vision-language navigation: a survey and taxonomy. Neural Comput Appl 36(7):3291\u20133316","journal-title":"Neural Comput Appl"},{"issue":"2","key":"1339_CR3","doi-asserted-by":"publisher","first-page":"230","DOI":"10.1109\/TETCI.2022.3141105","volume":"6","author":"J Duan","year":"2022","unstructured":"Duan J, Yu S, Tan HL, Zhu H, Tan C (2022) A survey of embodied AI: from simulators to research tasks. IEEE Trans Emerg Topics Comput Intell 6(2):230\u2013244","journal-title":"IEEE Trans Emerg Topics Comput Intell"},{"key":"1339_CR4","doi-asserted-by":"crossref","unstructured":"Savva M, Kadian A, Maksymets O, Zhao Y, Wijmans E, Jain B, Straub J, Liu J, Koltun V, Malik J (2019) Habitat: A platform for embodied AI research. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 9339\u20139347","DOI":"10.1109\/ICCV.2019.00943"},{"key":"1339_CR5","unstructured":"Huang W, Abbeel P, Pathak D, Mordatch I (2022) Language models as zero-shot planners: Extracting actionable knowledge for embodied agents. In: International conference on machine learning, pp. 9118\u20139147"},{"key":"1339_CR6","doi-asserted-by":"publisher","first-page":"1399","DOI":"10.1109\/TMM.2021.3065232","volume":"24","author":"G Slavic","year":"2022","unstructured":"Slavic G, Baydoun M, Campo D, Marcenaro L, Regazzoni C (2022) Multilevel anomaly detection through variational autoencoders and Bayesian models for self-aware embodied agents. IEEE Trans Multimed 24:1399\u20131414. https:\/\/doi.org\/10.1109\/TMM.2021.3065232","journal-title":"IEEE Trans Multimed"},{"key":"1339_CR7","doi-asserted-by":"crossref","unstructured":"Ku A, Anderson P, Patel R, Ie E, Baldridge J (2020) Room-across-room: Multilingual vision-and-language navigation with dense spatiotemporal grounding. In: Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP), pp. 4392\u20134412","DOI":"10.18653\/v1\/2020.emnlp-main.356"},{"key":"1339_CR8","doi-asserted-by":"crossref","unstructured":"Qi Y, Wu Q, Anderson P, Wang X, Wang WY, Shen C, Hengel Avd (2020) Reverie: Remote embodied visual referring expression in real indoor environments. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 9982\u20139991","DOI":"10.1109\/CVPR42600.2020.01000"},{"issue":"1","key":"1339_CR9","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1109\/TCDS.2021.3139543","volume":"15","author":"S Wen","year":"2023","unstructured":"Wen S, Lv X, Yu FR, Gong S (2023) Vision-and-language navigation based on cross-modal feature fusion in indoor environment. IEEE Trans Cognit Dev Syst 15(1):3\u201315. https:\/\/doi.org\/10.1109\/TCDS.2021.3139543","journal-title":"IEEE Trans Cognit Dev Syst"},{"key":"1339_CR10","doi-asserted-by":"crossref","unstructured":"Krantz J, Wijmans E, Majumdar A, Batra D, Lee S (2020) Beyond the nav-graph: Vision-and-language navigation in continuous environments. In: Computer vision\u2013ECCV 2020: 16th European conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXVIII 16, pp. 104\u2013120. Springer","DOI":"10.1007\/978-3-030-58604-1_7"},{"key":"1339_CR11","unstructured":"Anderson P, Shrivastava A, Truong J, Majumdar A, Parikh D, Batra D, Lee S (2021) Sim-to-real transfer for vision-and-language navigation. In: Conference on robot learning, pp. 671\u2013681 . PMLR"},{"key":"1339_CR12","doi-asserted-by":"crossref","unstructured":"Krantz J, Gokaslan A, Batra D, Lee S, Maksymets O (2021) Waypoint models for instruction-guided navigation in continuous environments. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 15162\u201315171","DOI":"10.1109\/ICCV48922.2021.01488"},{"key":"1339_CR13","doi-asserted-by":"crossref","unstructured":"Krantz J, Lee S (2022) Sim-2-sim transfer for vision-and-language navigation in continuous environments. In: European conference on computer vision, pp. 588\u2013603. Springer","DOI":"10.1007\/978-3-031-19842-7_34"},{"key":"1339_CR14","doi-asserted-by":"crossref","unstructured":"Qi Y, Pan Z, Zhang S, Hengel A, Wu Q (2020) Object-and-action aware model for visual language navigation. In: European conference on computer vision, pp. 303\u2013317. Springer","DOI":"10.1007\/978-3-030-58607-2_18"},{"key":"1339_CR15","doi-asserted-by":"crossref","unstructured":"Chen K, Chen JK, Chuang J, V\u00e1zquez M, Savarese S (2021) Topological planning with transformers for vision-and-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 11276\u201311286","DOI":"10.1109\/CVPR46437.2021.01112"},{"key":"1339_CR16","unstructured":"Kolve E, Mottaghi R, Han W, VanderBilt E, Weihs L, Herrasti A, Deitke M, Ehsani K, Gordon D, Zhu Y et al (2017) Ai2-thor: an interactive 3d environment for visual AI. arXiv preprint arXiv:1712.05474"},{"key":"1339_CR17","unstructured":"Wu Y, Wu Y, Gkioxari G, Tian Y (2018) Building generalizable agents with a realistic and rich 3d environment. arXiv preprint arXiv:1801.02209"},{"key":"1339_CR18","doi-asserted-by":"crossref","unstructured":"Xia F, Zamir AR, He Z, Sax A, Malik J, Savarese S (2018) Gibson env: Real-world perception for embodied agents. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 9068\u20139079","DOI":"10.1109\/CVPR.2018.00945"},{"issue":"9","key":"1339_CR19","doi-asserted-by":"publisher","first-page":"3469","DOI":"10.1109\/TCSVT.2020.3039522","volume":"31","author":"W Zhang","year":"2020","unstructured":"Zhang W, Ma C, Wu Q, Yang X (2020) Language-guided navigation via cross-modal grounding and alternate adversarial learning. IEEE Trans Circuits Syst Video Technol 31(9):3469\u20133481","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"1339_CR20","doi-asserted-by":"crossref","unstructured":"Irshad MZ, Mithun NC, Seymour Z, Chiu H-P, Samarasekera S, Kumar R (2022) Semantically-aware spatio-temporal reasoning agent for vision-and-language navigation in continuous environments. In: 2022 26th International conference on pattern recognition (ICPR), pp. 4065\u20134071. IEEE","DOI":"10.1109\/ICPR56361.2022.9956561"},{"key":"1339_CR21","doi-asserted-by":"crossref","unstructured":"Georgakis G, Schmeckpeper K, Wanchoo K, Dan S, Miltsakaki E, Roth D, Daniilidis K (2022) Cross-modal map learning for vision and language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 15460\u201315470","DOI":"10.1109\/CVPR52688.2022.01502"},{"key":"1339_CR22","doi-asserted-by":"crossref","unstructured":"Raychaudhuri S, Wani S, Patel S, Jain U, Chang A (2021) Language-aligned waypoint (law) supervision for vision-and-language navigation in continuous environments. In: Proceedings of the 2021 conference on empirical methods in natural language processing, pp. 4018\u20134028","DOI":"10.18653\/v1\/2021.emnlp-main.328"},{"key":"1339_CR23","doi-asserted-by":"crossref","unstructured":"Hong Y, Wang Z, Wu Q, Gould S (2022) Bridging the gap between learning in discrete and continuous environments for vision-and-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 15439\u201315449","DOI":"10.1109\/CVPR52688.2022.01500"},{"key":"1339_CR24","doi-asserted-by":"crossref","unstructured":"Wang H, Liang W, Van\u00a0Gool L, Wang W (2023) Dreamwalker: Mental planning for continuous vision-language navigation. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 10873\u201310883","DOI":"10.1109\/ICCV51070.2023.00998"},{"key":"1339_CR25","doi-asserted-by":"crossref","unstructured":"An D, Wang H, Wang W, Wang Z, Huang Y, He K, Wang L (2023) Etpnav: Evolving topological planning for vision-language navigation in continuous environments. arXiv preprint arXiv:2304.03047","DOI":"10.1109\/TPAMI.2024.3386695"},{"issue":"11","key":"1339_CR26","doi-asserted-by":"publisher","first-page":"2942","DOI":"10.1109\/TMM.2019.2915033","volume":"21","author":"X Xiao","year":"2019","unstructured":"Xiao X, Wang L, Ding K, Xiang S, Pan C (2019) Deep hierarchical encoder-decoder network for image captioning. IEEE Trans Multimedia 21(11):2942\u20132956. https:\/\/doi.org\/10.1109\/TMM.2019.2915033","journal-title":"IEEE Trans Multimedia"},{"key":"1339_CR27","doi-asserted-by":"publisher","first-page":"2335","DOI":"10.1109\/TMM.2020.3009499","volume":"23","author":"C Chen","year":"2021","unstructured":"Chen C, Qian S, Fang Q, Xu C (2021) HAPGN: hierarchical attentive pooling graph network for point cloud segmentation. IEEE Trans Multimedia 23:2335\u20132346. https:\/\/doi.org\/10.1109\/TMM.2020.3009499","journal-title":"IEEE Trans Multimedia"},{"key":"1339_CR28","doi-asserted-by":"publisher","first-page":"1217","DOI":"10.1109\/TMM.2022.3140656","volume":"25","author":"D Wang","year":"2023","unstructured":"Wang D, Zhang C, Wang Q, Tian Y, He L, Zhao L (2023) Hierarchical semantic structure preserving hashing for cross-modal retrieval. IEEE Trans Multimedia 25:1217\u20131229. https:\/\/doi.org\/10.1109\/TMM.2022.3140656","journal-title":"IEEE Trans Multimedia"},{"key":"1339_CR29","doi-asserted-by":"crossref","unstructured":"Dang R, Wang L, He Z, Su S, Liu C, Chen Q (2022) Search for or navigate to? dual adaptive thinking for object navigation. arXiv preprint arXiv:2208.00553","DOI":"10.1109\/ICCV51070.2023.00758"},{"key":"1339_CR30","unstructured":"Dang R, Chen L, Wang L, He Z, Liu C, Chen Q (2023) Multiple thinking achieving meta-ability decoupling for object navigation. arXiv preprint arXiv:2302.01520"},{"key":"1339_CR31","doi-asserted-by":"crossref","unstructured":"Das A, Gkioxari G, Lee S, Parikh D, Batra D (2018) Neural modular control for embodied question answering. In: Conference on robot learning, pp. 53\u201362. PMLR","DOI":"10.1109\/CVPR.2018.00008"},{"key":"1339_CR32","doi-asserted-by":"crossref","unstructured":"Gordon D, Kembhavi A, Rastegari M, Redmon J, Fox D, Farhadi A (2018) Iqa: Visual question answering in interactive environments. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4089\u20134098","DOI":"10.1109\/CVPR.2018.00430"},{"key":"1339_CR33","doi-asserted-by":"crossref","unstructured":"Irshad MZ, Ma C-Y, Kira Z (2021) Hierarchical cross-modal agent for robotics vision-and-language navigation. In: 2021 IEEE international conference on robotics and automation (ICRA), pp. 13238\u201313246. IEEE","DOI":"10.1109\/ICRA48506.2021.9561806"},{"key":"1339_CR34","first-page":"36858","volume":"35","author":"H Wang","year":"2022","unstructured":"Wang H, Liang W, Gool LV, Wang W (2022) Towards versatile embodied navigation. Adv Neural Inf Process Syst 35:36858\u201336874","journal-title":"Adv Neural Inf Process Syst"},{"key":"1339_CR35","doi-asserted-by":"crossref","unstructured":"Jain V, Magalhaes G, Ku A, Vaswani A, Ie E, Baldridge J (2019) Stay on the path: Instruction fidelity in vision-and-language navigation. In: Proceedings of the 57th annual meeting of the association for computational linguistics, pp. 1862\u20131872","DOI":"10.18653\/v1\/P19-1181"},{"key":"1339_CR36","doi-asserted-by":"publisher","unstructured":"Nguyen K, Daum\u00e9\u00a0III H (2019) Help, anna! visual navigation with natural multimodal assistance via retrospective curiosity-encouraging imitation learning. In: Inui K, Jiang J, Ng V, Wan X (eds.) Proceedings of the 2019 conference on empirical methods in natural language processing and the 9th International joint conference on natural language processing (EMNLP-IJCNLP), pp. 684\u2013695. Association for computational linguistics, Hong Kong, China. https:\/\/doi.org\/10.18653\/v1\/D19-1063 . https:\/\/aclanthology.org\/D19-1063","DOI":"10.18653\/v1\/D19-1063"},{"key":"1339_CR37","unstructured":"Thomason J, Murray M, Cakmak M, Zettlemoyer L (2020) Vision-and-dialog navigation. In: Kaelbling LP, Kragic D, Sugiura K (eds.) Proceedings of the conference on robot learning. Proceedings of machine learning research, vol. 100, pp. 394\u2013406. PMLR. https:\/\/proceedings.mlr.press\/v100\/thomason20a.html"},{"key":"1339_CR38","doi-asserted-by":"crossref","unstructured":"Zhu F, Liang X, Zhu Y, Yu Q, Chang X, Liang X (2021) Soon: scenario oriented object navigation with graph-based exploration. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp. 12689\u201312699","DOI":"10.1109\/CVPR46437.2021.01250"},{"key":"1339_CR39","unstructured":"Anderson P, Chang A, Chaplot DS, Dosovitskiy A, Gupta S, Koltun V, Kosecka J, Malik J, Mottaghi R, Savva M et al. (2018) On evaluation of embodied navigation agents. arXiv preprint arXiv:1807.06757"},{"key":"1339_CR40","doi-asserted-by":"crossref","unstructured":"Wang X, Huang Q, Celikyilmaz A, Gao J, Shen D, Wang Y-F, Wang WY, Zhang L (2019) Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 6629\u20136638","DOI":"10.1109\/CVPR.2019.00679"},{"key":"1339_CR41","doi-asserted-by":"crossref","unstructured":"Wang H, Wang W, Shu T, Liang W, Shen J (2020) Active visual information gathering for vision-language navigation. In: Computer Vision\u2013ECCV 2020: 16th European conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXII 16, pp. 307\u2013322. Springer","DOI":"10.1007\/978-3-030-58542-6_19"},{"key":"1339_CR42","doi-asserted-by":"crossref","unstructured":"Hong Y, Rodriguez C, Wu Q, Gould S (2020) Sub-instruction aware vision-and-language navigation. In: Proceedings of the 2020 conference on empirical methods in natural language processing (EMNLP), pp. 3360\u20133376","DOI":"10.18653\/v1\/2020.emnlp-main.271"},{"key":"1339_CR43","doi-asserted-by":"crossref","unstructured":"Zhu W, Hu H, Chen J, Deng Z, Jain V, Ie E, Sha F (2020) Babywalk: going farther in vision-and-language navigation by taking baby steps. In: Proceedings of the 58th annual meeting of the association for computational linguistics, pp. 2539\u20132556","DOI":"10.18653\/v1\/2020.acl-main.229"},{"key":"1339_CR44","first-page":"7685","volume":"33","author":"Y Hong","year":"2020","unstructured":"Hong Y, Rodriguez C, Qi Y, Wu Q, Gould S (2020) Language and visual entity relationship graph for agent navigation. Adv Neural Inf Process Syst 33:7685\u20137696","journal-title":"Adv Neural Inf Process Syst"},{"key":"1339_CR45","doi-asserted-by":"crossref","unstructured":"Wang L, He Z, Tang J, Dang R, Wang N, Liu C, Chen Q (2023) A dual semantic-aware recurrent global-adaptive network for vision-and-language navigation. arXiv preprint arXiv:2305.03602","DOI":"10.24963\/ijcai.2023\/164"},{"key":"1339_CR46","unstructured":"He Z, Wang L, Li S, Yan Q, Liu C, Chen Q (2023) Mlanet: multi-level attention network with sub-instruction for continuous vision-and-language navigation. arXiv preprint arXiv:2303.01396"},{"key":"1339_CR47","doi-asserted-by":"crossref","unstructured":"Wang H, Wang W, Liang W, Xiong C, Shen J (2021) Structured scene memory for vision-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 8455\u20138464","DOI":"10.1109\/CVPR46437.2021.00835"},{"key":"1339_CR48","first-page":"5834","volume":"34","author":"S Chen","year":"2021","unstructured":"Chen S, Guhur P-L, Schmid C, Laptev I (2021) History aware multimodal transformer for vision-and-language navigation. Adv Neural Inf Process Syst 34:5834\u20135847","journal-title":"Adv Neural Inf Process Syst"},{"key":"1339_CR49","doi-asserted-by":"crossref","unstructured":"Zhao Y, Chen J, Gao C, Wang W, Yang L, Ren H, Xia H, Liu S (2022) Target-driven structured transformer planner for vision-language navigation. In: Proceedings of the 30th ACM international conference on multimedia, pp. 4194\u20134203","DOI":"10.1145\/3503161.3548281"},{"key":"1339_CR50","doi-asserted-by":"crossref","unstructured":"Majumdar A, Shrivastava A, Lee S, Anderson P, Parikh D, Batra D (2020) Improving vision-and-language navigation with image-text pairs from the web. In: Computer vision\u2013ECCV 2020: 16th European conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part VI 16, pp. 259\u2013274. Springer","DOI":"10.1007\/978-3-030-58539-6_16"},{"key":"1339_CR51","doi-asserted-by":"crossref","unstructured":"Hong Y, Wu Q, Qi Y, Rodriguez-Opazo C, Gould S (2021) Vln bert: A recurrent vision-and-language bert for navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 1643\u20131653","DOI":"10.1109\/CVPR46437.2021.00169"},{"key":"1339_CR52","doi-asserted-by":"crossref","unstructured":"Chen S, Guhur P-L, Tapaswi M, Schmid C, Laptev I (2022) Think global, act local: Dual-scale graph transformer for vision-and-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp. 16537\u201316547","DOI":"10.1109\/CVPR52688.2022.01604"},{"key":"1339_CR53","doi-asserted-by":"crossref","unstructured":"Guhur P-L, Tapaswi M, Chen S, Laptev I, Schmid C (2021) Airbert: In-domain pretraining for vision-and-language navigation. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 1634\u20131643","DOI":"10.1109\/ICCV48922.2021.00166"},{"key":"1339_CR54","unstructured":"Ma C-Y, Lu J, Wu Z, AlRegib G, Kira Z, Socher R, Xiong C (2019) Self-monitoring navigation agent via auxiliary progress estimation. arXiv preprint arXiv:1901.03035"},{"key":"1339_CR55","doi-asserted-by":"crossref","unstructured":"Ma C-Y, Wu Z, AlRegib G, Xiong C, Kira Z (2019) The regretful agent: Heuristic-aided navigation through progress estimation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 6732\u20136740","DOI":"10.1109\/CVPR.2019.00689"},{"key":"1339_CR56","doi-asserted-by":"crossref","unstructured":"Zhu F, Zhu Y, Chang X, Liang X (2020) Vision-language navigation with self-supervised auxiliary reasoning tasks. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 10012\u201310022","DOI":"10.1109\/CVPR42600.2020.01003"},{"key":"1339_CR57","unstructured":"Fried D, Hu R, Cirik V, Rohrbach A, Andreas J, Morency L-P, Berg-Kirkpatrick T, Saenko K, Klei, D, Darrell T (2018) Speaker-follower models for vision-and-language navigation. Adv Neural Inf Process Syst31"},{"key":"1339_CR58","doi-asserted-by":"publisher","unstructured":"Tan H, Yu L, Bansal M (2019) Learning to navigate unseen environments: Back translation with environmental dropout. In: Burstein J, Doran C, Solorio T (eds.) Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, Volume 1 (Long and Short Papers), pp. 2610\u20132621. Association for Computational Linguistics, Minneapolis, Minnesota. https:\/\/doi.org\/10.18653\/v1\/N19-1268 . https:\/\/aclanthology.org\/N19-1268","DOI":"10.18653\/v1\/N19-1268"},{"key":"1339_CR59","doi-asserted-by":"crossref","unstructured":"Wang H, Liang W, Shen J, Van\u00a0Gool L, Wang W (2022) Counterfactual cycle-consistent learning for instruction following and generation in vision-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 15471\u201315481","DOI":"10.1109\/CVPR52688.2022.01503"},{"key":"1339_CR60","doi-asserted-by":"publisher","first-page":"3441","DOI":"10.1109\/TCSVT.2022.3233554","volume":"33","author":"L Wang","year":"2023","unstructured":"Wang L, He Z, Dang R, Chen H, Liu C, Chen Q (2023) Res-sts: referring expression speaker via self-training with scorer for goal-oriented vision-language navigation. IEEE Trans Circuits Syst Video Technol 33:3441\u20133454","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"1339_CR61","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2023.107487","volume":"128","author":"L Wang","year":"2024","unstructured":"Wang L, Liu C, He Z, Li S, Yan Q, Chen H, Chen Q (2024) Pasts: progress-aware spatio-temporal transformer speaker for vision-and-language navigation. Eng Appl Artif Intell 128:107487","journal-title":"Eng Appl Artif Intell"},{"key":"1339_CR62","doi-asserted-by":"crossref","unstructured":"Wang X, Wang W, Shao J, Yang Y (2023) Lana: A language-capable navigator for instruction following and generation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 19048\u201319058","DOI":"10.1109\/CVPR52729.2023.01826"},{"key":"1339_CR63","doi-asserted-by":"crossref","unstructured":"Chang A, Dai A, Funkhouser T, Halber M, Niebner M, Savva M, Song S, Zeng A, Zhang Y (2017) Matterport3d: Learning from rgb-d data in indoor environments. In: 2017 International conference on 3D vision (3DV), pp. 667\u2013676. IEEE","DOI":"10.1109\/3DV.2017.00081"},{"key":"1339_CR64","doi-asserted-by":"crossref","unstructured":"Tan H, Yu L, Bansal M (2019) Learning to navigate unseen environments: Back translation with environmental dropout. In: Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, Volume 1 (Long and Short Papers), pp. 2610\u20132621","DOI":"10.18653\/v1\/N19-1268"},{"issue":"8","key":"1339_CR65","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"1339_CR66","doi-asserted-by":"publisher","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 770\u2013778. https:\/\/doi.org\/10.1109\/cvpr.2016.90","DOI":"10.1109\/cvpr.2016.90"},{"key":"1339_CR67","doi-asserted-by":"crossref","unstructured":"Deng J, Dong W, Socher R, Li L-J, Li K, Fei-Fei L (2009) Imagenet: a large-scale hierarchical image database. In: 2009 IEEE Conference on computer vision and pattern recognition, pp. 248\u2013255. IEEE","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1339_CR68","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. Adv Neural Inf Process Syst 30"},{"key":"1339_CR69","doi-asserted-by":"crossref","unstructured":"Lin T-Y, Goyal P, Girshick R, He K, Doll\u00e1r P (2017) Focal loss for dense object detection. In: Proceedings of the IEEE international conference on computer vision, pp. 2980\u20132988","DOI":"10.1109\/ICCV.2017.324"},{"key":"1339_CR70","unstructured":"Mnih V, Badia AP, Mirza M, Graves A, Lillicrap T, Harley T, Silver D, Kavukcuoglu K (2016) Asynchronous methods for deep reinforcement learning. In: International conference on machine learning, pp. 1928\u20131937. PMLR"},{"key":"1339_CR71","doi-asserted-by":"crossref","unstructured":"Chen K, Chen JK, Chuang J, Vazquez M, Savarese S (2021) Topological planning with transformers for vision-and-language navigation. In: Proceedings of the IEEE\/CVF Conference on computer vision and pattern recognition (CVPR), pp. 11276\u201311286","DOI":"10.1109\/CVPR46437.2021.01112"},{"key":"1339_CR72","doi-asserted-by":"crossref","unstructured":"Wang Z, Li X, Yang J, Liu Y, Jiang S (2023) Gridmm: Grid memory map for vision-and-language navigation. In: Proceedings of the IEEE\/CVF International conference on computer vision, pp. 15625\u201315636","DOI":"10.1109\/ICCV51070.2023.01432"},{"key":"1339_CR73","doi-asserted-by":"crossref","unstructured":"Wang Z, Li X, Yang J, Liu Y, Hu J, Jiang M, Jiang S (2024) Lookahead exploration with neural radiance representation for continuous vision-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 13753\u201313762","DOI":"10.1109\/CVPR52733.2024.01305"}],"container-title":["Pattern Analysis and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10044-024-01339-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10044-024-01339-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10044-024-01339-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,16]],"date-time":"2024-12-16T09:32:17Z","timestamp":1734341537000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10044-024-01339-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,3]]},"references-count":73,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2024,12]]}},"alternative-id":["1339"],"URL":"https:\/\/doi.org\/10.1007\/s10044-024-01339-z","relation":{},"ISSN":["1433-7541","1433-755X"],"issn-type":[{"value":"1433-7541","type":"print"},{"value":"1433-755X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,3]]},"assertion":[{"value":"24 April 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 September 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"3 October 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"132"}}