{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T23:41:08Z","timestamp":1768347668438,"version":"3.49.0"},"reference-count":26,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,6,1]],"date-time":"2021-06-01T00:00:00Z","timestamp":1622505600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100009110","name":"Xinjiang Uygur Autonomous Region Natural Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100009110","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neurocomputing"],"published-print":{"date-parts":[[2021,6]]},"DOI":"10.1016\/j.neucom.2021.01.124","type":"journal-article","created":{"date-parts":[[2021,2,23]],"date-time":"2021-02-23T05:39:26Z","timestamp":1614058766000},"page":"249-259","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":9,"special_numbering":"C","title":["Fusion layer attention for image-text matching"],"prefix":"10.1016","volume":"442","author":[{"given":"Depeng","family":"Wang","sequence":"first","affiliation":[]},{"given":"Liejun","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Shiji","family":"Song","sequence":"additional","affiliation":[]},{"given":"Gao","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Yuchen","family":"Guo","sequence":"additional","affiliation":[]},{"given":"Shuli","family":"Cheng","sequence":"additional","affiliation":[]},{"given":"Naixiang","family":"Ao","sequence":"additional","affiliation":[]},{"given":"Anyu","family":"Du","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neucom.2021.01.124_b0005","doi-asserted-by":"crossref","unstructured":"T. Wang, X. Xu, Y. Yang, A. Hanjalic, H.T. Shen, J. Song, Matching images and text with multi-modal tensor fusion and re-ranking, in: Proceedings of the 27th ACM International Conference on Multimedia, 12\u201320, 2019a.","DOI":"10.1145\/3343031.3350875"},{"key":"10.1016\/j.neucom.2021.01.124_b0010","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"4654","article-title":"Visual semantic reasoning for image-text matching","author":"Li","year":"2019"},{"key":"10.1016\/j.neucom.2021.01.124_b0015","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"201","article-title":"Stacked cross attention for image-text matching","author":"Lee","year":"2018"},{"key":"10.1016\/j.neucom.2021.01.124_b0020","unstructured":"F. Liu, R. Ye, X. Wang, S. Li, HAL: Improved Text-Image Matching by Mitigating Visual Semantic Hubs, arXiv preprint arXiv:1911.10097."},{"key":"10.1016\/j.neucom.2021.01.124_b0025","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"2623","article-title":"Multimodal convolutional neural networks for matching image and sentence","author":"Ma","year":"2015"},{"key":"10.1016\/j.neucom.2021.01.124_b0030","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3441","article-title":"Deep correlation for matching images and text","author":"Yan","year":"2015"},{"key":"10.1016\/j.neucom.2021.01.124_b0035","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"249","article-title":"Conditional image-text embedding networks","author":"Plummer","year":"2018"},{"issue":"2","key":"10.1016\/j.neucom.2021.01.124_b0040","doi-asserted-by":"crossref","first-page":"394","DOI":"10.1109\/TPAMI.2018.2797921","article-title":"Learning two-branch neural networks for image-text matching tasks","volume":"41","author":"Wang","year":"2018","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neucom.2021.01.124_b0045","series-title":"European Conference on Computer Vision","first-page":"727","article-title":"Revisiting visual question answering baselines","author":"Jabri","year":"2016"},{"key":"10.1016\/j.neucom.2021.01.124_b0050","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"2310","article-title":"Instance-aware image and sentence matching with selective multimodal lstm","author":"Huang","year":"2017"},{"key":"10.1016\/j.neucom.2021.01.124_b0055","unstructured":"Y. Wang, H. Yang, X. Qian, L. Ma, J. Lu, B. Li, X. Fan, Position focused attention network for image-text matching, arXiv preprint arXiv:1907.09748."},{"issue":"6","key":"10.1016\/j.neucom.2021.01.124_b0060","doi-asserted-by":"crossref","first-page":"1538","DOI":"10.1109\/TMM.2018.2877885","article-title":"Show and tell in the loop: Cross-modal circular correlation learning","volume":"21","author":"Peng","year":"2018","journal-title":"IEEE Transactions on Multimedia"},{"issue":"2","key":"10.1016\/j.neucom.2021.01.124_b0065","doi-asserted-by":"crossref","first-page":"365","DOI":"10.1109\/TMM.2019.2930336","article-title":"Kernel-based mixture mapping for image and text association","volume":"22","author":"Du","year":"2019","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.neucom.2021.01.124_b0070","unstructured":"X. Fu, Y. Zhao, Y. Wei, Y. Zhao, S. Wei, Rich features embedding for cross-modal retrieval: a simple baseline, IEEE Transactions on Multimedia."},{"key":"10.1016\/j.neucom.2021.01.124_b0075","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"4534","article-title":"Sequence to sequence-video to text","author":"Venugopalan","year":"2015"},{"key":"10.1016\/j.neucom.2021.01.124_b0080","unstructured":"S. Ren, K. He, R. Girshick, J. Sun, Faster r-cnn: Towards real-time object detection with region proposal networks, in: Advances in Neural Information Processing Systems, 91\u201399, 2015."},{"key":"10.1016\/j.neucom.2021.01.124_b0085","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.neucom.2021.01.124_b0090","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"6077","article-title":"Bottom-up and top-down attention for image captioning and visual question answering","author":"Anderson","year":"2018"},{"key":"10.1016\/j.neucom.2021.01.124_b0095","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","volume":"2","author":"Young","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"10.1016\/j.neucom.2021.01.124_b0100","series-title":"European Conference on Computer Vision","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.neucom.2021.01.124_b0105","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3128","article-title":"Deep visual-semantic alignments for generating image descriptions","author":"Karpathy","year":"2015"},{"key":"10.1016\/j.neucom.2021.01.124_b0110","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"686","article-title":"Deep cross-modal projection learning for image-text matching","author":"Zhang","year":"2018"},{"key":"10.1016\/j.neucom.2021.01.124_b0115","doi-asserted-by":"crossref","unstructured":"S. Wang, Y. Chen, J. Zhuo, Q. Huang, Q. Tian, Joint global and co-attentive representation learning for image-sentence retrieval, in: Proceedings of the 26th ACM International Conference on Multimedia, 1398\u20131406, 2018b.","DOI":"10.1145\/3240508.3240535"},{"key":"10.1016\/j.neucom.2021.01.124_b0120","unstructured":"F. Faghri, D.J. Fleet, J.R. Kiros, S. Fidler, Vse++: Improving visual-semantic embeddings with hard negatives, arXiv preprint arXiv:1707.05612."},{"key":"10.1016\/j.neucom.2021.01.124_b0125","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"6163","article-title":"Learning semantic concepts and order for image and sentence matching","author":"Huang","year":"2018"},{"key":"10.1016\/j.neucom.2021.01.124_b0130","unstructured":"T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word representations in vector space, arXiv preprint arXiv:1301.3781."}],"container-title":["Neurocomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231221002319?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231221002319?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,10,13]],"date-time":"2025-10-13T19:47:50Z","timestamp":1760384870000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0925231221002319"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,6]]},"references-count":26,"alternative-id":["S0925231221002319"],"URL":"https:\/\/doi.org\/10.1016\/j.neucom.2021.01.124","relation":{},"ISSN":["0925-2312"],"issn-type":[{"value":"0925-2312","type":"print"}],"subject":[],"published":{"date-parts":[[2021,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Fusion layer attention for image-text matching","name":"articletitle","label":"Article Title"},{"value":"Neurocomputing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neucom.2021.01.124","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2021 Elsevier B.V. All rights reserved.","name":"copyright","label":"Copyright"}]}}