{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,19]],"date-time":"2026-01-19T00:22:08Z","timestamp":1768782128019,"version":"3.49.0"},"reference-count":32,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2021 ZD0111902"],"award-info":[{"award-number":["2021 ZD0111902"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62376014"],"award-info":[{"award-number":["62376014"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U21B2038"],"award-info":[{"award-number":["U21B2038"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2025,9]]},"DOI":"10.1016\/j.neunet.2025.107548","type":"journal-article","created":{"date-parts":[[2025,5,14]],"date-time":"2025-05-14T10:59:04Z","timestamp":1747220344000},"page":"107548","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":1,"special_numbering":"C","title":["Memory Transmission Based Referring Video Object Segmentation"],"prefix":"10.1016","volume":"189","author":[{"given":"Zijin","family":"Liu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4977-0183","authenticated-orcid":false,"given":"Lichun","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Yongli","family":"Hu","sequence":"additional","affiliation":[]},{"given":"Baocai","family":"Yin","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2025.107548_b1","doi-asserted-by":"crossref","first-page":"4419","DOI":"10.1007\/s11042-022-13413-x","article-title":"A closer look at referring expressions for video object segmentation","volume":"82","author":"Bellver","year":"2023","journal-title":"Multimedia Tools and Applications"},{"key":"10.1016\/j.neunet.2025.107548_b2","doi-asserted-by":"crossref","unstructured":"Botach, A., Zheltonozhskii, E., & Baskin, C. (2022). End-to-end referring video object segmentation with multimodal transformers. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 4985\u20134995).","DOI":"10.1109\/CVPR52688.2022.00493"},{"key":"10.1016\/j.neunet.2025.107548_b3","doi-asserted-by":"crossref","unstructured":"Ding, Z., Hui, T., Huang, J., Wei, X., Han, J., & Liu, S. (2022). Language-bridged spatial\u2013temporal interaction for referring video object segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 4964\u20134973).","DOI":"10.1109\/CVPR52688.2022.00491"},{"key":"10.1016\/j.neunet.2025.107548_b4","series-title":"A review on deep learning techniques applied to semantic segmentation","author":"Garcia-Garcia","year":"2017"},{"key":"10.1016\/j.neunet.2025.107548_b5","doi-asserted-by":"crossref","unstructured":"Gavrilyuk, K., Ghodrati, A., Li, Z., & Snoek, C. G. (2018). Actor and action video segmentation from a sentence. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5958\u20135966).","DOI":"10.1109\/CVPR.2018.00624"},{"key":"10.1016\/j.neunet.2025.107548_b6","series-title":"2018 IEEE\/CVF conference on computer vision and pattern recognition","first-page":"5958","article-title":"Actor and action video segmentation from a sentence","author":"Gavrilyuk","year":"2018"},{"key":"10.1016\/j.neunet.2025.107548_b7","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"10.1016\/j.neunet.2025.107548_b8","doi-asserted-by":"crossref","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","article-title":"Long short-term memory","volume":"9","author":"Hochreiter","year":"1997","journal-title":"Neural Computation"},{"key":"10.1016\/j.neunet.2025.107548_b9","doi-asserted-by":"crossref","unstructured":"Huang, S., Hui, T., Liu, S., Li, G., Wei, Y., Han, J., et al. (2020). Referring image segmentation via cross-modal progressive comprehension. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 10488\u201310497).","DOI":"10.1109\/CVPR42600.2020.01050"},{"key":"10.1016\/j.neunet.2025.107548_b10","doi-asserted-by":"crossref","unstructured":"Hui, T., Huang, S., Liu, S., Ding, Z., Li, G., Wang, W., et al. (2021). Collaborative spatial\u2013temporal modeling for language-queried video actor segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 4187\u20134196).","DOI":"10.1109\/CVPR46437.2021.00417"},{"key":"10.1016\/j.neunet.2025.107548_b11","series-title":"Computer vision\u2013ACCV 2018: 14th Asian conference on computer vision, perth, Australia, December (2018) 2\u20136, revised selected papers, Part IV 14","first-page":"123","article-title":"Video object segmentation with language referring expressions","author":"Khoreva","year":"2019"},{"key":"10.1016\/j.neunet.2025.107548_b12","doi-asserted-by":"crossref","unstructured":"Li, D., Li, R., Wang, L., Wang, Y., Qi, J., Zhang, L., et al. (2022). You only infer once: Cross-modal meta-transfer for referring video object segmentation. In Proceedings of the AAAI conference on artificial intelligence (pp. 1297\u20131305).","DOI":"10.1609\/aaai.v36i2.20017"},{"key":"10.1016\/j.neunet.2025.107548_b13","series-title":"Clawcranenet: leveraging object-level relation for text-based video segmentation","author":"Liang","year":"2021"},{"key":"10.1016\/j.neunet.2025.107548_b14","series-title":"Computer vision\u2013ECCV 2014: 13th European conference, Zurich, Switzerland, September (2014) 6-12, proceedings, Part V 13","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.neunet.2025.107548_b15","first-page":"4761","article-title":"Cross-modal progressive comprehension for referring segmentation","volume":"44","author":"Liu","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2025.107548_b16","doi-asserted-by":"crossref","unstructured":"McIntosh, B., Duarte, K., Rawat, Y. S., & Shah, M. (2020). Visual-textual capsule routing for text-based video segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 9942\u20139951).","DOI":"10.1109\/CVPR42600.2020.00996"},{"key":"10.1016\/j.neunet.2025.107548_b17","series-title":"Spectrum-guided multi-granularity referring video object segmentation","author":"Miao","year":"2023"},{"key":"10.1016\/j.neunet.2025.107548_b18","series-title":"Rectified linear units improve restricted boltzmann machines","first-page":"807","author":"Nair","year":"2010"},{"key":"10.1016\/j.neunet.2025.107548_b19","doi-asserted-by":"crossref","unstructured":"Ning, K., Xie, L., Wu, F., & Tian, Q. (2020). Polar relative positional encoding for video-language segmentation. In IJCAI. (10).","DOI":"10.24963\/ijcai.2020\/132"},{"key":"10.1016\/j.neunet.2025.107548_b20","doi-asserted-by":"crossref","unstructured":"Oh, S. W., Lee, J. Y., Xu, N., & Kim, S. J. (2019). Video object segmentation using space\u2013time memory networks. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 9226\u20139235).","DOI":"10.1109\/ICCV.2019.00932"},{"key":"10.1016\/j.neunet.2025.107548_b21","doi-asserted-by":"crossref","unstructured":"Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global vectors for word representation. In Proceedings of the 2014 conference on empirical methods in natural language processing (pp. 1532\u20131543).","DOI":"10.3115\/v1\/D14-1162"},{"key":"10.1016\/j.neunet.2025.107548_b22","series-title":"Computer vision\u2013ECCV 2020: 16th European conference, Glasgow, UK, August (2020) 23\u201328, proceedings, Part XV 16","first-page":"208","article-title":"Urvos: Unified referring video object segmentation network with a large-scale benchmark","author":"Seo","year":"2020"},{"key":"10.1016\/j.neunet.2025.107548_b23","first-page":"24261","article-title":"Mlp-mixer: An all-mlp architecture for vision","volume":"34","author":"Tolstikhin","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2025.107548_b24","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2025.107548_b25","doi-asserted-by":"crossref","unstructured":"Wang, H., Deng, C., Ma, F., & Yang, Y. (2020). Context modulated dynamic networks for actor and action video segmentation with language queries. In Proceedings of the AAAI conference on artificial intelligence (pp. 12152\u201312159).","DOI":"10.1609\/aaai.v34i07.6895"},{"key":"10.1016\/j.neunet.2025.107548_b26","doi-asserted-by":"crossref","unstructured":"Wang, H., Deng, C., Yan, J., & Tao, D. (2019). Asymmetric cross-guided attention network for actor and action video segmentation from natural language query. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 3939\u20133948).","DOI":"10.1109\/ICCV.2019.00404"},{"key":"10.1016\/j.neunet.2025.107548_b27","doi-asserted-by":"crossref","unstructured":"Wu, D., Dong, X., Shao, L., & Shen, J. (2022a). Multi-level representation learning with semantic alignment for referring video object segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 4996\u20135005).","DOI":"10.1109\/CVPR52688.2022.00494"},{"key":"10.1016\/j.neunet.2025.107548_b28","doi-asserted-by":"crossref","unstructured":"Wu, J., Jiang, Y., Sun, P., Yuan, Z., & Luo, P. (2022b). Language as queries for referring video object segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 4974\u20134984).","DOI":"10.1109\/CVPR52688.2022.00492"},{"key":"10.1016\/j.neunet.2025.107548_b29","series-title":"Onlinerefer: A simple online baseline for referring video object segmentation","author":"Wu","year":"2023"},{"key":"10.1016\/j.neunet.2025.107548_b30","first-page":"3719","article-title":"Referring segmentation in images and videos with cross-modal self-attention network","volume":"44","author":"Ye","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2025.107548_b31","series-title":"Learning referring video object segmentation from weak annotation","author":"Zhao","year":"2023"},{"key":"10.1016\/j.neunet.2025.107548_b32","doi-asserted-by":"crossref","unstructured":"Zhao, W., Wang, K., Chu, X., Xue, F., Wang, X., & You, Y. (2022). Modeling motion with multi-modal features for text-based video segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 11737\u201311746).","DOI":"10.1109\/CVPR52688.2022.01144"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608025004277?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608025004277?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,11,5]],"date-time":"2025-11-05T04:05:34Z","timestamp":1762315534000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608025004277"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9]]},"references-count":32,"alternative-id":["S0893608025004277"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2025.107548","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2025,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Memory Transmission Based Referring Video Object Segmentation","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2025.107548","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"107548"}}