{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T17:28:54Z","timestamp":1776187734233,"version":"3.50.1"},"reference-count":56,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,8,1]],"date-time":"2026-08-01T00:00:00Z","timestamp":1785542400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100008081","name":"Southeast University","doi-asserted-by":"publisher","award":["MP202404"],"award-info":[{"award-number":["MP202404"]}],"id":[{"id":"10.13039\/501100008081","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62276061"],"award-info":[{"award-number":["62276061"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62436002"],"award-info":[{"award-number":["62436002"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2026,8]]},"DOI":"10.1016\/j.neunet.2026.108824","type":"journal-article","created":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T16:47:47Z","timestamp":1773074867000},"page":"108824","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["LoongTrack: Exploring long-sequence modeling for visual tracking"],"prefix":"10.1016","volume":"200","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-0767-9210","authenticated-orcid":false,"given":"Wenkang","family":"Zhang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9015-3128","authenticated-orcid":false,"given":"Tianyang","family":"Xu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2733-2393","authenticated-orcid":false,"given":"Fei","family":"Xie","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7822-4915","authenticated-orcid":false,"given":"Mu","family":"Nie","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6385-6776","authenticated-orcid":false,"given":"Wankou","family":"Yang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2026.108824_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107210","article-title":"Learning temporal regularized spatial-aware deep correlation filter tracking via adaptive channel selection","volume":"186","author":"Arthanari","year":"2025","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108824_bib0002","series-title":"Computer vision\u2013ECCV 2016 workshops: Amsterdam, the Netherlands, October 8\u201310 and 15\u201316, 2016, proceedings, part II 14","first-page":"850","article-title":"Fully-convolutional siamese networks for object tracking","author":"Bertinetto","year":"2016"},{"key":"10.1016\/j.neunet.2026.108824_bib0003","series-title":"ICCV","first-page":"6182","article-title":"Learning discriminative model prediction for tracking","author":"Bhat","year":"2019"},{"key":"10.1016\/j.neunet.2026.108824_bib0004","series-title":"CVPR","first-page":"19258","article-title":"Hiptrack: Visual tracking with historical prompts","author":"Cai","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0005","series-title":"ICCV","first-page":"9589","article-title":"Robust object modeling for visual tracking","author":"Cai","year":"2023"},{"key":"10.1016\/j.neunet.2026.108824_bib0006","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"14572","article-title":"Seqtrack: Sequence to sequence learning for visual object tracking","author":"Chen","year":"2023"},{"key":"10.1016\/j.neunet.2026.108824_bib0007","series-title":"CVPR","first-page":"8126","article-title":"Transformer tracking","author":"Chen","year":"2021"},{"key":"10.1016\/j.neunet.2026.108824_bib0008","series-title":"CVPR","first-page":"13608","article-title":"Mixformer: End-to-end tracking with iterative mixed attention","author":"Cui","year":"2022"},{"key":"10.1016\/j.neunet.2026.108824_bib0009","series-title":"2009\u202fIEEE Conference on computer vision and pattern recognition","first-page":"248","article-title":"Imagenet: A large-scale hierarchical image database","author":"Deng","year":"2009"},{"key":"10.1016\/j.neunet.2026.108824_bib0010","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929."},{"key":"10.1016\/j.neunet.2026.108824_bib0011","series-title":"CVPR","first-page":"5374","article-title":"Lasot: A high-quality benchmark for large-scale single object tracking","author":"Fan","year":"2019"},{"key":"10.1016\/j.neunet.2026.108824_bib0012","series-title":"Cvpr","article-title":"Correlation-aware deep tracking","author":"Fei","year":"2022"},{"key":"10.1016\/j.neunet.2026.108824_bib0013","series-title":"CVPR","first-page":"13774","article-title":"Stmtrack: Template-free visual tracking with space-time memory networks","author":"Fu","year":"2021"},{"key":"10.1016\/j.neunet.2026.108824_bib0014","series-title":"Computer vision\u2013ECCV 2022: 17th European conference, Tel Aviv, Israel, October 23\u201327, 2022, proceedings, part XXII","first-page":"146","article-title":"Aiatrack: Attention in attention for transformer visual tracking","author":"Gao","year":"2022"},{"key":"10.1016\/j.neunet.2026.108824_bib0015","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"18686","article-title":"Generalized relation modeling for transformer tracking","author":"Gao","year":"2023"},{"key":"10.1016\/j.neunet.2026.108824_bib0016","article-title":"Mamba: Linear-time sequence modeling with selective state spaces","author":"Gu","year":"2023","journal-title":"ArXiv abs\/2312.00752"},{"key":"10.1016\/j.neunet.2026.108824_bib0017","series-title":"The international conference on learning representations (ICLR)","article-title":"Efficiently modeling long sequences with structured state spaces","author":"Gu","year":"2022"},{"key":"10.1016\/j.neunet.2026.108824_bib0018","first-page":"22982","article-title":"Diagonal state spaces are as effective as structured state spaces","volume":"35","author":"Gupta","year":"2022","journal-title":"Advances in Neural Information Processing systems"},{"key":"10.1016\/j.neunet.2026.108824_bib0019","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"16000","article-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2022"},{"issue":"5","key":"10.1016\/j.neunet.2026.108824_bib0020","doi-asserted-by":"crossref","first-page":"1562","DOI":"10.1109\/TPAMI.2019.2957464","article-title":"Got-10k: A large high-diversity benchmark for generic object tracking in the wild","volume":"43","author":"Huang","year":"2019","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.108824_bib0021","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"4194","article-title":"Exploring enhanced contextual information for video-level object tracking","volume":"vol. 39","author":"Kang","year":"2025"},{"key":"10.1016\/j.neunet.2026.108824_bib0022","unstructured":"Lai, S., Liu, C., Zhu, J., Kang, B., Liu, Y., Wang, D., & Lu, H. (2024). Mambavt: Spatio-temporal contextual modeling for robust rgb-t tracking. arXiv preprint arXiv: 2408.07889."},{"key":"10.1016\/j.neunet.2026.108824_bib0023","series-title":"Proceedings of the european conference on computer vision (ECCV)","first-page":"734","article-title":"Cornernet: Detecting objects as paired keypoints","author":"Law","year":"2018"},{"key":"10.1016\/j.neunet.2026.108824_bib0024","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"4282","article-title":"Siamrpn++: Evolution of siamese visual tracking with very deep networks","author":"Li","year":"2019"},{"key":"10.1016\/j.neunet.2026.108824_bib0025","series-title":"European conference on computer vision","first-page":"237","article-title":"Videomamba: State space model for efficient video understanding","author":"Li","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0026","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"4986","article-title":"Mambalct: Boosting tracking via long-term context state space model","volume":"vol. 39","author":"Li","year":"2025"},{"key":"10.1016\/j.neunet.2026.108824_bib0027","first-page":"16743","article-title":"Swintrack: A simple and strong baseline for transformer tracking","volume":"35","author":"Lin","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108824_bib0028","series-title":"ECCV","article-title":"Microsoft COCO: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.neunet.2026.108824_bib0029","doi-asserted-by":"crossref","unstructured":"Liu, J., Yang, H., Zhou, H.-Y., Xi, Y., Yu, L., Yu, Y., Liang, Y., Shi, G., Zhang, S., Zheng, H., & Wang, S. (2024a). Swin-UMamba: Mamba-based UNet with imagenet-based pretraining. arXiv preprint arXiv: 2402.03302.","DOI":"10.1007\/978-3-031-72114-4_59"},{"key":"10.1016\/j.neunet.2026.108824_bib0030","first-page":"103031","article-title":"Vmamba: Visual state space model","volume":"37","author":"Liu","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108824_bib0031","series-title":"Computer vision\u2013ECCV 2016: 14th European conference, Amsterdam, the Netherlands, October 11\u201314, 2016, proceedings, part i 14","first-page":"445","article-title":"A benchmark and simulator for UAV tracking","author":"Mueller","year":"2016"},{"key":"10.1016\/j.neunet.2026.108824_bib0032","series-title":"ECCV","first-page":"300","article-title":"Trackingnet: A large-scale dataset and benchmark for object tracking in the wild","author":"Muller","year":"2018"},{"key":"10.1016\/j.neunet.2026.108824_bib0033","series-title":"The thirty-eight conference on neural information processing systems datasets and benchmarks track","article-title":"Vasttrack: Vast category visual object tracking","author":"Peng","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0034","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"658","article-title":"Generalized intersection over union: A metric and a loss for bounding box regression","author":"Rezatofighi","year":"2019"},{"key":"10.1016\/j.neunet.2026.108824_bib0035","series-title":"AAAI","first-page":"4838","article-title":"Explicit visual prompts for visual object tracking","volume":"vol. 38","author":"Shi","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0036","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2024.106110","article-title":"Emat: Efficient feature fusion network for visual tracking via optimized multi-head attention","volume":"172","author":"Wang","year":"2024","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108824_bib0037","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.108020","article-title":"Gmsr: Gradient-integrated mamba for spectral reconstruction from rgb images","volume":"193","author":"Wang","year":"2026","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108824_bib0038","series-title":"CVPR","first-page":"13763","article-title":"Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark","author":"Wang","year":"2021"},{"key":"10.1016\/j.neunet.2026.108824_bib0039","doi-asserted-by":"crossref","unstructured":"Wang, Z., Zheng, J.-Q., Zhang, Y., Cui, G., & Li, L. (2024). Mamba-UNet: UNet-like pure visual mamba for medical image segmentation. arXiv e-prints arXiv: 2402.05079.","DOI":"10.2139\/ssrn.5097998"},{"key":"10.1016\/j.neunet.2026.108824_bib0040","series-title":"CVPR","first-page":"9697","article-title":"Autoregressive visual tracking","author":"Wei","year":"2023"},{"issue":"2","key":"10.1016\/j.neunet.2026.108824_bib0041","doi-asserted-by":"crossref","first-page":"1165","DOI":"10.1109\/TCSVT.2024.3478758","article-title":"Temporal-spatial feature interaction network for multi-drone multi-object tracking","volume":"35","author":"Wu","year":"2024","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"issue":"9","key":"10.1016\/j.neunet.2026.108824_bib0042","doi-asserted-by":"crossref","first-page":"1834","DOI":"10.1109\/TPAMI.2014.2388226","article-title":"Object tracking benchmark","volume":"37","author":"Wu","year":"2015","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.108824_bib0043","series-title":"CVPR","first-page":"22826","article-title":"Videotrack: Learning to track objects via video transformer","author":"Xie","year":"2023"},{"key":"10.1016\/j.neunet.2026.108824_bib0044","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"19113","article-title":"Diffusiontrack: Point set diffusion model for visual object tracking","author":"Xie","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0045","series-title":"NeurIPS","article-title":"Quadmambata: Learning quadtree-based selective scan for visual state space model","author":"Xie","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0046","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"19300","article-title":"Autoregressive queries for adaptive tracking with spatio-temporal transformers","author":"Xie","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0047","series-title":"Proceedings of medical image computing and computer assisted intervention \u2013 MICCAI 2024","article-title":"Segmamba: Long-range sequential modeling mamba for 3D medical image segmentation","volume":"vol. LNCS 15008","author":"Xing","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0048","series-title":"ICCV","article-title":"Learning spatio-temporal transformer for visual tracking","author":"Yan","year":"2021"},{"key":"10.1016\/j.neunet.2026.108824_bib0049","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"10117","article-title":"Foreground-background distribution modeling transformer for visual object tracking","author":"Yang","year":"2023"},{"key":"10.1016\/j.neunet.2026.108824_bib0050","series-title":"ECCV","first-page":"341","article-title":"Joint feature learning and relation modeling for tracking: A one-stream framework","author":"Ye","year":"2022"},{"key":"10.1016\/j.neunet.2026.108824_bib0051","article-title":"Root mean square layer normalization","volume":"32","author":"Zhang","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.neunet.2026.108824_bib0052","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110582","article-title":"Crtrack: Learning correlation-refine network for visual object tracking","volume":"154","author":"Zhang","year":"2024","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.neunet.2026.108824_bib0053","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.108067","article-title":"TATrack: Target-oriented adaptive vision transformer for UAV tracking","volume":"193","author":"Zhang","year":"2026","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108824_bib0054","series-title":"AAAI","first-page":"7588","article-title":"Odtrack: Online dense temporal token learning for visual tracking","volume":"vol. 38","author":"Zheng","year":"2024"},{"key":"10.1016\/j.neunet.2026.108824_bib0055","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107985","article-title":"Spd-updater: Symmetric positive definite manifold geometry based temporal updating for visual object tracking","volume":"193","author":"Zhou","year":"2026","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108824_bib0056","series-title":"ICML","article-title":"Vision mamba: Efficient visual representation learning with bidirectional state space model","author":"Zhu","year":"2024"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026002868?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026002868?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T16:36:59Z","timestamp":1776184619000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608026002868"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,8]]},"references-count":56,"alternative-id":["S0893608026002868"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108824","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2026,8]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"LoongTrack: Exploring long-sequence modeling for visual tracking","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108824","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"108824"}}