{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,8]],"date-time":"2026-03-08T03:50:38Z","timestamp":1772941838626,"version":"3.50.1"},"reference-count":53,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100017691","name":"Guangxi Key Research and Development Program","doi-asserted-by":"publisher","award":["AB24010317"],"award-info":[{"award-number":["AB24010317"]}],"id":[{"id":"10.13039\/501100017691","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Computer Vision and Image Understanding"],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1016\/j.cviu.2025.104483","type":"journal-article","created":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T01:55:30Z","timestamp":1755741330000},"page":"104483","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Optimizing ambiguous speech emotion recognition through spatial\u2013temporal parallel network with label correction strategy"],"prefix":"10.1016","volume":"260","author":[{"given":"Chenquan","family":"Gan","sequence":"first","affiliation":[]},{"given":"Daitao","family":"Zhou","sequence":"additional","affiliation":[]},{"given":"Kexin","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Qingyi","family":"Zhu","sequence":"additional","affiliation":[]},{"given":"Deepak Kumar","family":"Jain","sequence":"additional","affiliation":[]},{"given":"Vitomir","family":"\u0160truc","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.cviu.2025.104483_b1","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"6912","article-title":"LIGHT-SERNET: A lightweight fully convolutional neural network for speech emotion recognition","author":"Aftab","year":"2022"},{"key":"10.1016\/j.cviu.2025.104483_b2","series-title":"2018 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"4964","article-title":"Soft-target training with ambiguous emotional utterances for dnn-based speech emotion classification","author":"Ando","year":"2018"},{"key":"10.1016\/j.cviu.2025.104483_b3","doi-asserted-by":"crossref","unstructured":"Ando,\u00a0A., Masumura,\u00a0R., Kamiyama,\u00a0H., Kobashikawa,\u00a0S., Aono,\u00a0Y., 2019. Speech Emotion Recognition Based on Multi-Label Emotion Existence Model. In: INTERSPEECH. pp. 2818\u20132822.","DOI":"10.21437\/Interspeech.2019-2524"},{"key":"10.1016\/j.cviu.2025.104483_b4","series-title":"2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference","first-page":"519","article-title":"Speech emotion recognition using speech feature and word embedding","author":"Atmaja","year":"2019"},{"key":"10.1016\/j.cviu.2025.104483_b5","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","article-title":"IEMOCAP: Interactive emotional dyadic motion capture database","volume":"42","author":"Busso","year":"2008","journal-title":"Lang. Resour. Eval."},{"key":"10.1016\/j.cviu.2025.104483_b6","article-title":"Emotion detection based on infrared thermography: A review of machine learning and deep learning algorithms","author":"Calderon-Uribe","year":"2024","journal-title":"Infrared Phys. Technol."},{"key":"10.1016\/j.cviu.2025.104483_b7","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110200","article-title":"IIOF: Intra- and inter-feature orthogonal fusion of local and global features for music emotion recognition","volume":"148","author":"Chang","year":"2024","journal-title":"Pattern Recognit."},{"issue":"1","key":"10.1016\/j.cviu.2025.104483_b8","doi-asserted-by":"crossref","first-page":"68","DOI":"10.1109\/TCE.2021.3056421","article-title":"Real-time speech emotion analysis for smart home assistants","volume":"67","author":"Chatterjee","year":"2021","journal-title":"IEEE Trans. Consum. Electron."},{"key":"10.1016\/j.cviu.2025.104483_b9","doi-asserted-by":"crossref","first-page":"3592","DOI":"10.1109\/TASLP.2021.3129331","article-title":"Multimodal emotion recognition with temporal and semantic consistency","volume":"29","author":"Chen","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"10","key":"10.1016\/j.cviu.2025.104483_b10","doi-asserted-by":"crossref","first-page":"1440","DOI":"10.1109\/LSP.2018.2860246","article-title":"3-D convolutional recurrent neural networks with attention model for speech emotion recognition","volume":"25","author":"Chen","year":"2018","journal-title":"IEEE Signal Process. Lett."},{"key":"10.1016\/j.cviu.2025.104483_b11","series-title":"ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"5886","article-title":"Every rating matters: Joint learning of subjective labels and individual annotators for speech emotion classification","author":"Chou","year":"2019"},{"issue":"4","key":"10.1016\/j.cviu.2025.104483_b12","doi-asserted-by":"crossref","first-page":"993","DOI":"10.1109\/TCDS.2017.2783684","article-title":"Study of mechanisms of social interaction stimulation in autism spectrum disorder by assisted humanoid robot","volume":"10","author":"Del Coco","year":"2017","journal-title":"IEEE Trans. Cogn. Dev. Syst."},{"key":"10.1016\/j.cviu.2025.104483_b13","doi-asserted-by":"crossref","first-page":"1803","DOI":"10.1109\/TASLP.2022.3171965","article-title":"Isnet: Individual standardization network for speech emotion recognition","volume":"30","author":"Fan","year":"2022","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.cviu.2025.104483_b14","doi-asserted-by":"crossref","unstructured":"Fujioka,\u00a0T., Homma,\u00a0T., Nagamatsu,\u00a0K., 2020. Meta-Learning for Speech Emotion Recognition Considering Ambiguity of Emotion Labels. In: INTERSPEECH. pp. 2332\u20132336.","DOI":"10.21437\/Interspeech.2020-1082"},{"key":"10.1016\/j.cviu.2025.104483_b15","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.126623","article-title":"Speech emotion recognition via multiple fusion under spatial\u2013temporal parallel network","volume":"555","author":"Gan","year":"2023","journal-title":"Neurocomputing"},{"issue":"1","key":"10.1016\/j.cviu.2025.104483_b16","doi-asserted-by":"crossref","first-page":"2857","DOI":"10.1038\/s41467-025-58085-x","article-title":"A wearable obstacle avoidance device for visually impaired individuals with cross-modal learning","volume":"16","author":"Gao","year":"2025","journal-title":"Nat. Commun."},{"key":"10.1016\/j.cviu.2025.104483_b17","doi-asserted-by":"crossref","first-page":"218","DOI":"10.1109\/TASLP.2021.3133196","article-title":"Multi-view speech emotion recognition via collective relation construction","volume":"30","author":"Hou","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"16","key":"10.1016\/j.cviu.2025.104483_b18","doi-asserted-by":"crossref","first-page":"23745","DOI":"10.1007\/s11042-020-09874-7","article-title":"Deep learning approaches for speech emotion recognition: state of the art and research challenges","volume":"80","author":"Jahangir","year":"2021","journal-title":"Multimedia Tools Appl."},{"key":"10.1016\/j.cviu.2025.104483_b19","series-title":"Proceedings of Interspeech 2020","first-page":"4113","article-title":"Empirical interpretation of speech emotion perception with attention based model for speech emotion recognition","author":"Jalal","year":"2020"},{"key":"10.1016\/j.cviu.2025.104483_b20","first-page":"131","article-title":"Speech emotion recognition algorithm of intelligent robot based on ACO-SVM","volume":"6","author":"Kang","year":"2025","journal-title":"Int. J. Cogn. Comput. Eng."},{"issue":"1","key":"10.1016\/j.cviu.2025.104483_b21","article-title":"Speech recognition with deep learning","volume":"1854","author":"Khurana","year":"2021","journal-title":"J. Phys.: Conf. Ser."},{"key":"10.1016\/j.cviu.2025.104483_b22","series-title":"2018 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"5104","article-title":"Human-like emotion recognition: Multi-label learning from noisy labeled audio-visual expressive speech","author":"Kim","year":"2018"},{"key":"10.1016\/j.cviu.2025.104483_b23","series-title":"2020 25th International Conference on Pattern Recognition","first-page":"8766","article-title":"End-to-end triplet loss based emotion embedding system for speech emotion recognition","author":"Kumar","year":"2021"},{"key":"10.1016\/j.cviu.2025.104483_b24","doi-asserted-by":"crossref","DOI":"10.3389\/fpsyg.2021.678052","article-title":"Emotional expression in children with ASD: A pre-study on a two-group pre-post-test design comparing robot-based and computer-based training","volume":"12","author":"Lecciso","year":"2021","journal-title":"Front. Psychol."},{"key":"10.1016\/j.cviu.2025.104483_b25","series-title":"International Conference on Image Analysis and Processing","first-page":"233","article-title":"Improving colon carcinoma grading by advanced cnn models","author":"Leo","year":"2022"},{"key":"10.1016\/j.cviu.2025.104483_b26","doi-asserted-by":"crossref","DOI":"10.3389\/fcomp.2022.937433","article-title":"Machine vision for assistive technologies","volume":"4","author":"Leo","year":"2022","journal-title":"Front. Comput. Sci."},{"key":"10.1016\/j.cviu.2025.104483_b27","doi-asserted-by":"crossref","first-page":"3230","DOI":"10.1109\/TMM.2022.3157485","article-title":"Multi-label speech emotion recognition via inter-class difference loss under response residual network","volume":"25","author":"Li","year":"2023","journal-title":"IEEE Trans. Multimed."},{"issue":"4","key":"10.1016\/j.cviu.2025.104483_b28","doi-asserted-by":"crossref","first-page":"815","DOI":"10.1109\/TASLP.2019.2898816","article-title":"Curriculum learning for speech emotion recognition from crowdsourced labels","volume":"27","author":"Lotfian","year":"2019","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.cviu.2025.104483_b29","doi-asserted-by":"crossref","unstructured":"Mao,\u00a0S., Ching,\u00a0P.-C., Lee,\u00a0T., 2020. Emotion profile refinery for speech emotion classification. In: INTERSPEECH. pp. 531\u2013535.","DOI":"10.21437\/Interspeech.2020-1771"},{"key":"10.1016\/j.cviu.2025.104483_b30","doi-asserted-by":"crossref","first-page":"123","DOI":"10.1109\/TASLP.2021.3133195","article-title":"Enhancing segment-based speech emotion recognition by iterative self-learning","volume":"30","author":"Mao","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.cviu.2025.104483_b31","doi-asserted-by":"crossref","first-page":"21","DOI":"10.1016\/j.patrec.2021.01.018","article-title":"Speech emotion recognition via learning analogies","volume":"144","author":"Ntalampiras","year":"2021","journal-title":"Pattern Recognit. Lett."},{"issue":"1","key":"10.1016\/j.cviu.2025.104483_b32","first-page":"1009","article-title":"Using speaker-specific emotion representations in wav2vec 2.0-based modules for speech emotion recognition","volume":"77","author":"Park","year":"2023","journal-title":"Comput. Mater. Contin."},{"key":"10.1016\/j.cviu.2025.104483_b33","first-page":"8026","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume":"32","author":"Paszke","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.cviu.2025.104483_b34","doi-asserted-by":"crossref","first-page":"261","DOI":"10.1016\/j.neunet.2021.03.027","article-title":"Multi-resolution modulation-filtered cochleagram feature for LSTM-based dimensional emotion recognition from speech","volume":"140","author":"Peng","year":"2021","journal-title":"Neural Netw."},{"key":"10.1016\/j.cviu.2025.104483_b35","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108646","article-title":"Non-volume preserving-based fusion to group-level emotion recognition on crowd videos","volume":"128","author":"Quach","year":"2022","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.cviu.2025.104483_b36","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"6907","article-title":"Multi-lingual multi-task speech emotion recognition using wav2vec 2.0","author":"Sharma","year":"2022"},{"issue":"1","key":"10.1016\/j.cviu.2025.104483_b37","article-title":"A systematic review on emotion recognition by using machine learning approaches","volume":"2481","author":"Sharma","year":"2022","journal-title":"AIP Conf. Proc."},{"key":"10.1016\/j.cviu.2025.104483_b38","series-title":"2021 IEEE 8th Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering","first-page":"1","article-title":"A review on EEG based Emotion Analysis using Machine Learning approaches","author":"Sharma","year":"2021"},{"key":"10.1016\/j.cviu.2025.104483_b39","series-title":"2021 IEEE 8th Uttar Pradesh Section International Conference on Electrical, Electronics and Computer Engineering","first-page":"1","article-title":"Emotion Analysis for predicting the emotion labels using Machine Learning approaches","author":"Sharma","year":"2021"},{"key":"10.1016\/j.cviu.2025.104483_b40","first-page":"I\/317","article-title":"\u201cOf all things the measure is man\u201d automatic classification of emotions and inter-labeler consistency [speech-based emotion recognition]","volume":"vol. 1","author":"Steidl","year":"2005"},{"key":"10.1016\/j.cviu.2025.104483_b41","first-page":"1","article-title":"A review on emotion recognition from dialect speech using feature optimization and classification techniques","author":"Thimmaiah","year":"2024","journal-title":"Multimedia Tools Appl."},{"key":"10.1016\/j.cviu.2025.104483_b42","series-title":"Proceedings of the 31st International Conference on Neural Information Processing Systems","first-page":"6000","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"issue":"9","key":"10.1016\/j.cviu.2025.104483_b43","doi-asserted-by":"crossref","first-page":"3543","DOI":"10.3390\/app14093543","article-title":"Integrating large language models (LLMs) and deep representations of emotional features for the recognition and evaluation of emotions in spoken english","volume":"14","author":"Wang","year":"2024","journal-title":"Appl. Sci."},{"key":"10.1016\/j.cviu.2025.104483_b44","series-title":"ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"6264","article-title":"Progressive co-teaching for ambiguous speech emotion recognition","author":"Yin","year":"2021"},{"key":"10.1016\/j.cviu.2025.104483_b45","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110117","article-title":"MSA-GCN: Multiscale adaptive graph convolution network for gait emotion recognition","volume":"147","author":"Yin","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.cviu.2025.104483_b46","doi-asserted-by":"crossref","unstructured":"Yu,\u00a0Z., Xu,\u00a0X., Chen,\u00a0X., Yang,\u00a0D., 2019. Temporal Pyramid Pooling Convolutional Neural Network for Cover Song Identification. In: IJCAI. pp. 4846\u20134852.","DOI":"10.24963\/ijcai.2019\/673"},{"issue":"3","key":"10.1016\/j.cviu.2025.104483_b47","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3388790","article-title":"Driver emotion recognition for intelligent vehicles: A survey","volume":"53","author":"Zepf","year":"2020","journal-title":"ACM Comput. Surv."},{"key":"10.1016\/j.cviu.2025.104483_b48","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2021.107340","article-title":"Combining cross-modal knowledge transfer and semi-supervised learning for speech emotion recognition","volume":"229","author":"Zhang","year":"2021","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.cviu.2025.104483_b49","series-title":"2021 IEEE 4th International Conference on Computer and Communication Engineering Technology","first-page":"243","article-title":"Segment-level cross-modal knowledge transfer for speech sentiment analysis","author":"Zhang","year":"2021"},{"key":"10.1016\/j.cviu.2025.104483_b50","first-page":"5725","article-title":"F-similarity preservation loss for soft labels: A demonstration on cross-corpus speech emotion recognition","volume":"vol. 33","author":"Zhang","year":"2019"},{"key":"10.1016\/j.cviu.2025.104483_b51","first-page":"3331","article-title":"A lightweight model based on separable convolution for speech emotion recognition","volume":"vol. 11","author":"Zhong","year":"2020"},{"key":"10.1016\/j.cviu.2025.104483_b52","doi-asserted-by":"crossref","first-page":"695","DOI":"10.1109\/TASLP.2022.3145287","article-title":"Multi-classifier interactive learning for ambiguous speech emotion recognition","volume":"30","author":"Zhou","year":"2022","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.cviu.2025.104483_b53","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"7367","article-title":"Speech emotion recognition with co-attention based multi-level acoustic information","author":"Zou","year":"2022"}],"container-title":["Computer Vision and Image Understanding"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1077314225002061?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1077314225002061?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T11:18:16Z","timestamp":1772882296000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1077314225002061"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10]]},"references-count":53,"alternative-id":["S1077314225002061"],"URL":"https:\/\/doi.org\/10.1016\/j.cviu.2025.104483","relation":{},"ISSN":["1077-3142"],"issn-type":[{"value":"1077-3142","type":"print"}],"subject":[],"published":{"date-parts":[[2025,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Optimizing ambiguous speech emotion recognition through spatial\u2013temporal parallel network with label correction strategy","name":"articletitle","label":"Article Title"},{"value":"Computer Vision and Image Understanding","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.cviu.2025.104483","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier Inc. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"104483"}}