{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T18:24:30Z","timestamp":1772907870477,"version":"3.50.1"},"reference-count":57,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,1]],"date-time":"2024-05-01T00:00:00Z","timestamp":1714521600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2024,5]]},"DOI":"10.1016\/j.neunet.2024.106216","type":"journal-article","created":{"date-parts":[[2024,2,27]],"date-time":"2024-02-27T16:31:05Z","timestamp":1709051465000},"page":"106216","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":6,"special_numbering":"C","title":["Graph-based social relation inference with multi-level conditional attention"],"prefix":"10.1016","volume":"173","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8428-4650","authenticated-orcid":false,"given":"Xiaotian","family":"Yu","sequence":"first","affiliation":[]},{"given":"Hanling","family":"Yi","sequence":"additional","affiliation":[]},{"given":"Qie","family":"Tang","sequence":"additional","affiliation":[]},{"given":"Kun","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Wenze","family":"Hu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9053-9314","authenticated-orcid":false,"given":"Shiliang","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6431-8822","authenticated-orcid":false,"given":"Xiaoyu","family":"Wang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2024.106216_b1","doi-asserted-by":"crossref","unstructured":"Alahi, A., Goel, K., Ramanathan, V., Robicquet, A., Fei-Fei, L., & Savarese, S. (2016). Social lstm: Human trajectory prediction in crowded spaces. In IEEE conference on computer vision and pattern recognition (pp. 961\u2013971).","DOI":"10.1109\/CVPR.2016.110"},{"issue":"8","key":"10.1016\/j.neunet.2024.106216_b2","doi-asserted-by":"crossref","first-page":"1707","DOI":"10.1109\/TPAMI.2015.2496269","article-title":"SALSA: A novel dataset for multimodal group behavior analysis","volume":"38","author":"Alameda-Pineda","year":"2016","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b3","doi-asserted-by":"crossref","DOI":"10.1109\/TPAMI.2021.3080635","article-title":"Line graph neural networks for link prediction","author":"Cai","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b4","doi-asserted-by":"crossref","unstructured":"Chen, X., & Lawrence Zitnick, C. (2015). Mind\u2019s eye: A recurrent visual representation for image caption generation. In IEEE conference on computer vision and pattern recognition (pp. 2422\u20132431).","DOI":"10.1109\/CVPR.2015.7298856"},{"key":"10.1016\/j.neunet.2024.106216_b5","first-page":"3","article-title":"Twins: Revisiting the design of spatial attention in vision transformers","volume":"vol. 1","author":"Chu","year":"2021"},{"key":"10.1016\/j.neunet.2024.106216_b6","article-title":"Convolutional neural networks on graphs with fast localized spectral filtering","volume":"vol. 29","author":"Defferrard","year":"2016"},{"key":"10.1016\/j.neunet.2024.106216_b7","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., et al. (2020). An Image is Worth 16 \u00d7 16 Words: Transformers for Image Recognition at Scale. In International conference on learning representations."},{"key":"10.1016\/j.neunet.2024.106216_b8","first-page":"50","article-title":"Benchmarking graph neural networks","volume":"12","author":"Dwivedi","year":"2020","journal-title":"TSP"},{"issue":"2","key":"10.1016\/j.neunet.2024.106216_b9","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","article-title":"The pascal visual object classes (voc) challenge","volume":"88","author":"Everingham","year":"2010","journal-title":"International Journal of Computer Vision"},{"key":"10.1016\/j.neunet.2024.106216_b10","first-page":"1","article-title":"Heterogeneous hypergraph variational autoencoder for link prediction","author":"Fan","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b11","doi-asserted-by":"crossref","unstructured":"Goel, A., Ma, K. T., & Tan, C. (2019). An end-to-end network for generating social relationship graphs. In IEEE conference on computer vision and pattern recognition (pp. 11186\u201311195).","DOI":"10.1109\/CVPR.2019.01144"},{"key":"10.1016\/j.neunet.2024.106216_b12","first-page":"729","article-title":"A new model for learning in graph domains","volume":"vol. 2","author":"Gori","year":"2005"},{"issue":"1","key":"10.1016\/j.neunet.2024.106216_b13","doi-asserted-by":"crossref","first-page":"37","DOI":"10.1207\/S15327698JFC0101_06","article-title":"Facial expressions during marital conflict","volume":"1","author":"Gottman","year":"2001","journal-title":"Journal of Family Communication"},{"key":"10.1016\/j.neunet.2024.106216_b14","article-title":"Towards accurate and compact architectures via neural architecture transformer","author":"Guo","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b15","article-title":"Inductive representation learning on large graphs","volume":"vol. 30","author":"Hamilton","year":"2017"},{"key":"10.1016\/j.neunet.2024.106216_b16","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1109\/TPAMI.2022.3215150","article-title":"A survey on vision transformer","author":"Han","year":"2022","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b17","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In IEEE conference on computer vision and pattern recognition (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"issue":"4","key":"10.1016\/j.neunet.2024.106216_b18","doi-asserted-by":"crossref","first-page":"265","DOI":"10.1023\/A:1006623213355","article-title":"The influence of facial emotion displays, gender, and ethnicity on judgments of dominance and affiliation","volume":"24","author":"Hess","year":"2000","journal-title":"Journal of Nonverbal behavior"},{"key":"10.1016\/j.neunet.2024.106216_b19","doi-asserted-by":"crossref","unstructured":"Hoai, M., & Zisserman, A. (2014). Talking heads: Detecting humans and recognizing their interactions. In IEEE conference on computer vision and pattern recognition (pp. 875\u2013882).","DOI":"10.1109\/CVPR.2014.117"},{"key":"10.1016\/j.neunet.2024.106216_b20","article-title":"EdgeNets: Edge varying graph neural networks","author":"Isufi","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b21","article-title":"Co-embedding of nodes and edges with graph neural networks","author":"Jiang","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b22","doi-asserted-by":"crossref","unstructured":"Kim, B., Lee, J., Kang, J., Kim, E. S., & Kim, H. J. (2021). HOTR: End-to-End Human-Object Interaction Detection with Transformers. In IEEE conference on computer vision and pattern recognition (pp. 74\u201383).","DOI":"10.1109\/CVPR46437.2021.00014"},{"key":"10.1016\/j.neunet.2024.106216_b23","article-title":"Dense relational image captioning via multi-task triple-stream networks","author":"Kim","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b24","unstructured":"Kipf, T. N., & Welling, M. (2017). Semi-Supervised Classification with Graph Convolutional Networks. In International conference on learning representations."},{"key":"10.1016\/j.neunet.2024.106216_b25","doi-asserted-by":"crossref","first-page":"113","DOI":"10.7551\/mitpress\/2242.003.0010","article-title":"The pursuit of happiness and the realization of sympathy: Cultural patterns of self, social relations, and well-being","volume":"1","author":"Kitayama","year":"2000","journal-title":"Culture and Subjective Well-being"},{"key":"10.1016\/j.neunet.2024.106216_b26","doi-asserted-by":"crossref","unstructured":"LeCun, Y., Kavukcuoglu, K., & Farabet, C. (2010). Convolutional networks and applications in vision. In Proceedings of 2010 IEEE international symposium on circuits and systems (pp. 253\u2013256).","DOI":"10.1109\/ISCAS.2010.5537907"},{"issue":"1","key":"10.1016\/j.neunet.2024.106216_b27","doi-asserted-by":"crossref","first-page":"97","DOI":"10.1109\/TSP.2018.2879624","article-title":"Cayleynets: Graph convolutional neural networks with complex rational spectral filters","volume":"67","author":"Levie","year":"2018","journal-title":"IEEE Transactions on Signal Processing"},{"key":"10.1016\/j.neunet.2024.106216_b28","series-title":"European conference on computer vision","first-page":"18","article-title":"Graph-based social relation reasoning","author":"Li","year":"2020"},{"key":"10.1016\/j.neunet.2024.106216_b29","first-page":"1","article-title":"HF-SRGR: a new hybrid feature-driven social relation graph reasoning model","author":"Li","year":"2021","journal-title":"The Visual Computer"},{"key":"10.1016\/j.neunet.2024.106216_b30","doi-asserted-by":"crossref","unstructured":"Li, J., Wong, Y., Zhao, Q., & Kankanhalli, M. S. (2017). Dual-glance model for deciphering social relationships. In IEEE international conference on computer vision (pp. 2650\u20132659).","DOI":"10.1109\/ICCV.2017.289"},{"key":"10.1016\/j.neunet.2024.106216_b31","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., et al. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"10.1016\/j.neunet.2024.106216_b32","series-title":"2019 IEEE\/CVF conference on computer vision and pattern recognition","first-page":"3561","article-title":"Social relation recognition from videos via multi-scale spatial-temporal reasoning","author":"Liu","year":"2019"},{"key":"10.1016\/j.neunet.2024.106216_b33","article-title":"Non-local graph neural networks","author":"Liu","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b34","article-title":"Multiple trajectory prediction of moving agents with memory augmented networks","author":"Marchetti","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b35","doi-asserted-by":"crossref","DOI":"10.1109\/TPAMI.2021.3104733","article-title":"A simple spectral failure mode for graph convolutional networks","author":"Priebe","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b36","doi-asserted-by":"crossref","first-page":"8116","DOI":"10.1109\/TIP.2021.3113114","article-title":"Action anticipation using pairwise human-object interactions and transformers","volume":"30","author":"Roy","year":"2021","journal-title":"IEEE Transactions on Image Processing"},{"issue":"1","key":"10.1016\/j.neunet.2024.106216_b37","doi-asserted-by":"crossref","first-page":"61","DOI":"10.1109\/TNN.2008.2005605","article-title":"The graph neural network model","volume":"20","author":"Scarselli","year":"2008","journal-title":"IEEE Transactions on Neural Networks"},{"issue":"3","key":"10.1016\/j.neunet.2024.106216_b38","doi-asserted-by":"crossref","first-page":"714","DOI":"10.1109\/72.572108","article-title":"Supervised neural networks for the classification of structures","volume":"8","author":"Sperduti","year":"1997","journal-title":"IEEE Transactions on Neural Networks"},{"key":"10.1016\/j.neunet.2024.106216_b39","first-page":"1","article-title":"From show to tell: A survey on deep learning-based image captioning","author":"Stefanini","year":"2022","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b40","doi-asserted-by":"crossref","unstructured":"Sun, Q., Schiele, B., & Fritz, M. (2017). A domain based approach to social relation recognition. In IEEE conference on computer vision and pattern recognition (pp. 3481\u20133490).","DOI":"10.1109\/CVPR.2017.54"},{"key":"10.1016\/j.neunet.2024.106216_b41","unstructured":"Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to sequence learning with neural networks. In Annual conference on neural information processing systems (pp. 3104\u20133112)."},{"key":"10.1016\/j.neunet.2024.106216_b42","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need. In Annual conference on neural information processing systems (pp. 5998\u20136008)."},{"key":"10.1016\/j.neunet.2024.106216_b43","unstructured":"Veli\u010dkovi\u0107, P., Cucurull, G., Casanova, A., Romero, A., Li\u00f2, P., & Bengio, Y. (2018). Graph Attention Networks. In International conference on learning representations."},{"key":"10.1016\/j.neunet.2024.106216_b44","first-page":"13916","article-title":"FL-MSRE: A few-shot learning based approach to multimodal social relation extraction","volume":"vol. 35","author":"Wan","year":"2021"},{"key":"10.1016\/j.neunet.2024.106216_b45","doi-asserted-by":"crossref","DOI":"10.1109\/TPAMI.2021.3070341","article-title":"Spatial transformer for 3D point clouds","author":"Wang","year":"2021","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b46","doi-asserted-by":"crossref","unstructured":"Wang, Z., Chen, T., Ren, J., Yu, W., Cheng, H., & Lin, L. (2018). Deep reasoning with knowledge graph for social relationship understanding. In International joint conferences on artificial intelligence (pp. 1021\u20131028).","DOI":"10.24963\/ijcai.2018\/142"},{"key":"10.1016\/j.neunet.2024.106216_b47","series-title":"European conference on computer vision","first-page":"169","article-title":"Seeing people in social context: Recognizing people and social relationships","author":"Wang","year":"2010"},{"key":"10.1016\/j.neunet.2024.106216_b48","doi-asserted-by":"crossref","unstructured":"Wang, W., Xie, E., Li, X., Fan, D. P., Song, K., Liang, D., et al. (2021). Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In IEEE international conference on computer vision.","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"10.1016\/j.neunet.2024.106216_b49","article-title":"Combinatorial learning of robust deep graph matching: an embedding based approach","author":"Wang","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b50","article-title":"HiGCIN: Hierarchical graph-based cross inference network for group activity recognition","author":"Yan","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b51","doi-asserted-by":"crossref","DOI":"10.1109\/TPAMI.2020.3042192","article-title":"Auto-encoding and distilling scene graphs for image captioning","author":"Yang","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2024.106216_b52","doi-asserted-by":"crossref","unstructured":"Zhang, M., Liu, X., Liu, W., Zhou, A., Ma, H., & Mei, T. (2019). Multi-Granularity Reasoning for Social Relation Recognition from Images. In International conference on multimedia and expo (pp. 1618\u20131623).","DOI":"10.1109\/ICME.2019.00279"},{"key":"10.1016\/j.neunet.2024.106216_b53","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Luo, P., Loy, C. C., & Tang, X. (2015). Learning social relation traits from face images. In IEEE international conference on computer vision (pp. 3631\u20133639).","DOI":"10.1109\/ICCV.2015.414"},{"key":"10.1016\/j.neunet.2024.106216_b54","doi-asserted-by":"crossref","unstructured":"Zhang, N., Paluri, M., Taigman, Y., Fergus, R., & Bourdev, L. (2015). Beyond frontal faces: Improving person recognition using multiple cues. In IEEE conference on computer vision and pattern recognition (pp. 4804\u20134813).","DOI":"10.1109\/CVPR.2015.7299113"},{"key":"10.1016\/j.neunet.2024.106216_b55","first-page":"1","article-title":"Social-aware pedestrian trajectory prediction via states refinement LSTM","author":"Zhang","year":"2020","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"11","key":"10.1016\/j.neunet.2024.106216_b56","doi-asserted-by":"crossref","first-page":"2762","DOI":"10.1109\/TMM.2019.2912124","article-title":"Personalized recommendation of social images by constructing a user interest tree with deep features and tag trees","volume":"21","author":"Zhang","year":"2019","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.neunet.2024.106216_b57","doi-asserted-by":"crossref","unstructured":"Zou, C., Wang, B., Hu, Y., Liu, J., Wu, Q., Zhao, Y., et al. (2021). End-to-end human object interaction detection with hoi transformer. In IEEE conference on computer vision and pattern recognition (pp. 11825\u201311834).","DOI":"10.1109\/CVPR46437.2021.01165"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608024001400?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608024001400?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2024,7,13]],"date-time":"2024-07-13T13:08:08Z","timestamp":1720876088000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608024001400"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5]]},"references-count":57,"alternative-id":["S0893608024001400"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2024.106216","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2024,5]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Graph-based social relation inference with multi-level conditional attention","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2024.106216","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2024 Elsevier Ltd. All rights reserved.","name":"copyright","label":"Copyright"}],"article-number":"106216"}}