{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T21:03:46Z","timestamp":1772831026172,"version":"3.50.1"},"reference-count":36,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61836002"],"award-info":[{"award-number":["61836002"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62002090"],"award-info":[{"award-number":["62002090"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62072147"],"award-info":[{"award-number":["62072147"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004731","name":"Natural Science Foundation of Zhejiang Province","doi-asserted-by":"publisher","award":["LR22F020001"],"award-info":[{"award-number":["LR22F020001"]}],"id":[{"id":"10.13039\/501100004731","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2020YFB1406701"],"award-info":[{"award-number":["2020YFB1406701"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition Letters"],"published-print":{"date-parts":[[2022,1]]},"DOI":"10.1016\/j.patrec.2021.12.013","type":"journal-article","created":{"date-parts":[[2021,12,24]],"date-time":"2021-12-24T03:10:11Z","timestamp":1640315411000},"page":"200-206","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":8,"special_numbering":"C","title":["Deep relational self-Attention networks for scene graph generation"],"prefix":"10.1016","volume":"153","author":[{"given":"Ping","family":"Li","sequence":"first","affiliation":[]},{"given":"Zhou","family":"Yu","sequence":"additional","affiliation":[]},{"given":"Yibing","family":"Zhan","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.patrec.2021.12.013_bib0001","series-title":"Advances in neural information processing systems","first-page":"1097","article-title":"Imagenet classification with deep convolutional neural networks","author":"Krizhevsky","year":"2012"},{"key":"10.1016\/j.patrec.2021.12.013_bib0002","series-title":"IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.patrec.2021.12.013_bib0003","series-title":"Advances in Neural Information Processing Systems (NIPS)","first-page":"91","article-title":"Faster r-cnn: Towards real-time object detection with region proposal networks","author":"Ren","year":"2015"},{"key":"10.1016\/j.patrec.2021.12.013_bib0004","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"5831","article-title":"Neural motifs: Scene graph parsing with global context","author":"Zellers","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0005","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"5410","article-title":"Scene graph generation by iterative message passing","author":"Xu","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0006","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"6163","article-title":"Knowledge-embedded routing network for scene graph generation","author":"Chen","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0007","series-title":"European conference on computer vision","first-page":"852","article-title":"Visual relationship detection with language priors","author":"Lu","year":"2016"},{"key":"10.1016\/j.patrec.2021.12.013_bib0008","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"1974","article-title":"Visual relationship detection with internal and external linguistic knowledge distillation","author":"Yu","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0009","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"5128","article-title":"On exploring undetermined relationships for visual relationship detection","author":"Zhan","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0010","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"335","article-title":"Factorizable net: an efficient subgraph-based framework for scene graph generation","author":"Li","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0011","series-title":"Proceedings of the European conference on computer vision (ECCV)","first-page":"670","article-title":"Graph r-cnn for scene graph generation","author":"Yang","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0012","series-title":"Advances in neural information processing systems","first-page":"2171","article-title":"Pixels to graphs by associative embedding","author":"Newell","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0013","series-title":"Advances in Neural Information Processing Systems","first-page":"7211","article-title":"Mapping images to scene graphs with permutation-invariant structured prediction","author":"Herzig","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0014","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3957","article-title":"Attentive relational networks for mapping images to scene graphs","author":"Qi","year":"2019"},{"issue":"1","key":"10.1016\/j.patrec.2021.12.013_bib0015","doi-asserted-by":"crossref","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","article-title":"Visual genome: connecting language and vision using crowdsourced dense image annotations","volume":"123","author":"Krishna","year":"2017","journal-title":"International Journal of Computer Vision (IJCV)"},{"key":"10.1016\/j.patrec.2021.12.013_bib0016","series-title":"CVPR 2011","first-page":"1745","article-title":"Recognition using visual phrases","author":"Sadeghi","year":"2011"},{"key":"10.1016\/j.patrec.2021.12.013_bib0017","series-title":"Proceedings of the IEEE conference on computer vision and Pattern recognition","first-page":"3076","article-title":"Detecting visual relationships with deep relational networks","author":"Dai","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0018","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"5532","article-title":"Visual translation embedding network for visual relation detection","author":"Zhang","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0019","series-title":"Proceedings of the European Conference on Computer Vision (ECCV)","first-page":"322","article-title":"Zoom-net: Mining deep feature interactions for visual relationship recognition","author":"Yin","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0020","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"9185","article-title":"Large-scale visual relationship understanding","volume":"volume\u00a033","author":"Zhang","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0021","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"1347","article-title":"Vip-cnn: Visual phrase guided convolutional neural network","author":"Li","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0022","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"3716","article-title":"Unbiased scene graph generation from biased training","author":"Tang","year":"2020"},{"key":"10.1016\/j.patrec.2021.12.013_bib0023","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"11535","article-title":"Graphical contrastive losses for scene graph parsing","author":"Zhang","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0024","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"8188","article-title":"Exploring context and visual pattern of relationship for scene graph generation","author":"Wang","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0025","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"3736","article-title":"Weakly supervised visual semantic parsing","author":"Zareian","year":"2020"},{"key":"10.1016\/j.patrec.2021.12.013_bib0026","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"6619","article-title":"Learning to compose dynamic tree structures for visual contexts","author":"Tang","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0027","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"1261","article-title":"Scene graph generation from objects, phrases and region captions","author":"Li","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0028","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"3746","article-title":"Gps-net: Graph property sensing network for scene graph generation","author":"Lin","year":"2020"},{"key":"10.1016\/j.patrec.2021.12.013_bib0029","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"1969","article-title":"Scene graph generation with external knowledge and image reconstruction","author":"Gu","year":"2019"},{"key":"10.1016\/j.patrec.2021.12.013_bib0030","series-title":"Advances in Neural Information Processing Systems (NIPS)","first-page":"6000","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.patrec.2021.12.013_bib0031","article-title":"Layer normalization","author":"Ba","year":"2016","journal-title":"arXiv preprint arXiv:1607.06450"},{"key":"10.1016\/j.patrec.2021.12.013_bib0032","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3588","article-title":"Relation networks for object detection","author":"Hu","year":"2018"},{"key":"10.1016\/j.patrec.2021.12.013_bib0033","series-title":"Conference on Empirical Methods in Natural Language Processing (EMNLP)","first-page":"1532","article-title":"Glove: Global vectors for word representation","author":"Pennington","year":"2014"},{"key":"10.1016\/j.patrec.2021.12.013_bib34","series-title":"Proceedings of the 28th ACM International Conference on Multimedia","first-page":"3743","article-title":"Deep multimodal neural architecture search","author":"Yu","year":"2020"},{"issue":"12","key":"10.1016\/j.patrec.2021.12.013_bib35","doi-asserted-by":"crossref","first-page":"4467","DOI":"10.1109\/TCSVT.2019.2947482","article-title":"Multimodal transformer with multi-view visual representation for image captioning","volume":"30","author":"Yu","year":"2020","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.patrec.2021.12.013_bib36","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"6281","article-title":"Deep modular co-attention networks for visual question answering","author":"Yu","year":"2019"}],"container-title":["Pattern Recognition Letters"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S016786552100444X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S016786552100444X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,9,29]],"date-time":"2025-09-29T06:17:25Z","timestamp":1759126645000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S016786552100444X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1]]},"references-count":36,"alternative-id":["S016786552100444X"],"URL":"https:\/\/doi.org\/10.1016\/j.patrec.2021.12.013","relation":{},"ISSN":["0167-8655"],"issn-type":[{"value":"0167-8655","type":"print"}],"subject":[],"published":{"date-parts":[[2022,1]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Deep relational self-Attention networks for scene graph generation","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition Letters","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patrec.2021.12.013","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2021 Elsevier B.V. All rights reserved.","name":"copyright","label":"Copyright"}]}}