{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,27]],"date-time":"2025-10-27T15:23:12Z","timestamp":1761578592859},"reference-count":54,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2015,6,1]],"date-time":"2015-06-01T00:00:00Z","timestamp":1433116800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Computer Vision and Image Understanding"],"published-print":{"date-parts":[[2015,6]]},"DOI":"10.1016\/j.cviu.2015.02.012","type":"journal-article","created":{"date-parts":[[2015,3,5]],"date-time":"2015-03-05T04:44:41Z","timestamp":1425530681000},"page":"16-30","update-policy":"http:\/\/dx.doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":28,"special_numbering":"C","title":["Discriminative key-component models for interaction detection and recognition"],"prefix":"10.1016","volume":"135","author":[{"given":"Yasaman S.","family":"Sefidgar","sequence":"first","affiliation":[]},{"given":"Arash","family":"Vahdat","sequence":"additional","affiliation":[]},{"given":"Stephen","family":"Se","sequence":"additional","affiliation":[]},{"given":"Greg","family":"Mori","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"2","key":"10.1016\/j.cviu.2015.02.012_b0005","first-page":"16:1","article-title":"Human activity analysis: a review","volume":"43","author":"Aggarwal","year":"2011","journal-title":"ACM Comput. Surv."},{"key":"10.1016\/j.cviu.2015.02.012_b0010","doi-asserted-by":"crossref","unstructured":"M.R. Amer, D. Xie, M. Zhao, S. Todorovic, S.-C. Zhu, Cost-sensitive top-down\/bottom-up inference for multiscale activity recognition, in: European Conference on Computer Vision, 2012.","DOI":"10.1007\/978-3-642-33765-9_14"},{"issue":"8","key":"10.1016\/j.cviu.2015.02.012_b0015","doi-asserted-by":"crossref","first-page":"1619","DOI":"10.1109\/TPAMI.2010.226","article-title":"Robust object tracking with online multiple instance learning","volume":"33","author":"Babenko","year":"2011","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.cviu.2015.02.012_b0020","doi-asserted-by":"crossref","unstructured":"W. Brendel, S. Todorovic, Activities as time series of human postures, in: European Conference on Computer Vision, 2010.","DOI":"10.1007\/978-3-642-15552-9_52"},{"issue":"3","key":"10.1016\/j.cviu.2015.02.012_b0025","doi-asserted-by":"crossref","first-page":"27:1","DOI":"10.1145\/1961189.1961199","article-title":"LIBSVM: a library for support vector machines","volume":"2","author":"Chang","year":"2011","journal-title":"ACM Trans. Intell. Syst. Technol."},{"key":"10.1016\/j.cviu.2015.02.012_b0030","doi-asserted-by":"crossref","unstructured":"W. Choi, S. Savarese, A unified framework for multi-target tracking and collective activity recognition, in: European Conference on Computer Vision, 2012.","DOI":"10.1007\/978-3-642-33765-9_16"},{"key":"10.1016\/j.cviu.2015.02.012_b0035","unstructured":"N. Dalal, B. Triggs, Histograms of oriented gradients for human detection, in: Computer Vision and Pattern Recognition, 2005."},{"key":"10.1016\/j.cviu.2015.02.012_b0040","doi-asserted-by":"crossref","unstructured":"N. Dalal, B. Triggs, C. Schmid, Human detection using oriented histograms of flow and appearance, in: European Conference on Computer Vision, 2006.","DOI":"10.1007\/11744047_33"},{"key":"10.1016\/j.cviu.2015.02.012_b0045","doi-asserted-by":"crossref","unstructured":"C. Desai, D. Ramanan, C. Fowlkes, Discriminative models for multi-class object layout, in: International Conference on Computer Vision, 2009.","DOI":"10.1109\/ICCV.2009.5459256"},{"key":"10.1016\/j.cviu.2015.02.012_b0050","doi-asserted-by":"crossref","unstructured":"T.M.T. Do, T. Arti\u00e8res, Large margin training for hidden markov models with partially observed states, in: International Conference on Machine Learning, 2009.","DOI":"10.1145\/1553374.1553408"},{"key":"10.1016\/j.cviu.2015.02.012_b0055","doi-asserted-by":"crossref","unstructured":"A. Efros, A. Berg, G. Mori, J. Malik, Recognizing action at a distance, in: International Conference on Computer Vision, 2003.","DOI":"10.1109\/ICCV.2003.1238420"},{"key":"10.1016\/j.cviu.2015.02.012_b0060","unstructured":"M. Everingham, VGG K-means, 2003. <http:\/\/www.robots.ox.ac.uk\/vgg\/software>."},{"key":"10.1016\/j.cviu.2015.02.012_b0065","first-page":"1871","article-title":"LIBLINEAR: a library for large linear classification","volume":"9","author":"Fan","year":"2008","journal-title":"J. Mach. Learn. Res."},{"issue":"9","key":"10.1016\/j.cviu.2015.02.012_b0070","doi-asserted-by":"crossref","first-page":"1627","DOI":"10.1109\/TPAMI.2009.167","article-title":"Object detection with discriminatively trained part based models","volume":"32","author":"Felzenszwalb","year":"2010","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"10","key":"10.1016\/j.cviu.2015.02.012_b0075","doi-asserted-by":"crossref","first-page":"1775","DOI":"10.1109\/TPAMI.2009.83","article-title":"Observing human\u2013object interactions: using spatial and functional compatibility for recognition","volume":"31","author":"Gupta","year":"2009","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"3","key":"10.1016\/j.cviu.2015.02.012_b0080","doi-asserted-by":"crossref","first-page":"414","DOI":"10.1006\/cviu.2000.0896","article-title":"Recognizing planned, multiperson action","volume":"81","author":"Intille","year":"2001","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.cviu.2015.02.012_b0085","doi-asserted-by":"crossref","unstructured":"Y. Ke, R. Sukthankar, M. Hebert, Event detection in crowded videos, in: International Conference on Computer Vision, 2007.","DOI":"10.1109\/ICCV.2007.4409011"},{"key":"10.1016\/j.cviu.2015.02.012_b0090","doi-asserted-by":"crossref","unstructured":"S. Khamis, V.I. Morariu, L.S. Davis, Combining per-frame and per-track cues for multi-person action recognition, in: European Conference on Computer Vision, 2012.","DOI":"10.1007\/978-3-642-33718-5_9"},{"key":"10.1016\/j.cviu.2015.02.012_b0095","unstructured":"Kitware, 2011. Data Release 2.0 Description. <http:\/\/www.viratdata.org>."},{"issue":"1","key":"10.1016\/j.cviu.2015.02.012_b0100","doi-asserted-by":"crossref","first-page":"81","DOI":"10.1016\/j.cviu.2010.08.002","article-title":"Visual object-action recognition: inferring object affordances from human demonstration","volume":"115","author":"Kjellstrm","year":"2011","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.cviu.2015.02.012_b0105","doi-asserted-by":"crossref","unstructured":"A. Kl\u00e4ser, M. Marsza\u0142ek, C. Schmid, A spatio-temporal descriptor based on 3D-gradients, in: British Machine Vision Conference, 2008.","DOI":"10.5244\/C.22.99"},{"key":"10.1016\/j.cviu.2015.02.012_b0110","doi-asserted-by":"crossref","unstructured":"Y. Kong, Y. Jia, Y. Fu, Learning human interaction by interactive phrases, in: European Conference on Computer Vision, 2012.","DOI":"10.1007\/978-3-642-33718-5_22"},{"issue":"8","key":"10.1016\/j.cviu.2015.02.012_b0115","doi-asserted-by":"crossref","first-page":"951","DOI":"10.1177\/0278364913478446","article-title":"Learning human activities and object affordances from rgb-d videos","volume":"32","author":"Koppula","year":"2013","journal-title":"Int. J. Robot. Res."},{"key":"10.1016\/j.cviu.2015.02.012_b0120","doi-asserted-by":"crossref","unstructured":"A. Kovashka, K. Grauman, Learning a hierarchy of discriminative space-time neighborhood features for human action recognition, in: Computer Vision and Pattern Recognition, 2010.","DOI":"10.1109\/CVPR.2010.5539881"},{"issue":"8","key":"10.1016\/j.cviu.2015.02.012_b0125","doi-asserted-by":"crossref","first-page":"1549","DOI":"10.1109\/TPAMI.2011.228","article-title":"Discriminative latent models for recognizing contextual group activities","volume":"34","author":"Lan","year":"2012","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"7","key":"10.1016\/j.cviu.2015.02.012_b0130","doi-asserted-by":"crossref","first-page":"1294","DOI":"10.1109\/TPAMI.2008.138","article-title":"Supervised learning of quantizer codebooks by information loss minimization","volume":"31","author":"Lazebnik","year":"2009","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.cviu.2015.02.012_b0135","unstructured":"F.J. Lv, R. Nevatia, Single view human action recognition using key pose matching and viterbi path searching, in: Computer Vision and Pattern Recognition, 2007."},{"key":"10.1016\/j.cviu.2015.02.012_b0140","doi-asserted-by":"crossref","unstructured":"M. Marsza\u0142ek, I. Laptev, C. Schmid, Actions in context, in: Computer Vision and Pattern Recognition, 2009.","DOI":"10.1109\/CVPRW.2009.5206557"},{"key":"10.1016\/j.cviu.2015.02.012_b0145","doi-asserted-by":"crossref","unstructured":"J.C. Niebles, C.-W. Chen, L. Fei-Fei, Modeling temporal structure of decomposable motion segments for activity classification, in: European Conference on Computer Vision, 2010.","DOI":"10.1007\/978-3-642-15552-9_29"},{"key":"10.1016\/j.cviu.2015.02.012_b0150","doi-asserted-by":"crossref","unstructured":"J.C. Niebles, H. Wang, L. Fei-Fei, Unsupervised learning of human action categories using spatial-temporal words, in: British Machine Vision Conference, 2006.","DOI":"10.5244\/C.20.127"},{"key":"10.1016\/j.cviu.2015.02.012_b0155","doi-asserted-by":"crossref","unstructured":"S. Oh, A. Hoogs, A. Perera, N. Cuntoor, C.-C. Chen, J.T. Lee, S. Mukherjee, J. Aggarwal, H. Lee, L. Davis, et al., A large-scale benchmark dataset for event recognition in surveillance video, in: Computer Vision and Pattern Recognition, 2011.","DOI":"10.1109\/AVSS.2011.6027400"},{"key":"10.1016\/j.cviu.2015.02.012_b0160","doi-asserted-by":"crossref","unstructured":"J. Philbin, O. Chum, M. Isard, J. Sivic, A. Zisserman, Lost in quantization: improving particular object retrieval in large scale image databases, in: Computer Vision and Pattern Recognition, 2008.","DOI":"10.1109\/CVPR.2008.4587635"},{"key":"10.1016\/j.cviu.2015.02.012_b0165","doi-asserted-by":"crossref","unstructured":"A. Pieropan, C.H. Ek, H. Kjellstrom, Functional object descriptors for human activity modeling, in: International Conference on Robotics and Automation, 2013.","DOI":"10.1109\/ICRA.2013.6630736"},{"issue":"6","key":"10.1016\/j.cviu.2015.02.012_b0170","doi-asserted-by":"crossref","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","article-title":"A survey on vision-based human action recognition","volume":"28","author":"Poppe","year":"2010","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.cviu.2015.02.012_b0175","doi-asserted-by":"crossref","unstructured":"M. Raptis, L. Sigal, Poselet key-framing: a model for human activity recognition, in: Computer Vision and Pattern Recognition, 2013.","DOI":"10.1109\/CVPR.2013.342"},{"issue":"1-3","key":"10.1016\/j.cviu.2015.02.012_b0180","doi-asserted-by":"crossref","first-page":"125","DOI":"10.1007\/s11263-007-0075-7","article-title":"Incremental learning for robust visual tracking","volume":"77","author":"Ross","year":"2008","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.cviu.2015.02.012_b0185","doi-asserted-by":"crossref","unstructured":"M. Ryoo, Human activity prediction: early recognition of ongoing activities from streaming videos, in: International Conference on Computer Vision, 2011.","DOI":"10.1109\/ICCV.2011.6126349"},{"key":"10.1016\/j.cviu.2015.02.012_b0190","doi-asserted-by":"crossref","unstructured":"M. Ryoo, J. Aggarwal, Spatio-temporal relationship match: video structure comparison for recognition of complex human activities, in: International Conference on Computer Vision, 2009.","DOI":"10.1109\/ICCV.2009.5459361"},{"key":"10.1016\/j.cviu.2015.02.012_b0195","doi-asserted-by":"crossref","unstructured":"M. Ryoo, J. Aggarwal, UT-Interaction Dataset, ICPR Contest on Semantic Description of Human Activities (SDHA), 2010. <http:\/\/cvrc.ece.utexas.edu\/SDHA2010\/Human_Interaction.html>.","DOI":"10.1007\/978-3-642-17711-8_28"},{"key":"10.1016\/j.cviu.2015.02.012_b0200","doi-asserted-by":"crossref","unstructured":"C. Sch\u00fcldt, I. Laptev, B. Caputo, Recognizing human actions: a local SVM approach, in: International Conference on Pattern Recognition, 2004.","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"10.1016\/j.cviu.2015.02.012_b0205","doi-asserted-by":"crossref","unstructured":"K. Tang, L. Fei-Fei, D. Koller, Learning latent temporal structure for complex event detection, in: Computer Vision and Pattern Recognition, 2012.","DOI":"10.1109\/CVPR.2012.6247808"},{"key":"10.1016\/j.cviu.2015.02.012_b0210","doi-asserted-by":"crossref","unstructured":"Y. Tian, R. Sukthankar, M. Shah, Spatiotemporal deformable part models for action detection, in: Computer Vision and Pattern Recognition, 2013.","DOI":"10.1109\/CVPR.2013.341"},{"key":"10.1016\/j.cviu.2015.02.012_b0215","doi-asserted-by":"crossref","unstructured":"A. Vahdat, B. Gao, M. Ranjbar, G. Mori, A discriminative key pose sequence model for recognizing human interactions, in: IEEE International Workshop on Visual Surveillance, 2011.","DOI":"10.1109\/ICCVW.2011.6130458"},{"key":"10.1016\/j.cviu.2015.02.012_b0220","unstructured":"A. Vedaldi, B. Fulkerson, VLFeat: An Open and Portable Library of Computer Vision Algorithms, 2008. <http:\/\/www.vlfeat.org\/>."},{"issue":"3","key":"10.1016\/j.cviu.2015.02.012_b0225","doi-asserted-by":"crossref","first-page":"480","DOI":"10.1109\/TPAMI.2011.153","article-title":"Efficient additive kernels via explicit feature maps","volume":"34","author":"Vedaldi","year":"2011","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"10","key":"10.1016\/j.cviu.2015.02.012_b0230","doi-asserted-by":"crossref","first-page":"1762","DOI":"10.1109\/TPAMI.2009.43","article-title":"Human action recognition by semi-latent topic models","volume":"31","author":"Wang","year":"2009","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell. Spec. Issue Probabilist. Graph. Models Comput. Vis."},{"issue":"7","key":"10.1016\/j.cviu.2015.02.012_b0235","doi-asserted-by":"crossref","first-page":"1310","DOI":"10.1109\/TPAMI.2010.214","article-title":"Hidden part models for human action recognition: probabilistic vs. max-margin","volume":"33","author":"Wang","year":"2011","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"2","key":"10.1016\/j.cviu.2015.02.012_b0240","doi-asserted-by":"crossref","first-page":"224","DOI":"10.1016\/j.cviu.2010.10.002","article-title":"A survey of vision-based methods for action representation, segmentation and recognition","volume":"115","author":"Weinland","year":"2011","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.cviu.2015.02.012_b0245","unstructured":"D. Xie, S. Todorovi, S.C. Zhu, Inferring \u201cdark matter\u201d and \u201cdark energy\u201d from videos, in: International Conference on Computer Vision, 2013."},{"key":"10.1016\/j.cviu.2015.02.012_b0250","unstructured":"J. Yamato, J. Ohya, K. Ishii, Recognizing human action in time-sequential images using hidden markov model, in: Computer Vision and Pattern Recognition, 1992."},{"key":"10.1016\/j.cviu.2015.02.012_b0255","doi-asserted-by":"crossref","unstructured":"A. Yao, J. Gall, L.V. Gool, A hough transform-based voting framework for action recognition, in: Computer Vision and Pattern Recognition, 2010.","DOI":"10.1109\/CVPR.2010.5539883"},{"key":"10.1016\/j.cviu.2015.02.012_b0260","doi-asserted-by":"crossref","unstructured":"T.-H. Yu, T.-K. Kim, R. Cipolla, Real-time action recognition by spatiotemporal semantic and structural forest, in: British Machine Vision Conference, 2010.","DOI":"10.5244\/C.24.52"},{"key":"10.1016\/j.cviu.2015.02.012_b0265","doi-asserted-by":"crossref","unstructured":"Y. Zhang, X. Liu, M.-C. Chang, W. Ge, T. Chen, Spatio-temporal phrases for activity recognition, in: European Conference on Computer Vision, 2012.","DOI":"10.1007\/978-3-642-33712-3_51"},{"key":"10.1016\/j.cviu.2015.02.012_b0270","doi-asserted-by":"crossref","unstructured":"Y. Zhu, N.M. Nayak, A.K. Roy-Chowdhury, Context-aware modeling and recognition of activities in video, in: Computer Vision and Pattern Recognition, 2013.","DOI":"10.1109\/CVPR.2013.322"}],"container-title":["Computer Vision and Image Understanding"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1077314215000466?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1077314215000466?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2019,8,21]],"date-time":"2019-08-21T17:25:58Z","timestamp":1566408358000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1077314215000466"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,6]]},"references-count":54,"alternative-id":["S1077314215000466"],"URL":"https:\/\/doi.org\/10.1016\/j.cviu.2015.02.012","relation":{},"ISSN":["1077-3142"],"issn-type":[{"value":"1077-3142","type":"print"}],"subject":[],"published":{"date-parts":[[2015,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Discriminative key-component models for interaction detection and recognition","name":"articletitle","label":"Article Title"},{"value":"Computer Vision and Image Understanding","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.cviu.2015.02.012","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"Copyright \u00a9 2015 Elsevier Inc. All rights reserved.","name":"copyright","label":"Copyright"}]}}