{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T16:01:28Z","timestamp":1778083288332,"version":"3.51.4"},"reference-count":63,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,6]]},"DOI":"10.1109\/cvpr52688.2022.00498","type":"proceedings-article","created":{"date-parts":[[2022,9,27]],"date-time":"2022-09-27T19:56:41Z","timestamp":1664308601000},"page":"5026-5035","source":"Crossref","is-referenced-by-count":117,"title":["Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions"],"prefix":"10.1109","author":[{"given":"Hongwei","family":"Xue","sequence":"first","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Tiankai","family":"Hang","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Yanhong","family":"Zeng","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Yuchong","family":"Sun","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Bei","family":"Liu","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Huan","family":"Yang","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Jianlong","family":"Fu","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]},{"given":"Baining","family":"Guo","sequence":"additional","affiliation":[{"name":"Microsoft Research Asia"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Supportset bottlenecks for video-text representation learning","author":"patrick","year":"2021","journal-title":"ICLRE"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00209"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0196391"},{"key":"ref32","article-title":"Use what you have: Video retrieval using represen-tations from collaborative experts","author":"liu","year":"2019","journal-title":"BMVC"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018658"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3323873.3325050"},{"key":"ref37","first-page":"2630","article-title":"Howto 100m: Learning a text-video embedding by watching hundred million narrated video clips","author":"miech","year":"2019","journal-title":"ICCV"},{"key":"ref36","article-title":"Learning a text - video embedding from incomplete and heterogeneous data","author":"miech","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"ref34","article-title":"Decoupled weight decay regularization","author":"loshchilov","year":"2019","journal-title":"ICLRE"},{"key":"ref60","article-title":"S3d: Single shot multi-span detector via fully 3d convolutional network","author":"zhang","year":"2018","journal-title":"BMVC"},{"key":"ref62","article-title":"Corso","author":"zhou","year":"2018","journal-title":"AAAI"},{"key":"ref61","article-title":"Learning semantic-aware normalization for generative adversarial networks","author":"zheng","year":"2020","journal-title":"NeurIPS"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00877"},{"key":"ref28","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","author":"li","year":"2021","journal-title":"NeurIPS"},{"key":"ref27","first-page":"7331","article-title":"Berg, Mohit Bansal, and Jingjing Liu","author":"lei","year":"2021","journal-title":"CVPR"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.161"},{"key":"ref2","first-page":"5803","article-title":"Localizing mo-ments in video with natural language","author":"hendricks","year":"2017","journal-title":"ICCV"},{"key":"ref1","article-title":"Youtube-8m: A large-scale video classification benchmark","author":"abu-ei-haija","year":"2016","journal-title":"ar Xiv p rep rint arXiv 1609 08675"},{"key":"ref20","article-title":"Pixel-bert: Aligning image pixels with text by deep multi-modal transformers","author":"huang","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6766"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.149"},{"key":"ref24","article-title":"Hadamard product for low-rank bilinear pooling","author":"kim","year":"2016","journal-title":"ICLRE"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00999"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123427"},{"key":"ref51","article-title":"VIm: Task-agnostic video-language model pre-training for video understanding","author":"xu","year":"2021","journal-title":"ar Xiv preprint arXiv 21 05 09996"},{"key":"ref59","first-page":"374","author":"zhang","year":"2018","journal-title":"Cross-modal and hierarchical modeling of video and text"},{"key":"ref58","article-title":"Improving visual quality of image synthesis by a token-based generator with transformers","volume":"34","author":"zeng","year":"2021","journal-title":"NeurIPS"},{"key":"ref57","article-title":"Merlot: Multimodal neural script knowledge models","author":"zellers","year":"2021","journal-title":"NeurIPS"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.347"},{"key":"ref55","first-page":"471","article-title":"A joint se-quence fusion model for video question answering and re-trieval","author":"yu","year":"2018","journal-title":"ECCV"},{"key":"ref54","volume":"34","author":"xue","year":"2021","journal-title":"Probing inter-modality Visual parsing with self-attention for vision-and-language pretraining"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.544"},{"key":"ref10","first-page":"1999","article-title":"Heterogeneous memory en-hanced multimodal attention model for video question an-swering","author":"fan","year":"2019","journal-title":"CVPR"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00232"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/2736277.2741112"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1017\/ATSIP.2017.12"},{"key":"ref14","article-title":"Image tag refinement with view-dependent concept representations","volume":"25","author":"fu","year":"2014","journal-title":"T-CSVT"},{"key":"ref15","first-page":"214","article-title":"Multi - modal transformer for video retrieval","author":"gabeur","year":"2020","journal-title":"ECCV"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00688"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3481540"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01278"},{"key":"ref4","article-title":"Is space-time attention all you need for video understanding?","author":"bertasius","year":"2021","journal-title":"ICML"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2393347.2396401"},{"key":"ref5","first-page":"6299","article-title":"action recognition? a new model and the kinetics dataset","author":"carreira","year":"2017","journal-title":"CVP R"},{"key":"ref8","first-page":"4171","article-title":"BERT: Pretraining of Deep Bidirectional Trans-formers for Language Understanding","author":"devlin","year":"2019","journal-title":"NAACL"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350571"},{"key":"ref49","first-page":"305","article-title":"Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification","author":"xie","year":"2018","journal-title":"ECCV"},{"key":"ref9","author":"dosovitskiy","year":"2020","journal-title":"An image is worth 16x16 words Transformers for image recognition at scale"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.193"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00229"},{"key":"ref47","article-title":"Mooney, and Kate Saenko","author":"venugopalan","year":"2015","journal-title":"HLT-NAACL"},{"key":"ref42","article-title":"Image superresolution via iterative refinement","author":"saharia","year":"2021","journal-title":"ar Xiv preprint arXiv 2104 07636"},{"key":"ref41","first-page":"94","article-title":"Courville, and Bernt Schiele. Movie description","author":"rohrbach","year":"2016","journal-title":"IJCV"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00756"},{"key":"ref43","article-title":"How 2: A large-scale dataset for multimodal language understanding","author":"sanabria","year":"2018","journal-title":"NeurIPS"}],"event":{"name":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","location":"New Orleans, LA, USA","start":{"date-parts":[[2022,6,18]]},"end":{"date-parts":[[2022,6,24]]}},"container-title":["2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9878378\/9878366\/09878559.pdf?arnumber=9878559","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,14]],"date-time":"2022-10-14T20:54:20Z","timestamp":1665780860000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9878559\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6]]},"references-count":63,"URL":"https:\/\/doi.org\/10.1109\/cvpr52688.2022.00498","relation":{},"subject":[],"published":{"date-parts":[[2022,6]]}}}