{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T19:56:21Z","timestamp":1776887781961,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":32,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,11,10]]},"DOI":"10.1145\/3746252.3761502","type":"proceedings-article","created":{"date-parts":[[2025,11,8]],"date-time":"2025-11-08T01:03:42Z","timestamp":1762563822000},"page":"5915-5922","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-7261-5297","authenticated-orcid":false,"given":"Xinchen","family":"Luo","sequence":"first","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2681-0119","authenticated-orcid":false,"given":"Jiangxia","family":"Cao","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6915-4687","authenticated-orcid":false,"given":"Tianyu","family":"Sun","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-6969-6372","authenticated-orcid":false,"given":"Jinkai","family":"Yu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8976-9550","authenticated-orcid":false,"given":"Rui","family":"Huang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-6660-7854","authenticated-orcid":false,"given":"Wei","family":"Yuan","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-8996-8438","authenticated-orcid":false,"given":"Hezheng","family":"Lin","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-2021-0868","authenticated-orcid":false,"given":"Yichen","family":"Zheng","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1567-8012","authenticated-orcid":false,"given":"Shiyao","family":"Wang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-9000-9091","authenticated-orcid":false,"given":"Qigen","family":"Hu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-8597-9554","authenticated-orcid":false,"given":"Changqing","family":"Qiu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-6315-2331","authenticated-orcid":false,"given":"Jiaqi","family":"Zhang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9446-2655","authenticated-orcid":false,"given":"Xu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-7604-4209","authenticated-orcid":false,"given":"Zhiheng","family":"Yan","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4337-8172","authenticated-orcid":false,"given":"Jingming","family":"Zhang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-2308-6273","authenticated-orcid":false,"given":"Simin","family":"Zhang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0129-8231","authenticated-orcid":false,"given":"Mingxing","family":"Wen","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5481-8196","authenticated-orcid":false,"given":"Zhaojie","family":"Liu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-8550-279X","authenticated-orcid":false,"given":"Guorui","family":"Zhou","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2025,11,10]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.124"},{"key":"e_1_3_2_1_2_1","volume-title":"Language models are few-shot learners. arXiv","author":"Brown Tom B","year":"2020","unstructured":"Tom B Brown. 2020. Language models are few-shot learners. arXiv (2020)."},{"key":"e_1_3_2_1_3_1","volume-title":"Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou. arXiv","author":"Cao Jiangxia","year":"2024","unstructured":"Jiangxia Cao, Shen Wang, Yue Li, Shenghui Wang, Jian Tang, Shiyao Wang, Shuang Yang, Zhaojie Liu, and Guorui Zhou. 2024. Moment&Cross: Next-Generation Real-Time Cross-Domain CTR Prediction for Live-Streaming Recommendation at Kuaishou. arXiv (2024)."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3580305.3599922"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01268"},{"key":"e_1_3_2_1_6_1","volume-title":"Regularized Residual Quantization: a multi-layer sparse dictionary learning approach. arXiv","author":"Ferdowsi Sohrab","year":"2017","unstructured":"Sohrab Ferdowsi, Slava Voloshynovskiy, and Dimche Kostadinov. 2017. Regularized Residual Quantization: a multi-layer sparse dictionary learning approach. arXiv (2017)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/MASSP.1984.1162229"},{"key":"e_1_3_2_1_8_1","volume-title":"AAAI Conference on Artificial Intelligence (AAAI).","author":"He Ruining","year":"2011","unstructured":"Ruining He and Julian McAuley. 20116. VBPR: visual Bayesian Personalized Ranking from implicit feedback. In AAAI Conference on Artificial Intelligence (AAAI)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583434"},{"key":"e_1_3_2_1_10_1","volume-title":"Visually-Aware Fashion Recommendation and Design with Generative Image Models. In IEEE International Conference on Data Mining (ICDM).","author":"Kang Wang-Cheng","year":"2017","unstructured":"Wang-Cheng Kang, Chen Fang, Zhaowen Wang, and Julian McAuley. 2017. Visually-Aware Fashion Recommendation and Design with Generative Image Models. In IEEE International Conference on Data Mining (ICDM)."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01123"},{"key":"e_1_3_2_1_12_1","volume-title":"Mining of massive data sets","author":"Leskovec Jure","unstructured":"Jure Leskovec, Anand Rajaraman, and Jeffrey David Ullman. 2020. Mining of massive data sets. Cambridge university press."},{"key":"e_1_3_2_1_13_1","volume-title":"International Conference on Machine Learning (ICML).","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In International Conference on Machine Learning (ICML)."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i10.17036"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.282"},{"key":"e_1_3_2_1_16_1","volume-title":"AlignRec: Aligning and Training in Multimodal Recommendations. In ACM International Conference on Information and Knowledge Management (CIKM).","author":"Liu Yifan","year":"2024","unstructured":"Yifan Liu, Kangning Zhang, Xiangyuan Ren, Yanhua Huang, Jiarui Jin, Yingjie Qin, Ruilong Su, Ruiwen Xu, Yong Yu, and Weinan Zhang. 2024. AlignRec: Aligning and Training in Multimodal Recommendations. In ACM International Conference on Information and Knowledge Management (CIKM)."},{"key":"e_1_3_2_1_17_1","volume":"201","author":"Martinez Julieta","unstructured":"Julieta Martinez, Holger H Hoos, and James J Little. 2014. Stacked quantizers for compositional vector compression. arXiv (2014).","journal-title":"James J Little."},{"key":"e_1_3_2_1_18_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. arXiv."},{"key":"e_1_3_2_1_19_1","volume-title":"Conference on Neural Information Processing Systems (NeurIPS)","author":"Rajput Shashank","year":"2023","unstructured":"Shashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan Hulikal Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Tran, Jonah Samost, et al., 2023. Recommender systems with generative retrieval. Conference on Neural Information Processing Systems (NeurIPS) (2023)."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM.2010.127"},{"key":"e_1_3_2_1_21_1","volume-title":"Approaches and Insights. In ACM International Conference on Information and Knowledge Management (CIKM).","author":"Sheng Xiang-Rong","year":"2024","unstructured":"Xiang-Rong Sheng, Feifan Yang, Litong Gong, Biao Wang, Zhangming Chan, Yujing Zhang, Yueyao Cheng, Yong-Nan Zhu, Tiezheng Ge, Han Zhu, Yuning Jiang, Jian Xu, and Bo Zheng. 2024. Enhancing Taobao Display Advertising with Multimodal Representations: Challenges, Approaches and Insights. In ACM International Conference on Information and Knowledge Management (CIKM)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1145\/3640457.3688190"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1145\/3383313.3412236"},{"key":"e_1_3_2_1_24_1","unstructured":"Aaron Van Den Oord Oriol Vinyals et al. 2017. Neural discrete representation learning. (2017)."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/3442381.3450078"},{"key":"e_1_3_2_1_26_1","volume-title":"Saksham Singhal, Subhojit Som, and Furu Wei.","author":"Wang Wenhui","year":"2022","unstructured":"Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, and Furu Wei. 2022. Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks. arXiv."},{"key":"e_1_3_2_1_27_1","unstructured":"Xu Wang Jiangxia Cao Zhiyi Fu Kun Gai and Guorui Zhou. 2024. HoME: Hierarchy of Multi-Gate Experts for Multi-Task Learning at Kuaishou. arXiv (2024)."},{"key":"e_1_3_2_1_28_1","volume-title":"Sparse representation for computer vision and pattern recognition. Proc","author":"Wright John","year":"2010","unstructured":"John Wright, Yi Ma, Julien Mairal, Guillermo Sapiro, Thomas S Huang, and Shuicheng Yan. 2010. Sparse representation for computer vision and pattern recognition. Proc. IEEE (2010)."},{"key":"e_1_3_2_1_29_1","volume-title":"Mining Latent Structures for Multimedia Recommendation. In ACM International Conference on Multimedia (ACM MM).","author":"Zhang Jinghao","year":"2021","unstructured":"Jinghao Zhang, Yanqiao Zhu, Qiang Liu, Shu Wu, Shuhui Wang, and Liang Wang. 2021. Mining Latent Structures for Multimedia Recommendation. In ACM International Conference on Multimedia (ACM MM)."},{"key":"e_1_3_2_1_30_1","volume-title":"Deep Interest Evolution Network for Click-Through Rate Prediction. In AAAI Conference on Artificial Intelligence (AAAI).","author":"Zhou Guorui","year":"2019","unstructured":"Guorui Zhou, Na Mou, Ying Fan, Qi Pi, Weijie Bian, Chang Zhou, Xiaoqiang Zhu, and Kun Gai. 2019. Deep Interest Evolution Network for Click-Through Rate Prediction. In AAAI Conference on Artificial Intelligence (AAAI)."},{"key":"e_1_3_2_1_31_1","volume-title":"Deep Interest Network for Click-Through Rate Prediction. In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD).","author":"Zhou Guorui","year":"2018","unstructured":"Guorui Zhou, Xiaoqiang Zhu, Chenru Song, Ying Fan, Han Zhu, Xiao Ma, Yanghui Yan, Junqi Jin, Han Li, and Kun Gai. 2018. Deep Interest Network for Click-Through Rate Prediction. In ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD)."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583251"}],"event":{"name":"CIKM '25: The 34th ACM International Conference on Information and Knowledge Management","location":"Seoul Republic of Korea","acronym":"CIKM '25","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval","SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the 34th ACM International Conference on Information and Knowledge Management"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746252.3761502","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:14:11Z","timestamp":1765502051000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746252.3761502"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,10]]},"references-count":32,"alternative-id":["10.1145\/3746252.3761502","10.1145\/3746252"],"URL":"https:\/\/doi.org\/10.1145\/3746252.3761502","relation":{},"subject":[],"published":{"date-parts":[[2025,11,10]]},"assertion":[{"value":"2025-11-10","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}