Qing Da (笪庆)'s Homepage

曾任阿里巴巴资深算法专家（花名达卿），本硕均毕业于南京大学计算机系，师从周志华教授，从事机器学习相关的研究工作。2015 年初，于博士二年级退学，加入当时的阿里巴巴搜索推荐事业部，从事搜索推荐算法相关的工作至今。

在阿里期间，除了本职工作之外，对内承担了一些算法新人培训的工作，2019 年集团新人课程《搜索推荐广告-算法体系概论》作者之一，杭州场主讲人，亦承担了次年（2020 年）搜索推荐事业部算法新人班的班主任；对外则担任了 TNNLS、AAAI、IJCAI、ICML 等领域期刊会议的审稿人等。

教育经历

本科：南京大学，计算机科学与技术系，2006-09 至 2010-06

全国大学生数学建模大赛全国一等奖，第一完成人，2008
教育部-Sun 大学生创新实验计划杰出项目(Outstanding project)，第一完成人，2009
南京大学本科优秀毕业论文（设计）一等奖，2010
保送至本系继续攻读研究生学位（Rank 1st）

硕士：南京大学，计算机科学与技术系，机器学习与数据挖掘研究所（LAMDA），2010-09 至 2013-06

PAKDD 数据挖掘竞赛公开组冠军，第五完成人，2012.
首届“中国云·移动互联网创新大奖赛”，一等奖 1 项，二等奖 1 项，三等奖 2 项，第一完成人，2013. [央视新闻]

硕士毕业论文，《基于直接策略搜索的强化学习方法研究》.

博士：南京大学，计算机科学与技术系，机器学习与数据挖掘研究所（LAMDA），2013-09 至 2015-01，肄业

博一期间以一作身份分别发表 CCF A 类一篇[2006-2]，CCF B 类一篇[2006-3]，博士生中期考核中优秀（Rank 1st）.

博二上学期因个人原因退学进入工业界.

职业经历

2015.01 – 2016.06: 资深算法工程师 搜索事业部阿里巴巴

从事淘宝搜索算法相关工作
通过和工程团队的配合，上线第一版基于 parameter server 的大规模在线学习模型，推动了在线学习在手淘搜索的遍地开花，相关工作《基于在线矩阵分解的淘宝搜索实时个性化》获得集团 2015 年十大算法奖
首次将最优分配+PID 在线调节的技术引入双十一红包的发放，该技术已成为目前集团内权益发放+流量调控的基础通用方案，并沉淀了专利《一种通过关键词发放红包出售流量的方式》
2015 年搜索事业部最佳新人奖，双 11 疯狂搜索人奖，技术卓越奖团队成员
集团内部算法竞赛奖项若干：新浪微博互动预测大赛亚军；简历智能评分大赛亚军，菜鸟-需求预测&分仓规划优胜奖（rank 4）

2016.07 – 2017.12: 算法专家 搜索事业部阿里巴巴

首次将强化学习引入电商搜索排序中，并且在 2016 年双十一进行上线应用，相关工作被多家媒体报道。[机器之心报道]

设计实现了搜索内部的强化学习框架 AI4B-RL，在多个业务线尝试进行强化学习应用，包括搜索排序[2018-2]、锦囊展示学习[2018-3]、引擎性能优化[2021/2022-6]、卖家分层调控、流量调控、虚拟淘宝[2019-3]等工作，相关工作已经整理发表在 KDD，AAAI，ECML 上。

组织集团内所有相关算法团队，发布电子书《强化学习在阿里的技术演进与业务创新》，其内容包含搜索、推荐、广告、物流、智能客服等广泛领域，次年其实体书由电子工业出版社出版发行。

2018.01 – 2020.07: 高级算法专家 AI 国际事业部阿里巴巴

带队参加 OpenAI 举办的强化学习算法竞赛，获得全球总冠军，第一完成人。[OpenAI 官网新闻][阿里技术报道]

2018 年 8 月开始担任 AliExpress 搜索算法负责人角色，开始组建团队和技术升级，同时针对国际化业务特点进行技术创新。目前从 2-3 人的种子团队成长为 20+的算法团队，覆盖搜索相关性、搜索效率、搜索导购产品、流量调控等 4 个子方向。在先后2 个财年内，搜索转化率在原先优化了 8 年的 baseline 基础上，分别提升了 30%和20%，同时在搜索相关性、搜索导购产品等相关业务上也有较大幅度的提升和改进。

针对国际化业务的多语言问题，在 facebook 的 XLM 提出来同期就开始研究跨语言的向量模型，目前覆盖英、俄、西、法、葡，并最终全量上线，用于搜索的语义向量召回[2021/2022-3]；针对国际卖家标题填写困难的问题，通过建立图像和关键词的关系，完成标题的辅助填充，相关工作整理到发表PAKDD[2021/2022-2]。

针对单一模型很难捕捉到全球国家用户的行为差异，将经典的 MOE 结构升级为层次MOE 结构，并通过场景子网络和场景梯度隔断来保障最后的融合效果，相关工作已经全量上线，并被 CIKM’20 录取[2020-2]。

针对重排序场景，为了捕捉用户对商品整体排列的行为偏好，提出了基于评估器-生成器架构的 learning to rank 框架，该框架可以直接生成一个商品排列，以最优化全页面的用户行为，相关工作已经全量上线，并且被 TKDE 收录[2023-1]，以及相关领域媒体报道。

2020.08 – 2021.09 : 资深算法专家 AE 技术部阿里巴巴

设计并产品化了 AliExpress 的流量调控系统，用于商业策略和效率策略的高效整合，其中涉及的相关工作：online matching[2021/2022-7]已经在 AAAI’10 发表，其余部分还在整理投稿中[2021/2022-10]。

目前除了担任 AliExpress 搜索算法负责人外，还兼任 AliExpress 算法架构师，负责AliExpress 整体搜索、推荐、广告、用增等多条业务算法线的横向能力建设。

书籍出版

笪庆，曾安祥主编，《强化学习实战：强化学习在阿里的技术演进和业务创新》，电子工业出版社，2018

论文发表

2023

[1] Guangda Huzhang, Zhen-Jia Pang, Yongqing Gao, Yawen Liu, Weijie Shen, Wen-Ji Zhou, Qianying Lin, Qing Da, Anxiang Zeng, Han Yu, Yang Yu, Zhi-Hua Zhou: AliExpress Learning-to-Rank: Maximizing Online Model Performance Without Going Online. IEEE Trans. Knowl. Data Eng. 35(2): 1214-1226 (2023)

2021/2022

[1] Qianying Lin, Wen-Ji Zhou, Yanshi Wang, Qing Da, Qing-Guo Chen, Bing Wang: Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences. CIKM 2022: 3312-3321

[2] Wenya Zhu, Yinghua Zhang, Yu Zhang, Yu-Hang Zhou, Yinfu Feng, Yuxiang Wu, Qing Da, Anxiang Zeng: DHA: Product Title Generation with Discriminative Hierarchical Attention for E-commerce. PAKDD (3) 2022: 275-287

[3] Wenya Zhu, Xiaoyu Lv, Baosong Yang, Yinghua Zhang, Xu Yong, Linlong Xu, Yinfu Feng, Haibo Zhang, Qing Da, Anxiang Zeng, Ronghua Chen: Cross-Lingual Product Retrieval in E-Commerce Search. PAKDD (2) 2022: 458-471

[4] Shiyin Lu, Yu-Hang Zhou, Jing-Cheng Shi, Wenya Zhu, Qingtao Yu, Qing-Guo Chen, Qing Da, Lijun Zhang: Non-stationary Continuum-armed Bandits for Online Hyperparameter Optimization. WSDM 2022: 618-627

[5] Xuesi Wang, Guangda Huzhang, Qianying Lin, Qing Da: Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce. WSDM 2022: 1036-1044

[6] Anxiang Zeng, Han Yu, Qing Da, Yusen Zhan, Yang Yu, Jingren Zhou, Chunyan Miao: Improving Search Engine Efficiency through Contextual Factor Selection. AI Mag. 42(2): 50-58 (2021)

[7] Yu-Hang Zhou, Peng Hu, Chen Liang, Huan Xu, Guangda Huzhang, Yinfu Feng, Qing Da, Xinshang Wang, Anxiang Zeng: A Primal-Dual Online Algorithm for Online Matching Problem in Dynamic Environments. AAAI 2021: 11160-11167

[8] Junmei Hao, Jingcheng Shi, Qing Da, Anxiang Zeng, Yujie Dun, Xueming Qian, Qianying Lin: Diversity Regularized Interests Modeling for Recommender Systems. CoRR abs/2103.12404 (2021)

[9] Yongqing Gao, Guangda Huzhang, Weijie Shen, Yawen Liu, Wen-Ji Zhou, Qing Da, Dan Shen, Yang Yu: Imitate TheWorld: A Search Engine Simulation Platform. CoRR abs/2107.07693 (2021)

[10] Chenlin Shen, Guangda Huzhang, Yu-Hang Zhou, Chen Liang, Qing Da: A General Traffic Shaping Protocol in E-Commerce. CoRR abs/2112.14941 (2021)

2020

[1] Anxiang Zeng, Han Yu, Qing Da, Yusen Zhan, Chunyan Miao: Accelerating Ranking in E-Commerce Search Engines through Contextual Factor Selection. AAAI 2020: 13212-13219

[2] Pengcheng Li, Runze Li, Qing Da, Anxiang Zeng, Lijun Zhang: Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. CIKM 2020: 2605-2612

[3] Guangda Huzhang, Zhen-Jia Pang, Yongqing Gao, Wen-Ji Zhou, Qing Da, Anxiang Zeng, Yang Yu: Validation Set Evaluation can be Wrong: An Evaluator-Generator Approach for Maximizing Online Performance of Ranking in E-commerce. CoRR abs/2003.11941 (2020)

[4] Yanshi Wang, Jie Zhang, Qing Da, Anxiang Zeng: Delayed Feedback Modeling for the Entire Space Conversion Rate Prediction. CoRR abs/2011.11826 (2020)

2019

[1] Feiyang Pan, Qingpeng Cai, Anxiang Zeng, Chun-Xiang Pan, Qing Da, Hua-Lin He, Qing He, Pingzhong Tang: Policy Optimization with Model-Based Explorations. AAAI 2019: 4675-4682

[2] Jing-Cheng Shi, Yang Yu, Qing Da, Shi-Yong Chen, Anxiang Zeng: Virtual-Taobao: Virtualizing Real-World Online Retail Environment for Reinforcement Learning. AAAI 2019: 4902-4909

2018

[1] Yang Yu, Shi-Yong Chen, Qing Da, Zhi-Hua Zhou: Reusable Reinforcement Learning via Shallow Trails. IEEE Trans. Neural Networks Learn. Syst. 29(6): 2204-2215 (2018)

[2] Yujing Hu, Qing Da, Anxiang Zeng, Yang Yu, Yinghui Xu: Reinforcement Learning to Rank in E-Commerce Search Engine: Formalization, Analysis, and Application. KDD 2018: 368-377

[3] Shi-Yong Chen, Yang Yu, Qing Da, Jun Tan, Hai-Kuan Huang, Hai-Hong Tang: Stabilizing Reinforcement Learning in Dynamic Environment with Application to Online Recommendation. KDD 2018: 1187-1196

[4] Hua-Lin He, Chun-Xiang Pan, Qing Da, Anxiang Zeng: SPEEDING Up the Metabolism in E-commerce by Reinforcement Mechanism DESIGN. ECML/PKDD (3) 2018: 105-119

2016

[1] Yang Yu, Peng-Fei Hou, Qing Da, Yu Qian: Boosting Nonparametric Policies. AAMAS 2016: 477-484

2014

[2] Qing Da, Yang Yu, Zhi-Hua Zhou: Learning with Augmented Class by Exploiting Unlabeled Data. AAAI 2014: 1760-1766

[3] Qing Da, Yang Yu, Zhi-Hua Zhou: Napping for functional representation of policy. AAMAS 2014: 189-196

2013

[4] Qing Da, Yang Yu, Zhi-Hua Zhou: Self-Practice Imitation Learning from Weak Policy. PSL 2013: 9-20

Qing Da (笪庆)’s Homepage