推荐系统完整链路及各阶段作用

推荐系统是一种信息过滤系统，旨在预测用户对物品的偏好并提供个性化推荐。其完整链路通常包含六个核心阶段，每个阶段承担不同职责，共同构成推荐系统的闭环。下面将详细描述这些阶段及其作用。

1. 数据收集与处理阶段

核心职责

收集、清洗和存储推荐系统所需的各种数据，为后续阶段提供高质量的数据支持。

主要内容

用户数据收集：用户基本信息、历史行为数据（点击、浏览、购买、收藏、评分等）
物品数据收集：物品基本信息、内容特征、属性标签、分类信息等
上下文数据收集：时间、地点、设备、场景等环境信息
数据清洗与预处理：处理缺失值、异常值、数据标准化、去重等
数据存储：将处理后的数据存储到相应的数据系统中（如HDFS、HBase、MySQL等）

作用

构建推荐系统的数据基础，确保后续算法和模型有高质量、结构化的数据输入，是整个推荐系统的基石。

2. 特征工程阶段

核心职责

将原始数据转化为机器学习算法可以理解和使用的特征表示。

主要内容

用户特征提取：构建用户画像、用户偏好、用户行为序列等特征
物品特征提取：提取物品属性、内容特征、统计特征等
上下文特征提取：构建时间特征、地理位置特征、场景特征等
交叉特征：生成用户-物品交叉特征、用户-上下文交叉特征等高阶特征
特征选择与降维：选择重要特征，降低特征维度，减少计算复杂度

作用

将原始数据转化为有意义的特征表示，提高模型的表达能力和泛化能力，是提升推荐效果的关键环节。

3. 召回阶段

核心职责

从海量物品库中快速筛选出用户可能感兴趣的一小部分物品，生成候选集。

主要内容

基于内容的召回：根据物品内容相似性进行召回
协同过滤召回：
- 基于用户的协同过滤（User-CF）
- 基于物品的协同过滤（Item-CF）
向量召回：使用Embedding技术（如Word2Vec、Graph Embedding等）计算相似性
向量检索：使用FAISS、Annoy等高效向量检索工具进行近似最近邻搜索
多路召回：结合多种召回策略，提高召回的覆盖率和多样性

作用

从海量物品中快速筛选出几百到几千个候选物品，为后续的精确排序提供候选集，是推荐系统效率的关键保障。

4. 排序阶段

核心职责

对召回阶段得到的候选物品进行精确排序，预测用户对不同物品的兴趣程度。

主要内容

特征交叉：将不同特征进行组合，生成更有表达力的特征
模型选择与训练：
- 传统机器学习模型（LR、GBDT、FM等）
- 深度学习模型（Wide&Deep、DeepFM、DIN等）
CTR预估：预测用户对物品的点击率
CVR预估：预测用户对物品的转化率
多目标学习：同时优化多个目标（如点击率、转化率、观看时长等）

作用

对候选物品进行精确排序，预测用户对不同物品的兴趣程度，生成初步的推荐列表，是决定推荐准确性的核心环节。

5. 重排阶段

核心职责

在排序结果的基础上进行最终的调整和优化，提升用户体验。

主要内容

多样性优化：避免推荐结果过于单一，增加推荐多样性
新颖性优化：增加新物品或冷门物品的曝光机会
业务规则干预：根据业务需求进行人工干预和调整
时效性调整：考虑物品的时效性，如新闻、视频等
用户反馈实时调整：根据用户的实时反馈动态调整推荐结果

作用

在保证推荐准确性的同时，优化推荐结果的多样性、新颖性和业务适配性，提升用户体验和业务价值。

6. 反馈与评估阶段

核心职责

评估推荐系统效果，收集用户反馈，持续优化和迭代推荐算法。

主要内容

在线评估：
- A/B测试
- 用户反馈收集
- 业务指标监控（CTR、CVR、留存率等）
离线评估：
- 准确率（Precision）、召回率（Recall）
- F1值、NDCG、MAP等指标
- 覆盖率（Coverage）、多样性（Diversity）
模型更新与迭代：
- 定期重新训练模型
- 根据评估结果优化算法和参数
用户反馈闭环：
- 收集用户显式反馈（点赞、点踩等）
- 分析用户隐式反馈（点击、浏览时长等）

作用

评估推荐系统的效果，收集用户反馈，持续优化和迭代推荐算法，形成推荐系统的闭环优化，确保系统长期有效运行。

--- title: 推荐系统完整链路流程图 --- graph TD A[数据收集与处理] --> B[特征工程] B --> C[召回阶段] C --> D[排序阶段] D --> E[重排阶段] E --> F[反馈与评估] F --> A

--- title: 推荐系统各阶段交互时序图 --- sequenceDiagram participant U as 用户 participant DC as 数据收集与处理 participant FE as 特征工程 participant RE as 召回阶段 participant RA as 排序阶段 participant RR as 重排阶段 participant FEA as 反馈与评估 U->>DC: 产生行为数据 DC->>FE: 提供原始数据 FE->>RE: 提供特征 RE->>RA: 提供候选集 RA->>RR: 提供排序结果 RR->>U: 展示推荐结果 U->>FEA: 反馈行为 FEA->>DC: 优化数据收集 FEA->>FE: 优化特征工程 FEA->>RE: 优化召回策略 FEA->>RA: 优化排序模型 FEA->>RR: 优化重排策略

--- title: 推荐系统主要组件类图 --- classDiagram class DataCollection { +collectUserData() +collectItemData() +collectContextData() +preprocessData() +storeData() } class FeatureEngineering { +extractUserFeatures() +extractItemFeatures() +extractContextFeatures() +generateCrossFeatures() +selectFeatures() } class Recall { +contentBasedRecall() +collaborativeFiltering() +vectorRecall() +multiPathRecall() } class Ranking { +featureCrossing() +trainModel() +predictCTR() +predictCVR() +multiObjectiveLearning() } class Reranking { +optimizeDiversity() +optimizeNovelty() +applyBusinessRules() +adjustTimeliness() +realTimeAdjustment() } class FeedbackEvaluation { +onlineEvaluation() +offlineEvaluation() +updateModel() +feedbackLoop() } DataCollection --> FeatureEngineering : provides data FeatureEngineering --> Recall : provides features Recall --> Ranking : provides candidates Ranking --> Reranking : provides ranking results Reranking --> FeedbackEvaluation : provides final results FeedbackEvaluation --> DataCollection : optimizes collection FeedbackEvaluation --> FeatureEngineering : optimizes features FeedbackEvaluation --> Recall : optimizes recall FeedbackEvaluation --> Ranking : optimizes ranking FeedbackEvaluation --> Reranking : optimizes reranking

参考文档

《推荐系统实践》- 项亮
《Recommender Systems: The Textbook》- Charu C. Aggarwal
Netflix推荐系统技术博客: https://medium.com/netflix-techblog
Google推荐系统白皮书: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/46185.pdf
Airbnb推荐系统实践: https://medium.com/airbnb-engineering

account_tree

思维导图

Interview AiBoxInterview AiBox — 面试搭档

不只是准备，更是实时陪练

Interview AiBox 在面试过程中提供实时屏幕提示、AI 模拟面试和智能复盘，让你每一次回答都更有信心。

免费下载 Interview AiBoxdownload 查看价格方案sell

AI 助读

一键发送到常用 AI

推荐系统完整链路包括六个核心阶段：数据收集与处理（收集清洗用户、物品和上下文数据）、特征工程（将原始数据转化为机器学习可用特征）、召回阶段（从海量物品中快速筛选候选集）、排序阶段（对候选物品精确排序预测用户兴趣）、重排阶段（优化推荐结果多样性和业务适配性）以及反馈与评估（评估效果并持续优化系统）。这些阶段形成闭环，共同构建高效、准确的个性化推荐系统。

智能总结

深度解读

考点定位

思路启发