(Notes) A Chat with Andrew on MLOps From Model-centric to Data-centric AI
# 讲座笔记:A Chat with Andrew: on MLOps From Model-centric to Data-centric AI
AI system = Code + Data
改进 Data 会帮助我们让算法达到我们的期望
对于39类的瑕疵检测,有76%的精度,目标是90%的精度
如果你是leader,你会更注重改善数据还是更注重改善模型/算法呢
80%:code
20%:data
Data is Food for AI
Prepare high quality data:80%
Train a model:20%
The Lifecycle of an ML Project
大数据集下也有长尾数据,所以对于小数据集的处理方法是通用的
迭代地改进数据质量
- 训练模型
- 进行错误分析,以识别那些算法表现差的样本
- 通过数据增强获得更多样本,数据生成扩增数据量,给出更多标签一致性的定义
部署生产模型
监控所部署模型的性能,并且为了持续更新模型,需要迭代更新的数据
系统地检查概念漂移(concept drift)以及数据漂移(data drift),这是检查性能衰退(performance degradation)的两个方式
- 概念漂移指的是 label 的分布或者定义发生了变化
- 数据漂移表示特征的分布发生了变化
将数据回滚,重新训练更新模型
上次更新: 2021/08/17, 18:07:06
- 02
- README 美化05-20
- 03
- 常见 Tricks 代码片段05-12