Muyun99's wiki Muyun99's wiki
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)

Muyun99

努力成为一个善良的人
首页
学术搬砖
学习笔记
生活杂谈
wiki搬运
资源收藏
关于
  • 分类
  • 标签
  • 归档
GitHub (opens new window)
  • 代码实践-目标检测

  • 代码实践-图像分割

  • 代码实践-自监督学习

  • 竞赛笔记-视觉竞赛

  • 框架解析-mmlab系列

  • 讲座记录-有意思的文章集合

  • 体会感悟-产品沉思录观后有感

  • 体会感悟-摄影

  • 系列笔记-

  • 系列笔记-乐理和五线谱

  • 系列笔记-爬虫实践

  • 系列笔记-Django学习笔记

  • 系列笔记-Git 使用笔记

  • 系列笔记-网站搭建

  • 系列笔记-图卷积网络

  • 课程笔记-MIT-NULL

  • 系列笔记-OpenCV-Python

  • 系列笔记-使用 Beancount 记账

  • 系列笔记-Python设计模式

  • 系列笔记-MLOps

    • 关于MLOps
    • (Notes) A Chat with Andrew on MLOps From Model-centric to Data-centric AI
      • 讲座笔记:A Chat with Andrew: on MLOps From Model-centric to Data-centric AI
    • 常用的数据治理手段
  • 系列笔记-Apollo自动驾驶

  • 系列笔记-PaddlePaddle

  • 系列笔记-视频操作

  • Vue+Django前后端分离开发

  • 深度学习及机器学习理论知识学习笔记

  • PyTorch Tricks

  • 学习笔记
  • 系列笔记-MLOps
Muyun99
2021-08-08

(Notes) A Chat with Andrew on MLOps From Model-centric to Data-centric AI

# 讲座笔记:A Chat with Andrew: on MLOps From Model-centric to Data-centric AI

AI system = Code + Data

改进 Data 会帮助我们让算法达到我们的期望

对于39类的瑕疵检测,有76%的精度,目标是90%的精度

如果你是leader,你会更注重改善数据还是更注重改善模型/算法呢

  • 80%:code

  • 20%:data

Data is Food for AI

Prepare high quality data:80%

Train a model:20%

The Lifecycle of an ML Project

大数据集下也有长尾数据,所以对于小数据集的处理方法是通用的

迭代地改进数据质量

  • 训练模型
  • 进行错误分析,以识别那些算法表现差的样本
  • 通过数据增强获得更多样本,数据生成扩增数据量,给出更多标签一致性的定义

部署生产模型

  • 监控所部署模型的性能,并且为了持续更新模型,需要迭代更新的数据

  • 系统地检查概念漂移(concept drift)以及数据漂移(data drift),这是检查性能衰退(performance degradation)的两个方式

    • 概念漂移指的是 label 的分布或者定义发生了变化
    • 数据漂移表示特征的分布发生了变化
  • 将数据回滚,重新训练更新模型

上次更新: 2021/08/17, 18:07:06
关于MLOps
常用的数据治理手段

← 关于MLOps 常用的数据治理手段→

最近更新
01
Structured Knowledge Distillation for Semantic Segmentation
06-03
02
README 美化
05-20
03
常见 Tricks 代码片段
05-12
更多文章>
Theme by Vdoing | Copyright © 2021-2023 Muyun99 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式
×