万本电子书0元读

万本电子书0元读

顶部广告

构建可靠的机器学习系统电子书

无论你是小型初创公司还是跨国公司的一员,这本实用的书向数据科学家、软件和网站可靠性工程师、产品经理和企业主展示了如何在你的组织中可靠、有效且负责地运行并建立 ML。你将深了解从如何在生产环境中监控模型到如何在产品组织中运行一个好的模型发团队的所有事情。

售       价:¥

纸质售价:¥95.90购买纸书

0人正在读 | 0人评论 6.6

作       者:(美)凯茜·陈,(爱尔兰)尼尔·理查德·墨菲,(美)克兰蒂·帕里萨 等

出  版  社:机械工业出版社

出版时间:2025-03-21

字       数:28.0万

所属分类: 科技 > 计算机/网络 > 计算机理论与教程

温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印

为你推荐

  • 读书简介
  • 目录
  • 累计评论(0条)
  • 读书简介
  • 目录
  • 累计评论(0条)
本书融合作者构建、运维和扩展大型机器学习系统的经验,通过丰富的示例,详细讲解如何运行高效、可靠的机器学习系统。本书首先概述机器学习相关概念和数据管理原则,涵盖数据管理、机器学习模型、评估质量、特征、公平性、隐私等主题;然后介绍机器学习模型及其生命周期;最后讲述如何将机器学习引组织,以及引后组织会发生什么等复杂问题。<br/>【推荐语】<br/>无论你是小型初创公司还是跨国公司的一员,这本实用的书向数据科学家、软件和网站可靠性工程师、产品经理和企业主展示了如何在你的组织中可靠、有效且负责地运行并建立 ML。你将深了解从如何在生产环境中监控模型到如何在产品组织中运行一个好的模型发团队的所有事情。<br/>【作者】<br/>Cathy Chen曾担任谷歌的技术项目经理、产品经理和工程经理。 Niall Richard Murphy是ML和SRE领域一家初创公司的首席执行官,曾在Amazon、Google、Microsoft工作过。 Kranti Parisa是Dialpad的副总裁兼产品工程主管。 D. Sculley是Kaggle的首席执行官和Google第三方机器学习生态系统的总经理。 Todd Underwood是Google机器学习SRE的高级总监和创始人。<br/>
目录展开

书名页

O'Reilly Media,Inc.介绍

本书赞誉

译者序

前言

第1章 引言

1.1 机器学习的生命周期

1.1.1 数据收集与分析

1.1.2 机器学习训练管道

1.1.3 构建与验证应用程序

1.1.4 质量和性能评估

1.1.5 定义与度量服务等级目标

1.1.6 发布

1.1.7 监控和反馈循环

1.2 循环中的教训

第2章 数据管理原则

2.1 数据即责任

2.2 机器学习管道的数据敏感性

2.3 数据的阶段

2.3.1 创建

2.3.2 提取

2.3.3 处理

2.3.4 存储

2.3.5 管理

2.3.6 分析与可视化

2.4 数据可靠性

2.4.1 持久性

2.4.2 一致性

2.4.3 版本控制

2.4.4 性能

2.4.5 可用性

2.5 数据完整性

2.5.1 安全性

2.5.2 隐私

2.5.3 政策与合规

2.6 总结

第3章 模型的基本介绍

3.1 什么是模型

3.2 基本的模型创建工作流

3.3 模型架构、模型定义与训练过的模型

3.4 漏洞在哪里

3.4.1 训练数据

3.4.2 标签

3.4.3 训练方法

3.5 基础设施及管道

3.5.1 平台

3.5.2 特征生成

3.5.3 升级和修复

3.6 对任何模型提出的一系列实用问题

3.7 一个机器学习系统示例

3.7.1 纱线产品点击预测模型

3.7.2 特征

3.7.3 特征标签

3.7.4 模型更新

3.7.5 模型服务

3.7.6 常见故障

3.8 总结

第4章 特征与训练数据

4.1 特征

4.1.1 特征选择和工程

4.1.2 特征的生命周期

4.1.3 特征系统

4.2 标签

4.3 人工生成的标签

4.3.1 标注劳动力

4.3.2 衡量人工标注质量

4.3.3 标注平台

4.3.4 主动学习和AI辅助标注

4.3.5 文档和标注员培训

4.4 元数据

4.4.1 元数据系统概述

4.4.2 数据集元数据

4.4.3 特征元数据

4.4.4 标签元数据

4.4.5 管道元数据

4.5 数据隐私和公平性

4.5.1 隐私

4.5.2 公平性

4.6 总结

第5章 评估模型的有效性和质量

5.1 评估模型的有效性

5.2 评估模型质量

5.2.1 离线评估

5.2.2 评估分布

5.2.3 一些有用的指标

5.3 实施验证和评估

5.4 总结

第6章 机器学习系统中的公平性、隐私和道德

6.1 公平性

6.1.1 公平性的定义

6.1.2 达到公平

6.1.3 公平是一个过程而不是终点

6.1.4 简短的法律说明

6.2 隐私

6.2.1 保护隐私的方法

6.2.2 简短的法律说明

6.3 负责任的AI

6.3.1 模型解释

6.3.2 有效性

6.3.3 社会和文化适当性

6.4 机器学习管道中负责任的AI

6.4.1 用例头脑风暴

6.4.2 数据收集和清洗

6.4.3 模型创建和训练

6.4.4 模型验证和质量评估

6.4.5 模型部署

6.4.6 市场产品

6.5 总结

第7章 训练系统

7.1 需求

7.2 基本训练系统的实施

7.2.1 特征

7.2.2 特征存储

7.2.3 模型管理系统

7.2.4 编排

7.2.5 质量评估

7.2.6 监控

7.3 一般可靠性原则

7.3.1 大多数失败不会是机器学习失败

7.3.2 模型将被重新训练

7.3.3 模型将同时有多个版本

7.3.4 好的模型会变坏

7.3.5 数据将不可用

7.3.6 模型应该是可改进的

7.3.7 特征会添加和更改

7.3.8 模型可能训练得过快

7.3.9 资源利用很重要

7.3.10 利用率!=效率

7.3.11 中断包括恢复时间

7.4 常见的训练可靠性问题

7.4.1 数据敏感性

7.4.2 YarnIt的数据问题示例

7.4.3 可重现性

7.4.4 YarnIt的可重现性问题示例

7.4.5 计算资源量

7.4.6 YarnIt的资源量问题示例

7.5 结构可靠性

7.5.1 组织挑战

7.5.2 道德和公平性考虑

7.6 总结

第8章 服务

8.1 模型服务的关键问题

8.1.1 我们模型的负载是什么

8.1.2 我们模型的预测延迟需求是多少

8.1.3 模型在哪里运行

8.1.4 我们的模型需要怎样的硬件

8.1.5 服务模型要如何存储、加载、版本控制和更新

8.1.6 用于服务的特征管道是什么样子的

8.2 模型服务架构

8.2.1 离线服务(批量推理)

8.2.2 在线服务(在线推理)

8.2.3 模型即服务

8.2.4 边缘服务

8.2.5 选择架构

8.3 模型API设计

8.4 服务于准确性还是弹性

8.5 扩展

8.5.1 弹性伸缩

8.5.2 缓存

8.6 灾难恢复

8.7 道德和公平性考虑

8.8 总结

第9章 模型的监控和可观测性

9.1 什么是生产环境监控以及为什么要这么做

9.1.1 它是什么样的

9.1.2 机器学习为监控带来的问题

9.1.3 为何在生产中需要持续的机器学习可观测性

9.2 机器学习生产监控中的问题

9.2.1 开发的难点与服务的难点

9.2.2 需要在观念上有所转变

9.3 机器学习模型监控的最佳实践

9.3.1 通用的预服务模型建议

9.3.2 训练与重新训练

9.3.3 模型验证(试运行前)

9.3.4 服务

9.3.5 其他需要考虑的事情

9.3.6 监控策略的高层级建议

9.4 总结

第10章 持续机器学习

10.1 剖析持续机器学习系统

10.1.1 训练样本

10.1.2 训练标签

10.1.3 过滤掉坏数据

10.1.4 特征存储和数据管理

10.1.5 模型更新

10.1.6 将更新后的模型推送到服务中

10.2 对持续机器学习系统的观察

10.2.1 外部世界的事件可能影响我们的系统

10.2.2 模型可以影响其自身的训练数据

10.2.3 时间效应会出现在多种时间维度上

10.2.4 应急响应必须实时进行

10.2.5 新发布需要分阶段的提升和稳定的基线

10.2.6 模型必须被管理,而不是交付即完成

10.3 持续性组织

10.4 重新思考非持续机器学习系统

10.5 总结

第11章 事故响应

11.1 事故管理基础

11.1.1 事故的生命周期

11.1.2 事故响应角色

11.2 剖析以机器学习为中心的故障

11.3 术语提醒:模型

11.4 故事时间

11.4.1 故事1:搜索但没有找到

11.4.2 故事2:突然间无用的伙伴

11.4.3 故事3:推荐你寻找新的供应商

11.5 机器学习事故管理原则

11.5.1 指导原则

11.5.2 模型开发人员或数据科学家

11.5.3 软件工程师

11.5.4 机器学习站点可靠性工程师或机器学习生产工程师

11.5.5 产品经理或业务负责人

11.6 特殊话题

11.6.1 生产工程师以及机器学习工程与建模

11.6.2 符合道德的待命工程师宣言

11.7 总结

第12章 产品和机器学习如何交互

12.1 不同类型的产品

12.2 敏捷机器学习

12.3 机器学习产品开发阶段

12.3.1 发现和定义

12.3.2 业务目标设定

12.3.3 MVP构建和验证

12.3.4 模型和产品开发

12.3.5 部署

12.3.6 支持和维护

12.4 构建还是购买

12.4.1 模型

12.4.2 数据处理基础设施

12.4.3 端到端平台

12.4.4 用以做出决策的评分方法

12.4.5 做出决策

12.5 由机器学习提供支持的样例YarnIt商店功能

12.5.1 按总销售额展示受欢迎的纱线

12.5.2 基于浏览历史的推荐

12.5.3 交叉销售和向上销售

12.5.4 基于内容的过滤

12.5.5 协同过滤

12.6 总结

第13章 将机器学习集成到你的组织中

13.1 本章假设

13.1.1 基于领导者的视角

13.1.2 细节很重要

13.1.3 机器学习需要了解业务

13.1.4 你做出的最重要的假设

13.1.5 机器学习的价值

13.2 重大组织风险

13.2.1 机器学习不是魔法

13.2.2 思维模型惯性

13.2.3 在不同文化中正确表述风险

13.2.4 孤立的团队并不能解决所有问题

13.3 实施模型

13.3.1 记住目标

13.3.2 绿地还是棕地

13.3.3 机器学习的角色和职责

13.3.4 如何雇用机器学习人员

13.4 组织设计和激励

13.4.1 战略

13.4.2 结构

13.4.3 流程

13.4.4 奖励

13.4.5 人员

13.4.6 关于排序的说明

13.5 总结

第14章 实用的机器学习组织实施示例

14.1 场景1:一个新的集中式机器学习团队

14.1.1 背景和组织描述

14.1.2 流程

14.1.3 奖励

14.1.4 人员

14.1.5 默认实施

14.2 场景2:分散式机器学习基础设施和专业知识

14.2.1 背景和组织描述

14.2.2 流程

14.2.3 奖励

14.2.4 人员

14.2.5 默认实施

14.3 场景3:混合使用集中式基础设施/分散式建模

14.3.1 背景和组织描述

14.3.2 流程

14.3.3 奖励

14.3.4 人员

14.3.5 默认实施

14.4 总结

第15章 案例研究:实践中的MLOps

15.1 在机器学习管道中适应隐私和数据保留政策

15.1.1 背景

15.1.2 问题和解决方案

15.1.3 要点

15.2 影响流量的持续机器学习模型

15.2.1 背景

15.2.2 问题和解决方案

15.2.3 要点

15.3 钢材检测

15.3.1 背景

15.3.2 问题和解决方案

15.3.3 要点

15.4 NLP MLOps:性能分析和分阶段负载测试

15.4.1 背景

15.4.2 问题和解决方案

15.4.3 要点

15.5 广告点击预测:数据库与现实

15.5.1 背景

15.5.2 问题和解决方案

15.5.3 要点

15.6 在机器学习工作流中测试和测量依赖关系

15.6.1 背景

15.6.2 问题和解决方案

15.6.3 要点

关于作者

关于封面

累计评论(0条) 0个书友正在讨论这本书 发表评论

发表评论

发表评论,分享你的想法吧!

买过这本书的人还买过

读了这本书的人还在读

回顶部