《大语言模型GUI智能体 : 人机交互新时代》提出“语言-视觉-动作”一体化的GUI智能体交互新范式,实现引领人机交互从功能驱动迈向自然语言驱动的智能革命。 全书呈现GUI 智能体的基础架构、核心模块、训练数据、评估体系、跨平台应用的全景视图。 《大语言模型GUI智能体 : 人机交互新时代》有幸得到微软杰出科学家、微软(亚洲)互联网工程院首席科学家张冬梅作序;清华大学人工智能产业研究院(AIR)研究员/教授曹婷,微软首席研究员董力,哈尔滨工业大学(深圳)教授高翠芸,微软首席研究员、微软全球合伙人林庆维,北京航空航天大学教授王向荣,北京大学计算机学院软件科学与工程系系主任、复旦大学先计算系统研究院院长谢涛联合力荐!
售 价:¥
纸质售价:¥84.20购买纸书
6.6
温馨提示:数字商品不支持退换货,不提供源文件,不支持导出打印
为你推荐

前折页
内容简介
推荐序
前言
第1部分:基础理论与背景
第1章 大语言模型驱动下的人机交互革命
1.1 人机交互演进简史
1.1.1 从CLI到GUI:易用性与效率的折中
1.1.2 GUI的优势与局限
1.2 大语言模型的发展与影响
1.2.1 大语言模型的关键特征
1.2.2 大语言模型驱动智能体的诞生
1.3 大语言模型驱动的GUI智能体的兴起
1.3.1 GUI智能体的定义和意义
1.3.2 关键技术和形成动因
1.3.3 研究现状和初步应用概览
1.4 与API-Only智能体的比较与互补
1.4.1 API-Only智能体:成熟度与早期优势
1.4.2 GUI智能体:多模态下的交互变革
1.4.3 关键差异与适用场景
1.4.4 融合趋势:混合式智能体的未来
1.5 本章小结
第2章 GUI自动化的发展之路
2.1 早期GUI自动化
2.1.1 传统GUI自动化方法概览
2.1.2 典型工具与软件
2.2 GUI自动化的智能之路
2.2.1 机器学习在GUI自动化中的作用
2.2.2 计算机视觉在GUI自动化中的作用
2.2.3 自然语言处理在GUI自动化中的作用
2.2.4 强化学习在GUI自动化中的独特优势
2.3 本章小结
第3章 大语言模型与通用智能体
3.1 大语言模型基础
3.1.1 预训练
3.1.2 微调
3.1.3 后训练
3.1.4 视觉与文本的融合
3.2 通用智能体
3.2.1 推理分析
3.2.2 记忆存储
3.2.3 工具调用
3.3 本章小结
第2部分:核心技术与方法
第4章 GUI智能体的体系结构与核心设计
4.1 基础架构与工作流程
4.1.1 总体架构概览
4.1.2 工作流程总览
4.2 环境感知与平台适配
4.2.1 平台特性与适配挑战
4.2.2 环境状态捕获
4.3 提示工程
4.4 推理策略
4.4.1 规划
4.4.2 动作推断
4.4.3 补充输出
4.5 动作执行
4.5.1 GUI操作
4.5.2 原生API调用
4.5.3 AI工具辅助
4.6 记忆管理
4.6.1 短期记忆:支撑运行时上下文连贯
4.6.2 长期记忆:沉淀经验与跨任务泛化
4.7 本章小结
第5章 GUI智能体的高级增强与自我演进
5.1 基于计算机视觉的GUI控件识别
5.1.1 OCR、目标检测与控件识别
5.1.2 多模态在复杂GUI解析中的实践:以OmniParser为例
5.2 多智能体协作
5.2.1 专业化分工
5.2.2 智能体间协作
5.3 强化学习
5.3.1 GUI智能体在交互式环境下的建模
5.3.2 基于强化学习的GUI智能体训练
5.4 自我反思与自我进化
5.4.1 自我反思
5.4.2 自我进化
5.5 本章小结
第3部分:实践案例与应用
第6章 大语言模型驱动的GUI智能体框架与平台实践
6.1 网页端GUI智能体
6.1.1 常见流程与关键技术
6.1.2 典型的网页端GUI智能体示例
6.2 移动端GUI智能体
6.2.1 常见流程与关键技术
6.2.2 典型的移动端GUI智能体示例
6.3 桌面端GUI智能体
6.3.1 常见流程与关键技术
6.3.2 典型桌面端GUI智能体示例
6.4 跨平台GUI智能体
6.4.1 “一次开发,多端适配”的挑战
6.4.2 框架迁移与版本管理
6.4.3 典型跨平台GUI智能体示例
6.5 工业界案例
6.5.1 Anthropic Computer Use
6.5.2 OpenAI Computer-Using Agent和Operator
6.6 本章小结
第7章 GUI智能体数据集的采集与构建
7.1 数据的类型与来源
7.2 数据采集管线
7.3 现有数据集案例
7.3.1 网页端数据集
7.3.2 移动端数据集
7.3.3 桌面端数据集
7.3.4 跨平台数据集
7.4 本章小结
第8章 GUI智能体的大行动模型训练
8.1 从理解到执行:大行动模型的崛起
8.2 不同平台的大行动模型应用
8.2.1 网页端GUI场景:从指令到控件操作
8.2.2 移动端与桌面端大行动模型的对比与关键技术差异
8.2.3 跨平台大行动模型的融合与挑战
8.3 模型训练与微调
8.3.1 数据收集与准备
8.3.2 大行动模型训练主流框架详解
8.4 大行动模型案例分析
8.4.1 设计思路与架构概览
8.4.2 模型训练方法
8.4.3 集成部署与在线效果评估
8.5 本章小结
第9章 GUI智能体评测方法与展望
9.1 评测体系概览
9.2 测试用例设计
9.2.1 测试用例设计中的挑战
9.2.2 设计原则
9.2.3 用例类型
9.3 评估指标
9.3.1 成功率维度
9.3.2 效率维度
9.3.3 合规性与安全性维度
9.3.4 稳健性维度
9.3.5 用户满意度维度
9.4 度量标准
9.4.1 文本匹配
9.4.2 图像匹配
9.4.3 元素匹配
9.4.4 动作匹配
9.4.5 状态校验
9.5 常见评测平台与基准集
9.5.1 主流评测平台介绍
9.5.2 GUI智能体评测基准示例
9.6 未来发展展望
9.7 本章小结
第10章 详解Windows GUI智能体UFO
10.1 项目背景与时代意义
10.1.1 Windows平台的自动化挑战
10.1.2 UFO项目的提出与定位
10.2 UFO系统总体架构
10.2.1 架构设计理念
10.2.2 核心架构流程总览
10.2.3 虚拟化与安全隔离设计
10.2.4 多智能体协同模式
10.3 HostAgent:系统级编排与执行控制
10.3.1 模块定位与功能概述
10.3.2 体系结构与主要流程
10.3.3 工程实现细节
10.3.4 有限状态机与可靠性保障
10.3.5 内存管理与状态同步机制
10.4 AppAgent:应用专属智能体
10.4.1 模块定位与功能概述
10.4.2 架构原理与工作机制
10.4.3 本地有限状态机
10.4.4 内存管理与状态协同
10.5 关键技术模块详解
10.5.1 混合控件检测机制
10.5.2 统一GUI-API动作编排引擎
10.5.3 知识基座与持续增强机制
10.5.4 推测性多步动作执行优化
10.6 典型使用流程与案例分析
10.6.1 典型流程与案例解析
10.6.2 实践建议与常见问题
10.7 本章小结
第11章 GUI智能体的商业化落地与应用
11.1 GUI智能体应用现状概览
11.2 GUI智能体产品分析
11.2.1 基于网页浏览器的GUI智能体
11.2.2 跨平台GUI智能体
11.2.3 中国本土化GUI智能体产品
11.3 按应用场景分类的实际落地案例
11.3.1 企业办公自动化
11.3.2 电子商务与客户服务
11.3.3 软件开发与测试
11.4 实施经验与挑战分析
11.4.1 成功实施的关键因素
11.4.2 常见挑战与解决方案
11.5 新兴技术与未来趋势
11.5.1 多智能体协作技术
11.5.2 无代码GUI自动化平台
11.5.3 行业特定解决方案
11.6 实施教训与最佳实践
11.6.1 从失败案例中汲取的经验
11.6.2 最佳实践建议
11.7 结论与建议
11.7.1 总体评估
11.7.2 企业应用建议
11.8 本章小结
第4部分:未来展望与挑战
第12章 面向未来的挑战与研究方向
12.1 隐私保护:桌面端智能体的核心壁垒
12.1.1 背景与挑战
12.1.2 研究与工程应对策略
12.2 延迟、性能与交互流畅性
12.2.1 背景与挑战
12.2.2 研究与工程应对策略
12.3 安全性与可靠性:守住自动化底线
12.3.1 背景与挑战
12.3.2 研究与工程应对策略
12.4 人机协作与交互智能
12.4.1 背景与挑战
12.4.2 研究与工程应对策略
12.5 个性化与用户定制
12.5.1 背景与挑战
12.5.2 研究与工程应对策略
12.6 伦理与合规治理
12.6.1 背景与挑战
12.6.2 研究与工程应对策略
12.7 大规模泛化与可持续进化
12.7.1 背景与挑战
12.7.2 研究与工程应对策略
12.8 本章小结
第13章 本书总结
13.1 内容回顾与关键技术总结
13.2 实际应用与案例启示
13.3 面临的挑战与应对策略
13.4 未来研究方向与发展趋势
13.5 结语
参考文献
后折页
买过这本书的人还买过
读了这本书的人还在读
同类图书排行榜