【tensorflow 解析】-【2】

tensorflow 结构

我们为大规模分布式训练与推理设计了tensorflow，但它也是足够灵活地支持实验与新的机器学习模型和系统级的优化。

该文档描述了尽可能灵活与可扩展相结合的系统结构。

总览

tensorflow 运行时是一个交叉平台库，图1 阐明了它的通用结构，一个C API 核心运行时在不同编程语言上分离了用户层代码。

【tensorflow 解析】-【2】

本文聚焦下列层：

Client
1. 定义了作为数据流的计算
Distributed Master
1. 根据session.run（）的参数定义，从图中减枝特定的子图
2. 将子图分割成多个运行在不同处理器和设备的块。
3. 分发图块到工作服务器。
4. 通过工作服务器初始化图执行块。
Worker Services
1. 使用适当的kernel 实现，调度图操作的执行到可用的硬件（CPU, GPU）上。
2. 从别的工作服务器发射与接收操作的结果。
Kernel Implementations
1. 用于独立的图操作的计算平台。

图2 表明了这些组件的交互。"/job:worker/task:0" 与 "/job:ps/task:0" 是工作服务器的任务。"PS" 代表 “parameter server”：一个对于存储与更新模型参数的任务响应。别的任务达到最优参数的时候，会发射更新到这些参数。任务之间是不需要这种特殊的任务分工，但在分布式训练中很常见。
【tensorflow 解析】-【2】

注意到这种分布式master 和 worker 服务器只存在于分布式 tensorflow, 单处理器版本的tensorflow 包括一个特殊的部分实现–做master的一切工作，但仅与本地处理的设备通信。

以下各节将更详细地描述核心 TensorFlow layers，并逐步完成示例图的处理。

Client

用户写客户端 tensorflow 程序来构建计算图。这个程序既可以直接由独立的操作构成，也可以使用一个方便的库如 Estimators API 来构建神经网络层与别的高层抽象。TensorFlow 支持多个客户端语言，Python. C++, 大多数的训练库依然是Python，但C++ 已经支持高效的推断环节。

Client 创建了一个 session 会话，它发射图的定义到分布式 master 作为一个 tf.GraphDef protocol buffer。当client 评估一个节点或图中的节点，评估器触发一个到分布式master的调用来初始化计算。

图3，client 已经构建好了一个图，由权值W 乘以特征向量X，再加上偏置项 B，并保持结果到一个变量（S）

【tensorflow 解析】-【2】