RDMA最佳实践

RDMA最佳实践#

远程直接内存访问（Remote Direct Memory Access，RDMA）是一种面向大规模数据中心与并行计算的互联技术，将网络传输与内存访问深度融合，通过旁路内核与硬件卸载，实现跨节点间高带宽、极低时延的数据直接搬移。RDMA 统一了分布式系统中的通信与存储访问路径，大幅降低了处理器的协议栈开销，支持异构计算单元间的高效协同，是构建高性能计算、AI 训练及分布式数据库的关键底层基础设施。

openYuanrong datasystem 现已集成对 RDMA 的支持，实现了分布式缓存在物理节点之间的硬件级加速。基于 RDMA 构建的全局缓存抽象，透明化了下层拓扑，使得应用能够以极简的编程方式，在跨节点通信场景中实现数据直通，充分释放底层硬件性能。

源码编译安装#

源码编译安装前请确保编译环境中具备如下软件依赖：

软件名称	版本	作用
openEuler	22.03	运行openYuanrong datasystem的操作系统
rdma-core-devel	41.0+	RDMA开发者软件依赖，也可安装厂商定制版本，如55mlnx37
Python	3.9-3.11	openYuanrong datasystem的编译依赖Python环境
GCC	7.5.0+	用于编译openYuanrong datasystem的C编译器
G++	7.5.0+	用于编译openYuanrong datasystem的C++编译器
libtool	-	编译构建openYuanrong datasystem的工具
git	-	openYuanrong datasystem使用的源代码管理工具
Make	-	openYuanrong datasystem使用的源代码管理工具
CMake	3.18.3+	编译构建openYuanrong datasystem的工具
patch	2.5+	openYuanrong datasystem使用的源代码补丁工具

下载源码#

git clone https://gitcode.com/openeuler/yuanrong-datasystem.git

编译#

默认配置下数据系统会启用异构能力的编译，需要编译环境中具备 CANN 依赖，如无需异构能力支持，可禁用异构能力。

启用 RDMA 支持

bash build.sh -A on

启用 RDMA，禁用异构能力

bash build.sh -A on -X off

编译成功后，会在output目录下产生如下编译产物：

output/
├── openyuanrong_datasystem-x.x.x-cp311-cp311-manylinux_2_34_x86_64.whl
└── yr-datasystem-vx.x.x.tar.gz

安装#

pip install output/openyuanrong_datasystem-*.whl

部署指南#

部署前，请确保满足以下必要条件：

节点准备：须至少在 2 个已配备 RDMA 硬件并安装相应软件（rdma-core）的节点上部署服务端组件。
集群依赖：openYuanrong datasystem 的集群管理功能依赖于 ETCD，因此需预先搭建并确保一个稳定可用的 ETCD 集群。

ETCD部署命令：

etcd --listen-client-urls http://0.0.0.0:2379 \
     --advertise-client-urls http://0.0.0.0:2379 &

进程部署

openYuanrong datasystem 进程部署主要通过 dscli 工具，在使用前请确保在两个节点中已安装 openYuanrong datasystem wheel 包。

分别在两个节点执行如下命令：

# 指定UCX使用的RDMA传输模式
export UCX_TLS=rc_x
# （可选）配置UCX日志
export UCX_LOG_FILE=/tmp/ucx.log
export UCX_LOG_LEVEL=ERROR
# 启动datasystem worker
dscli start \
    -w \
    --worker_address "${node_address}" \
    --etcd_address "${etcd_address}" \
    --enable_rdma true \
    --arena_per_tenant 1

参数说明：

UCX_TLS：用于选择UCX的RDMA传输模式，默认选用"rc_x" 加速型可靠连接传输模式，以获得最佳性能，若网卡不支持该模式，可选择"rc"、"ud"与"dc"等，详情参考UCX环境配置
UCX_LOG_FILE：指定UCX日志的输出文件路径（例如 /tmp/ucx.log）。仅当设置了UCX_LOG_LEVEL时生效。日志文件需确保运行用户有写入权限。
UCX_LOG_LEVEL：设置UCX日志级别，可选值包括FATAL、ERROR、WARN、INFO、DEBUG、TRACE。建议生产环境使用 ERROR 或 WARN，调试时使用 DEBUG或TRACE
node_address：当前节点的通信地址与端口。格式为 IP:Port，例如：192.168.0.1:31501。
etcd_address：ETCD集群的访问地址列表。格式为多个 IP:Port 的逗号分隔字符串，例如：192.168.1.100:2379,192.168.1.101:2379,192.168.1.102:2379。
arena_per_tenant：不应超过系统内存资源限制，避免初始化失败，默认值为1，在保证功能的前提下提供最快的启动速度

K8S部署

# 通过dscli获取helm chart包
dscli generate_helm_chart -o /tmp

# 通过源码获取helm chart包
git clone -b ${version} https://gitcode.com/openeuler/yuanrong-datasystem.git
cp -r yuanrong-datasystem/docker/chart/datasystem /tmp

命令运行成功后会在”/tmp”目录下生成helm chart目录。

编辑 /tmp/datasystem/values.yaml 对集群启动项进行配置：

global:
  # 其他配置项...
  # 请注意分配的arenaPerTenant及sharedMemory大小与允许的资源匹配

  imageRegistry: ""
  images:
    datasystem: "openyuanrong-datasystem:0.6.0"
  
  # （可选）UCX RDMA日志配置
  # 日志将保存至${logDir}/worker/ucx.log
  log:
    # 是否开启UCX RDMA日志
    enableUcxLog: false
    # 日志级别，建议生产环境使用ERROR/WARN，调试时可设为DEBUG/TRACE
    ucxLogLevel: "ERROR"

  etcd:
    # ETCD集群地址
    etcdAddress: "192.168.1.100:2379,192.168.1.101:2379,192.168.1.102:2379"
  
  performance:
    # arena数量不应超过系统内存资源限制，避免初始化失败
    # 默认值为1，在保证功能的前提下提供最快的启动速度
    arenaPerTenant: 1
    # 开启RDMA能力
    enableRdma: true
    # 指定UCX使用的RDMA传输模式
    # 默认选用"rc_x"加速型可靠连接传输模式，以获得最佳性能。
    # 若当前网卡或驱动不支持 "rc_x"，可尝试以下替代选项：
    #   - "rc"   : 可靠连接模式，兼容性更好；
    #   - "ud"   : 不可靠数据报模式，适用于低延迟、小消息场景；
    #   - "dc"   : 动态连接模式，适用于大规模节点通信（需Mellanox网卡支持）。
    # 更多传输模式及其详细说明，请参阅：
    # https://github.com/openucx/ucx/wiki/UCX-environment-parameters
    ucxTransportLayerSelection: "rc_x"
  
  # 挂载IB设备相关目录，默认已挂载/dev/infiniband与/sys/class/infiniband，无需重复挂载
  # 例外情况请参考以下格式自行挂载
  mount:
    - hostPath: ""
      mountPath: ""

部署集群：

helm install datasystem /tmp/datasystem

部署后可以通过 kubectl 命令查看集群状态：

kubectl get pods -o wide
# NAME                   READY   STATUS       RESTARTS      AGE    IP           NODE 
# ...
# ds-worker-5cw42        1/1     Running      1 (2s ago)    13s   127.0.0.1   Running
# ds-worker-4wv63        1/1     Running      1 (10s ago)   23s   127.0.0.2   Running

快速验证#

通过跨节点拉取数据的样例可快速验证RDMA的能力。

在节点1执行以下Python脚本：

from yr.datasystem import KVClient

client = KVClient("192.168.0.1", 31501)
client.init()
key = "key"
expected_val = b"value"
client.set(key, expected_val)
print("[OK] Set value")

在节点2执行以下Python脚本：

from yr.datasystem import KVClient

client = KVClient("192.168.0.2", 31501)
client.init()
key = "key"
expected_val = b"value"
val = client.get([key])
assert val[0] == expected_val
print("[OK] Get value")

注意：

脚本中初始化KVClient的入参需要替换为节点1/节点2服务端组件的IP和端口号。

当脚本执行完均打印OK时说明验证成功。

RDMA最佳实践

Contents

RDMA最佳实践#

源码编译安装#

下载源码#

编译#

安装#

部署指南#

快速验证#

推荐配置#

开启大页内存#

绑定NUMA节点#