datasystem.DsTensorClient.mset_page_attn_blockwise_d2h

datasystem.DsTensorClient.mset_page_attn_blockwise_d2h#

datasystem.DsTensorClient.mset_page_attn_blockwise_d2h(keys, layer_tensors, block_ids)#

将 PagedAttention 的层级 Tensor 异步写入 Host 中。

若 Device 的 Blob 中存在多个内存地址时,会自动将数据拼接后写入 Host。

若 Host 的 key 不再使用,可调用 delete 接口删除。

参数:
  • keys (list) - Host 的键列表。约束:最多允许10,000个键。

  • layer_tensors (list) - PyTorch 的 Tensor 列表。约束:Tensor 的地址空间必须连续。

  • block_ids (list) - 要发布的块ID列表,例如 [0, 3, 5] 表示只传输第 0、3、5 个块。注意:该列表作用于每个 Tensor,即每个 Tensor 都会按相同的 block_ids 提取子块。

write_mode = WriteMode.NONE_L2_CACHE
ttl_second = 0
existence = ExistenceOpt.NONE
返回:
  • Future (Future) - 可通过该Future对象查询异步请求执行结果。

异常:
  • TypeError - 输入参数存在非法值。

  • RuntimeError - 给定列表的对象 key 都未执行成功。