datasystem.DsTensorClient.mset_page_attn_blockwise_d2h

datasystem.DsTensorClient.mset_page_attn_blockwise_d2h#

datasystem.DsTensorClient.mset_page_attn_blockwise_d2h(keys, layer_tensors, block_ids)#

将 PagedAttention 的层级 Tensor 异步写入 Host 中。

若 Device 的 Blob 中存在多个内存地址时，会自动将数据拼接后写入 Host。

若 Host 的 key 不再使用，可调用 delete 接口删除。

参数：

keys (list) - Host 的键列表。约束：最多允许10,000个键。
layer_tensors (list) - PyTorch 的 Tensor 列表。约束：Tensor 的地址空间必须连续。
block_ids (list) - 要发布的块ID列表，例如 [0, 3, 5] 表示只传输第 0、3、5 个块。注意：该列表作用于每个 Tensor，即每个 Tensor 都会按相同的 block_ids 提取子块。

write_mode = WriteMode.NONE_L2_CACHE
ttl_second = 0
existence = ExistenceOpt.NONE

返回：

异常：