block_exchange.cuh

File members: /home/runner/work/cccl/cccl/cub/cub/block/block_exchange.cuh
/******************************************************************************
 * Copyright (c) 2011, Duane Merrill.  All rights reserved.
 * Copyright (c) 2011-2018, NVIDIA CORPORATION.  All rights reserved.
 *
 * Redistribution and use in source and binary forms, with or without
 * modification, are permitted provided that the following conditions are met:
 *     * Redistributions of source code must retain the above copyright
 *       notice, this list of conditions and the following disclaimer.
 *     * Redistributions in binary form must reproduce the above copyright
 *       notice, this list of conditions and the following disclaimer in the
 *       documentation and/or other materials provided with the distribution.
 *     * Neither the name of the NVIDIA CORPORATION nor the
 *       names of its contributors may be used to endorse or promote products
 *       derived from this software without specific prior written permission.
 *
 * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND
 * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED
 * WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE ARE
 * DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE FOR ANY
 * DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES
 * (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
 * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND
 * ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT
 * (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS
 * SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 *
 ******************************************************************************/

#pragma once

#include <cub/config.cuh>

#if defined(_CCCL_IMPLICIT_SYSTEM_HEADER_GCC)
#  pragma GCC system_header
#elif defined(_CCCL_IMPLICIT_SYSTEM_HEADER_CLANG)
#  pragma clang system_header
#elif defined(_CCCL_IMPLICIT_SYSTEM_HEADER_MSVC)
#  pragma system_header
#endif // no system header

#include <cub/detail/uninitialized_copy.cuh>
#include <cub/util_ptx.cuh>
#include <cub/util_type.cuh>
#include <cub/warp/warp_exchange.cuh>

CUB_NAMESPACE_BEGIN

template <typename InputT,
          int BLOCK_DIM_X,
          int ITEMS_PER_THREAD,
          bool WARP_TIME_SLICING = false,
          int BLOCK_DIM_Y        = 1,
          int BLOCK_DIM_Z        = 1,
          int LEGACY_PTX_ARCH    = 0>
class BlockExchange
{
private:
  enum
  {
    BLOCK_THREADS = BLOCK_DIM_X * BLOCK_DIM_Y * BLOCK_DIM_Z,

    LOG_WARP_THREADS = CUB_LOG_WARP_THREADS(0),
    WARP_THREADS     = 1 << LOG_WARP_THREADS,
    WARPS            = (BLOCK_THREADS + WARP_THREADS - 1) / WARP_THREADS,

    LOG_SMEM_BANKS = CUB_LOG_SMEM_BANKS(0),
    SMEM_BANKS     = 1 << LOG_SMEM_BANKS,

    TILE_ITEMS = BLOCK_THREADS * ITEMS_PER_THREAD,

    TIME_SLICES = (WARP_TIME_SLICING) ? WARPS : 1,

    TIME_SLICED_THREADS = (WARP_TIME_SLICING) ? CUB_MIN(BLOCK_THREADS, WARP_THREADS) : BLOCK_THREADS,
    TIME_SLICED_ITEMS   = TIME_SLICED_THREADS * ITEMS_PER_THREAD,

    WARP_TIME_SLICED_THREADS = CUB_MIN(BLOCK_THREADS, WARP_THREADS),
    WARP_TIME_SLICED_ITEMS   = WARP_TIME_SLICED_THREADS * ITEMS_PER_THREAD,

    // Insert padding to avoid bank conflicts during raking when items per thread is a power of two and > 4 (otherwise
    // we can typically use 128b loads)
    INSERT_PADDING = (ITEMS_PER_THREAD > 4) && (PowerOfTwo<ITEMS_PER_THREAD>::VALUE),
    PADDING_ITEMS  = (INSERT_PADDING) ? (TIME_SLICED_ITEMS >> LOG_SMEM_BANKS) : 0,
  };

  struct __align__(16) _TempStorage
  {
    InputT buff[TIME_SLICED_ITEMS + PADDING_ITEMS];
  };

public:
  struct TempStorage : Uninitialized<_TempStorage>
  {};

private:
  _TempStorage& temp_storage;

  unsigned int linear_tid;
  unsigned int lane_id;
  unsigned int warp_id;
  unsigned int warp_offset;

  _CCCL_DEVICE _CCCL_FORCEINLINE _TempStorage& PrivateStorage()
  {
    __shared__ _TempStorage private_storage;
    return private_storage;
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToStriped(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = (linear_tid * ITEMS_PER_THREAD) + ITEM;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    CTA_SYNC();

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = int(ITEM * BLOCK_THREADS) + linear_tid;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToStriped(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<true> /*time_slicing*/)
  {
    InputT temp_items[ITEMS_PER_THREAD];

#pragma unroll
    for (int SLICE = 0; SLICE < TIME_SLICES; SLICE++)
    {
      const int SLICE_OFFSET = SLICE * TIME_SLICED_ITEMS;
      const int SLICE_OOB    = SLICE_OFFSET + TIME_SLICED_ITEMS;

      CTA_SYNC();

      if (warp_id == SLICE)
      {
#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = (lane_id * ITEMS_PER_THREAD) + ITEM;
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
        }
      }

      CTA_SYNC();

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        // Read a strip of items
        const int STRIP_OFFSET = ITEM * BLOCK_THREADS;
        const int STRIP_OOB    = STRIP_OFFSET + BLOCK_THREADS;

        if ((SLICE_OFFSET < STRIP_OOB) && (SLICE_OOB > STRIP_OFFSET))
        {
          int item_offset = STRIP_OFFSET + linear_tid - SLICE_OFFSET;
          if ((item_offset >= 0) && (item_offset < TIME_SLICED_ITEMS))
          {
            if (INSERT_PADDING)
            {
              item_offset += item_offset >> LOG_SMEM_BANKS;
            }
            temp_items[ITEM] = temp_storage.buff[item_offset];
          }
        }
      }
    }

// Copy
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      output_items[ITEM] = temp_items[ITEM];
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToWarpStriped(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = warp_offset + ITEM + (lane_id * ITEMS_PER_THREAD);
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    WARP_SYNC(0xffffffff);

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = warp_offset + (ITEM * WARP_TIME_SLICED_THREADS) + lane_id;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToWarpStriped(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<true> /*time_slicing*/)
  {
    if (warp_id == 0)
    {
#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        int item_offset = ITEM + (lane_id * ITEMS_PER_THREAD);
        if (INSERT_PADDING)
        {
          item_offset += item_offset >> LOG_SMEM_BANKS;
        }
        detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
      }

      WARP_SYNC(0xffffffff);

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        int item_offset = (ITEM * WARP_TIME_SLICED_THREADS) + lane_id;
        if (INSERT_PADDING)
        {
          item_offset += item_offset >> LOG_SMEM_BANKS;
        }
        output_items[ITEM] = temp_storage.buff[item_offset];
      }
    }

#pragma unroll
    for (unsigned int SLICE = 1; SLICE < TIME_SLICES; ++SLICE)
    {
      CTA_SYNC();

      if (warp_id == SLICE)
      {
#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = ITEM + (lane_id * ITEMS_PER_THREAD);
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
        }

        WARP_SYNC(0xffffffff);

#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = (ITEM * WARP_TIME_SLICED_THREADS) + lane_id;
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          output_items[ITEM] = temp_storage.buff[item_offset];
        }
      }
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void StripedToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = int(ITEM * BLOCK_THREADS) + linear_tid;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    CTA_SYNC();

// No timeslicing
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = (linear_tid * ITEMS_PER_THREAD) + ITEM;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void StripedToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<true> /*time_slicing*/)
  {
    // Warp time-slicing
    InputT temp_items[ITEMS_PER_THREAD];

#pragma unroll
    for (int SLICE = 0; SLICE < TIME_SLICES; SLICE++)
    {
      const int SLICE_OFFSET = SLICE * TIME_SLICED_ITEMS;
      const int SLICE_OOB    = SLICE_OFFSET + TIME_SLICED_ITEMS;

      CTA_SYNC();

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        // Write a strip of items
        const int STRIP_OFFSET = ITEM * BLOCK_THREADS;
        const int STRIP_OOB    = STRIP_OFFSET + BLOCK_THREADS;

        if ((SLICE_OFFSET < STRIP_OOB) && (SLICE_OOB > STRIP_OFFSET))
        {
          int item_offset = STRIP_OFFSET + linear_tid - SLICE_OFFSET;
          if ((item_offset >= 0) && (item_offset < TIME_SLICED_ITEMS))
          {
            if (INSERT_PADDING)
            {
              item_offset += item_offset >> LOG_SMEM_BANKS;
            }
            detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
          }
        }
      }

      CTA_SYNC();

      if (warp_id == SLICE)
      {
#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = (lane_id * ITEMS_PER_THREAD) + ITEM;
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          temp_items[ITEM] = temp_storage.buff[item_offset];
        }
      }
    }

// Copy
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      output_items[ITEM] = temp_items[ITEM];
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void WarpStripedToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = warp_offset + (ITEM * WARP_TIME_SLICED_THREADS) + lane_id;
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    WARP_SYNC(0xffffffff);

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = warp_offset + ITEM + (lane_id * ITEMS_PER_THREAD);
      if (INSERT_PADDING)
      {
        item_offset += item_offset >> LOG_SMEM_BANKS;
      }
      detail::uninitialized_copy_single(output_items + ITEM, temp_storage.buff[item_offset]);
    }
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void WarpStripedToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD], Int2Type<true> /*time_slicing*/)
  {
#pragma unroll
    for (unsigned int SLICE = 0; SLICE < TIME_SLICES; ++SLICE)
    {
      CTA_SYNC();

      if (warp_id == SLICE)
      {
#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = (ITEM * WARP_TIME_SLICED_THREADS) + lane_id;
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
        }

        WARP_SYNC(0xffffffff);

#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = ITEM + (lane_id * ITEMS_PER_THREAD);
          if (INSERT_PADDING)
          {
            item_offset += item_offset >> LOG_SMEM_BANKS;
          }
          output_items[ITEM] = temp_storage.buff[item_offset];
        }
      }
    }
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD],
    Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = ranks[ITEM];
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    CTA_SYNC();

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = (linear_tid * ITEMS_PER_THREAD) + ITEM;
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT ranks[ITEMS_PER_THREAD],
    Int2Type<true> /*time_slicing*/)
  {
    InputT temp_items[ITEMS_PER_THREAD];

#pragma unroll
    for (int SLICE = 0; SLICE < TIME_SLICES; SLICE++)
    {
      CTA_SYNC();

      const int SLICE_OFFSET = TIME_SLICED_ITEMS * SLICE;

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        int item_offset = ranks[ITEM] - SLICE_OFFSET;
        if ((item_offset >= 0) && (item_offset < WARP_TIME_SLICED_ITEMS))
        {
          if (INSERT_PADDING)
          {
            item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
          }
          detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
        }
      }

      CTA_SYNC();

      if (warp_id == SLICE)
      {
#pragma unroll
        for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
        {
          int item_offset = (lane_id * ITEMS_PER_THREAD) + ITEM;
          if (INSERT_PADDING)
          {
            item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
          }
          temp_items[ITEM] = temp_storage.buff[item_offset];
        }
      }
    }

// Copy
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      output_items[ITEM] = temp_items[ITEM];
    }
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStriped(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD],
    Int2Type<false> /*time_slicing*/)
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = ranks[ITEM];
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
    }

    CTA_SYNC();

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = int(ITEM * BLOCK_THREADS) + linear_tid;
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStriped(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD],
    Int2Type<true> /*time_slicing*/)
  {
    InputT temp_items[ITEMS_PER_THREAD];

#pragma unroll
    for (int SLICE = 0; SLICE < TIME_SLICES; SLICE++)
    {
      const int SLICE_OFFSET = SLICE * TIME_SLICED_ITEMS;
      const int SLICE_OOB    = SLICE_OFFSET + TIME_SLICED_ITEMS;

      CTA_SYNC();

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        int item_offset = ranks[ITEM] - SLICE_OFFSET;
        if ((item_offset >= 0) && (item_offset < WARP_TIME_SLICED_ITEMS))
        {
          if (INSERT_PADDING)
          {
            item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
          }
          detail::uninitialized_copy_single(temp_storage.buff + item_offset, input_items[ITEM]);
        }
      }

      CTA_SYNC();

#pragma unroll
      for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
      {
        // Read a strip of items
        const int STRIP_OFFSET = ITEM * BLOCK_THREADS;
        const int STRIP_OOB    = STRIP_OFFSET + BLOCK_THREADS;

        if ((SLICE_OFFSET < STRIP_OOB) && (SLICE_OOB > STRIP_OFFSET))
        {
          int item_offset = STRIP_OFFSET + linear_tid - SLICE_OFFSET;
          if ((item_offset >= 0) && (item_offset < TIME_SLICED_ITEMS))
          {
            if (INSERT_PADDING)
            {
              item_offset += item_offset >> LOG_SMEM_BANKS;
            }
            temp_items[ITEM] = temp_storage.buff[item_offset];
          }
        }
      }
    }

// Copy
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      output_items[ITEM] = temp_items[ITEM];
    }
  }

public:

  _CCCL_DEVICE _CCCL_FORCEINLINE BlockExchange()
      : temp_storage(PrivateStorage())
      , linear_tid(RowMajorTid(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))
      , lane_id(LaneId())
      , warp_id((WARPS == 1) ? 0 : linear_tid / WARP_THREADS)
      , warp_offset(warp_id * WARP_TIME_SLICED_ITEMS)
  {}

  _CCCL_DEVICE _CCCL_FORCEINLINE BlockExchange(TempStorage& temp_storage)
      : temp_storage(temp_storage.Alias())
      , linear_tid(RowMajorTid(BLOCK_DIM_X, BLOCK_DIM_Y, BLOCK_DIM_Z))
      , lane_id(LaneId())
      , warp_id((WARPS == 1) ? 0 : linear_tid / WARP_THREADS)
      , warp_offset(warp_id * WARP_TIME_SLICED_ITEMS)
  {}

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  StripedToBlocked(InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD])
  {
    StripedToBlocked(input_items, output_items, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  BlockedToStriped(InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD])
  {
    BlockedToStriped(input_items, output_items, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  WarpStripedToBlocked(InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD])
  {
    WarpStripedToBlocked(input_items, output_items, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  BlockedToWarpStriped(InputT (&input_items)[ITEMS_PER_THREAD], OutputT (&output_items)[ITEMS_PER_THREAD])
  {
    BlockedToWarpStriped(input_items, output_items, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToBlocked(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
    ScatterToBlocked(input_items, output_items, ranks, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStriped(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
    ScatterToStriped(input_items, output_items, ranks, Int2Type<WARP_TIME_SLICING>());
  }

  template <typename OutputT, typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStripedGuarded(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = ranks[ITEM];
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      if (ranks[ITEM] >= 0)
      {
        temp_storage.buff[item_offset] = input_items[ITEM];
      }
    }

    CTA_SYNC();

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = int(ITEM * BLOCK_THREADS) + linear_tid;
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

  template <typename OutputT, typename OffsetT, typename ValidFlag>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStripedFlagged(
    InputT (&input_items)[ITEMS_PER_THREAD],
    OutputT (&output_items)[ITEMS_PER_THREAD],
    OffsetT (&ranks)[ITEMS_PER_THREAD],
    ValidFlag (&is_valid)[ITEMS_PER_THREAD])
  {
#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = ranks[ITEM];
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      if (is_valid[ITEM])
      {
        temp_storage.buff[item_offset] = input_items[ITEM];
      }
    }

    CTA_SYNC();

#pragma unroll
    for (int ITEM = 0; ITEM < ITEMS_PER_THREAD; ITEM++)
    {
      int item_offset = int(ITEM * BLOCK_THREADS) + linear_tid;
      if (INSERT_PADDING)
      {
        item_offset = SHR_ADD(item_offset, LOG_SMEM_BANKS, item_offset);
      }
      output_items[ITEM] = temp_storage.buff[item_offset];
    }
  }

#ifndef DOXYGEN_SHOULD_SKIP_THIS // Do not document

  _CCCL_DEVICE _CCCL_FORCEINLINE void StripedToBlocked(InputT (&items)[ITEMS_PER_THREAD])
  {
    StripedToBlocked(items, items);
  }

  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToStriped(InputT (&items)[ITEMS_PER_THREAD])
  {
    BlockedToStriped(items, items);
  }

  _CCCL_DEVICE _CCCL_FORCEINLINE void WarpStripedToBlocked(InputT (&items)[ITEMS_PER_THREAD])
  {
    WarpStripedToBlocked(items, items);
  }

  _CCCL_DEVICE _CCCL_FORCEINLINE void BlockedToWarpStriped(InputT (&items)[ITEMS_PER_THREAD])
  {
    BlockedToWarpStriped(items, items);
  }

  template <typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  ScatterToBlocked(InputT (&items)[ITEMS_PER_THREAD], OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
    ScatterToBlocked(items, items, ranks);
  }

  template <typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  ScatterToStriped(InputT (&items)[ITEMS_PER_THREAD], OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
    ScatterToStriped(items, items, ranks);
  }

  template <typename OffsetT>
  _CCCL_DEVICE _CCCL_FORCEINLINE void
  ScatterToStripedGuarded(InputT (&items)[ITEMS_PER_THREAD], OffsetT (&ranks)[ITEMS_PER_THREAD])
  {
    ScatterToStripedGuarded(items, items, ranks);
  }

  template <typename OffsetT, typename ValidFlag>
  _CCCL_DEVICE _CCCL_FORCEINLINE void ScatterToStripedFlagged(
    InputT (&items)[ITEMS_PER_THREAD], OffsetT (&ranks)[ITEMS_PER_THREAD], ValidFlag (&is_valid)[ITEMS_PER_THREAD])
  {
    ScatterToStriped(items, items, ranks, is_valid);
  }

#endif // DOXYGEN_SHOULD_SKIP_THIS
};

CUB_NAMESPACE_END