cutlass/transform_2threadblock_2predicated__tile__iterator_8h_source.html

 /***************************************************************************************************
  * Copyright (c) 2017-2019, NVIDIA CORPORATION.  All rights reserved.
  *
  * Redistribution and use in source and binary forms, with or without modification, are permitted
  * provided that the following conditions are met:
  *     * Redistributions of source code must retain the above copyright notice, this list of
  *       conditions and the following disclaimer.
  *     * Redistributions in binary form must reproduce the above copyright notice, this list of
  *       conditions and the following disclaimer in the documentation and/or other materials
  *       provided with the distribution.
  *     * Neither the name of the NVIDIA CORPORATION nor the names of its contributors may be used
  *       to endorse or promote products derived from this software without specific prior written
  *       permission.
  *
  * THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS" AND ANY EXPRESS OR
  * IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY AND
  * FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL NVIDIA CORPORATION BE LIABLE
  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING,
  * BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
  * OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
  * STRICT LIABILITY, OR TOR (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
  * OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
  *
  **************************************************************************************************/
 #pragma once

 #include "cutlass/arch/memory.h"
 #include "cutlass/transform/threadblock/predicated_tile_access_iterator.h"


 namespace cutlass {
 namespace transform {
 namespace threadblock {


 // template <typename Iterator>
 // __global__ void kernel(
 //   typename Iterator::Params params,
 //   typename Iterator::Element *ptr,
 //   TensorCoord extent) {
 //
 //   typename Iterator::Fragment fragment;
 //
 //   TensorCoord threadblock_offset(0, 0);
 //
 //   Iterator iter(params, ptr, extent, threadIdx.x, threadblock_offsets);
 //
 //
 //   fragment = *iter;        // load "residue" tile first
 //   ++iter;                  // advance to first "steady state" tile and update internal masks
 //
 //
 //   #pragma unroll
 //   for (int i = Remaining - 1; i >= 0; --i) {
 //
 //     f(fragment);
 //
 //     if (!i) {
 //       iter.clear_mask();   // light-weight operation to clear masks - subsequent loads become NO-OPs.
 //     }
 //
 //     fragment = *iter;      // load tile during "steady state" phase
 //     ++iter;                // advance to next tile - lightweight due to steady-state masks
 //   }
 // }
 //
 // void host(TensorView<Element, 2, layout::PitchLinear> view) {
 //
 //   using Iterator = transform::threadblock::PredicatedTileIterator;
 //
 //   typename Iterator::Params params(view.layout());
 //
 //   kernel<Iterator>(params, view.data());
 // }
 template <
   typename Shape,
   typename Element,
   typename Layout,
   int AdvanceRank,
   typename ThreadMap,
   int AccessSize = ThreadMap::kElementsPerAccess
 >
 class PredicatedTileIterator;


 template <typename Shape_, typename Element_, int AdvanceRank,
           typename ThreadMap_, int AccessSize>
 class PredicatedTileIterator<Shape_, Element_, layout::PitchLinear, AdvanceRank,
                              ThreadMap_, AccessSize> {
  public:
   static_assert(
       AdvanceRank == 0 || AdvanceRank == 1,
       "Specialization for pitch-linear iterator may along advance along the "
       "contiguous(rank=0) or strided(rank=1) dimension.");

   using Shape = Shape_;
   using Element = Element_;
   using Layout = layout::PitchLinear;
   static int const kAdvanceRank = AdvanceRank;
   using ThreadMap = ThreadMap_;

   using Index = typename Layout::Index;
   using LongIndex = typename Layout::LongIndex;

   using TensorRef = TensorRef<Element, Layout>;
   using TensorView = TensorView<Element, Layout>;
   using TensorCoord = typename Layout::TensorCoord;

   using Pointer = Element *;
   using NonConstPointer = typename platform::remove_const<Element>::type *;

   using AccessType = AlignedArray<Element, AccessSize, (AccessSize * sizeof_bits<Element>::value / 8)>;

   using TileAccessIterator =
       PredicatedTileAccessIterator<Shape, Element, Layout, kAdvanceRank,
                                    ThreadMap, AccessType>;

   static int const kAccessesPerVector = TileAccessIterator::kAccessesPerVector;

   using Fragment = cutlass::Array<Element, ThreadMap::Iterations::kCount *
                                                ThreadMap::kElementsPerAccess>;

   using Mask = typename TileAccessIterator::Mask;

   class Params {
    public:
     friend PredicatedTileIterator;

    private:
     typename TileAccessIterator::Params params_;

    public:
     CUTLASS_HOST_DEVICE
     Params(Layout const &layout) : params_(layout) { }

     CUTLASS_HOST_DEVICE
     Params() { }
   };

  private:
   using BytePointer = char *;

  private:
   //
   // Data members
   //

   TileAccessIterator address_iterator_;

  public:
   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id,
       TensorCoord const &threadblock_offset)
       : address_iterator_(params.params_, pointer, extent, thread_id,
                           threadblock_offset) {}

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id
       )
       : PredicatedTileIterator(params, pointer, extent, thread_id,
                                make_Coord(0, 0)) {}

   CUTLASS_HOST_DEVICE
   void add_pointer_offset(LongIndex pointer_offset) {
     address_iterator_.add_pointer_offset(pointer_offset);
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator &operator++() {
     if (kAdvanceRank)
       address_iterator_.add_tile_offset({0, 1});
     else
       address_iterator_.add_tile_offset({1, 0});

     return *this;
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator operator++(int) {
     PredicatedTileIterator self(*this);
     operator++();
     return self;
   }

   CUTLASS_HOST_DEVICE
   void clear_mask() { address_iterator_.clear_mask(); }

   CUTLASS_HOST_DEVICE
   void enable_mask() { address_iterator_.enable_mask(); }

   CUTLASS_HOST_DEVICE
   void set_mask(Mask const &mask) { address_iterator_.set_mask(mask); }

   CUTLASS_HOST_DEVICE
   void get_mask(Mask &mask) { address_iterator_.get_mask(mask); }

   CUTLASS_DEVICE
   void load_with_pointer_offset(Fragment &frag, Index pointer_offset) {

     AccessType *frag_ptr = reinterpret_cast<AccessType *>(&frag);

     CUTLASS_PRAGMA_UNROLL
     for (int s = 0; s < ThreadMap::Iterations::kStrided; ++s) {
       CUTLASS_PRAGMA_UNROLL
       for (int c = 0; c < ThreadMap::Iterations::kContiguous; ++c) {

         CUTLASS_PRAGMA_UNROLL
         for (int v = 0; v < kAccessesPerVector; ++v) {

           int idx = v + kAccessesPerVector * (c + s * ThreadMap::Iterations::kContiguous);

           address_iterator_.set_iteration_index(idx);
           auto ptr = (address_iterator_.get() + pointer_offset);

           if (address_iterator_.valid()) {
               frag_ptr[idx] = *ptr;
           }
           ++address_iterator_;
         }
       }
     }
   }

   CUTLASS_DEVICE
   void load(Fragment &frag) { load_with_pointer_offset(frag, 0); }

   CUTLASS_DEVICE
   void store_with_pointer_offset(Fragment const &frag, Index pointer_offset) {
     address_iterator_.set_iteration_index(0);
     AccessType const *frag_ptr = reinterpret_cast<AccessType const *>(&frag);

     CUTLASS_PRAGMA_UNROLL
     for (int s = 0; s < ThreadMap::Iterations::kStrided; ++s) {
       CUTLASS_PRAGMA_UNROLL
       for (int c = 0; c < ThreadMap::Iterations::kContiguous; ++c) {
         CUTLASS_PRAGMA_UNROLL
         for (int v = 0; v < kAccessesPerVector; ++v) {

           int idx = v + kAccessesPerVector * (c + s * ThreadMap::Iterations::kContiguous);

           if (address_iterator_.valid()) {
             *(address_iterator_.get() + pointer_offset) = frag_ptr[idx];
           }
           ++address_iterator_;
         }
       }
     }
   }

   CUTLASS_DEVICE
   void store(Fragment const &frag) { store_with_pointer_offset(frag, 0); }
 };


 template <
   typename Shape_,
   typename Element_,
   int AdvanceRank,
   typename ThreadMap_,
   int AccessSize
 >
 class PredicatedTileIterator<Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize> {
 public:

   static_assert(AdvanceRank == 0 || AdvanceRank == 1,
     "Specialization for pitch-linear iterator may along advance along the "
     "contiguous(rank=0) or strided(rank=1) dimension.");

   using Shape = Shape_;
   using Element = Element_;
   using Layout = layout::ColumnMajor;
   static int const kAdvanceRank = AdvanceRank;
   using ThreadMap = ThreadMap_;

   using Index = typename Layout::Index;
   using LongIndex = typename Layout::LongIndex;

   using TensorRef = TensorRef<Element, Layout>;
   using TensorView = TensorView<Element, Layout>;
   using TensorCoord = typename Layout::TensorCoord;

   using Pointer = Element *;
   using NonConstPointer = typename platform::remove_const<Element>::type *;

   using UnderlyingIterator = PredicatedTileIterator<
     layout::PitchLinearShape<Shape::kRow, Shape::kColumn>,
     Element,
     layout::PitchLinear,
     (kAdvanceRank == 0 ? 0 : 1),
     ThreadMap,
     AccessSize
   >;

   using AccessType = typename UnderlyingIterator::AccessType;

   using Fragment = cutlass::Array<Element, ThreadMap::Iterations::kCount * ThreadMap::kElementsPerAccess>;

   using Mask = typename UnderlyingIterator::Mask;

   class Params {
   private:

     friend PredicatedTileIterator;

     typename UnderlyingIterator::Params params_;

   public:

     CUTLASS_HOST_DEVICE
     Params() { }

     CUTLASS_HOST_DEVICE
     Params(Layout const &layout): params_(layout::PitchLinear(layout.stride(0))) {

     }
   };


 private:

   //
   // Data members
   //

   UnderlyingIterator iterator_;

 public:

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
     Params const &params,
     Pointer pointer,
     TensorCoord extent,
     int thread_id,
     TensorCoord const &threadblock_offset
   ):
     iterator_(
       params.params_,
       pointer,
       layout::PitchLinearCoord(extent.row(), extent.column()),
       thread_id,
       layout::PitchLinearCoord(threadblock_offset.row(), threadblock_offset.column())
     ) { }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
     Params const &params,
     Pointer pointer,
     TensorCoord extent,
     int thread_id
   ): PredicatedTileIterator(params, pointer, extent, thread_id, make_Coord(0, 0)) { }

   CUTLASS_HOST_DEVICE
   void add_pointer_offset(LongIndex pointer_offset) {
     iterator_.add_pointer_offset(pointer_offset);
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator &operator++() {
     ++iterator_;
     return *this;
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator operator++(int) {
     PredicatedTileIterator self(*this);
     operator++();
     return self;
   }

   CUTLASS_HOST_DEVICE
   void clear_mask() {
     iterator_.clear_mask();
   }

   CUTLASS_HOST_DEVICE
   void enable_mask() {
     iterator_.enable_mask();
   }

   CUTLASS_HOST_DEVICE
   void set_mask(Mask const &mask) {
     iterator_.set_mask(mask);
   }

   CUTLASS_HOST_DEVICE
   void get_mask(Mask &mask) {
     iterator_.get_mask(mask);
   }

   CUTLASS_DEVICE
   void load_with_pointer_offset(Fragment &frag, Index pointer_offset) {
     iterator_.load_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void load(Fragment &frag) {
     load_with_pointer_offset(frag, 0);
   }

   CUTLASS_DEVICE
   void store_with_pointer_offset(Fragment const &frag, Index pointer_offset) {
     iterator_.store_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void store(Fragment const &frag) {
     store_with_pointer_offset(frag, 0);
   }
 };


 template <
   typename Shape_,
   typename Element_,
   int AdvanceRank,
   typename ThreadMap_,
   int AccessSize
 >
 class PredicatedTileIterator<Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize> {
 public:

   static_assert(AdvanceRank == 0 || AdvanceRank == 1,
     "Specialization for pitch-linear iterator may along advance along the "
     "contiguous(rank=0) or strided(rank=1) dimension.");

   using Shape = Shape_;
   using Element = Element_;
   using Layout = layout::RowMajor;
   static int const kAdvanceRank = AdvanceRank;
   using ThreadMap = ThreadMap_;

   using Index = typename Layout::Index;
   using LongIndex = typename Layout::LongIndex;

   using TensorRef = TensorRef<Element, Layout>;
   using TensorView = TensorView<Element, Layout>;
   using TensorCoord = typename Layout::TensorCoord;

   using Pointer = Element *;
   using NonConstPointer = typename platform::remove_const<Element>::type *;

   using UnderlyingIterator = PredicatedTileIterator<
     layout::PitchLinearShape<Shape::kColumn, Shape::kRow>,
     Element,
     layout::PitchLinear,
     (kAdvanceRank == 0 ? 1 : 0),
     ThreadMap,
     AccessSize
   >;

   using AccessType = typename UnderlyingIterator::AccessType;

   using Fragment = cutlass::Array<Element, ThreadMap::Iterations::kCount * ThreadMap::kElementsPerAccess>;

   using Mask = typename UnderlyingIterator::Mask;

   class Params {
   private:

     friend PredicatedTileIterator;

     typename UnderlyingIterator::Params params_;

   public:

     CUTLASS_HOST_DEVICE
     Params() { }

     CUTLASS_HOST_DEVICE
     Params(Layout const &layout): params_(layout::PitchLinear(layout.stride(0))) {

     };
   };


 private:

   //
   // Data members
   //

   UnderlyingIterator iterator_;

 public:

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
     Params const &params,
     Pointer pointer,
     TensorCoord extent,
     int thread_id,
     TensorCoord const &threadblock_offset
   ):
     iterator_(
       params.params_,
       pointer,
       layout::PitchLinearCoord(extent.column(), extent.row()),
       thread_id,
       layout::PitchLinearCoord(threadblock_offset.column(), threadblock_offset.row())
     ) { }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
     Params const &params,
     Pointer pointer,
     TensorCoord extent,
     int thread_id
   ): PredicatedTileIterator(params, pointer, extent, thread_id, make_Coord(0, 0)) { }

   CUTLASS_HOST_DEVICE
   void add_pointer_offset(LongIndex pointer_offset) {
     iterator_.add_pointer_offset(pointer_offset);
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator &operator++() {
     ++iterator_;
     return *this;
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator operator++(int) {
     PredicatedTileIterator self(*this);
     operator++();
     return self;
   }

   CUTLASS_HOST_DEVICE
   void clear_mask() {
     iterator_.clear_mask();
   }

   CUTLASS_HOST_DEVICE
   void enable_mask() {
     iterator_.enable_mask();
   }

   CUTLASS_HOST_DEVICE
   void set_mask(Mask const &mask) {
     iterator_.set_mask(mask);
   }

   CUTLASS_HOST_DEVICE
   void get_mask(Mask &mask) {
     iterator_.get_mask(mask);
   }

   CUTLASS_DEVICE
   void load_with_pointer_offset(Fragment &frag, Index pointer_offset) {
     iterator_.load_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void load(Fragment &frag) {
     load_with_pointer_offset(frag, 0);
   }

   CUTLASS_DEVICE
   void store_with_pointer_offset(Fragment const &frag, Index pointer_offset) {
     iterator_.store_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void store(Fragment const &frag) {
     store_with_pointer_offset(frag, 0);
   }
 };


 template <typename Shape_, typename Element_, int AdvanceRank,
           typename ThreadMap_, int AccessSize, int InterleavedK>
 class PredicatedTileIterator<Shape_, Element_,
                              layout::ColumnMajorInterleaved<InterleavedK>,
                              AdvanceRank, ThreadMap_, AccessSize> {
  public:
   static_assert(
       AdvanceRank == 0 || AdvanceRank == 1,
       "Specialization for pitch-linear iterator may along advance along the "
       "contiguous(rank=0) or strided(rank=1) dimension.");

   using Shape = Shape_;
   using Element = Element_;
   static int const kInterleavedK = InterleavedK;
   using Layout = layout::ColumnMajorInterleaved<kInterleavedK>;
   static int const kAdvanceRank = AdvanceRank;
   using ThreadMap = ThreadMap_;

   using Index = typename Layout::Index;
   using LongIndex = typename Layout::LongIndex;

   using TensorRef = TensorRef<Element, Layout>;
   using TensorView = TensorView<Element, Layout>;
   using TensorCoord = typename Layout::TensorCoord;

   using Pointer = Element *;
   using NonConstPointer = typename platform::remove_const<Element>::type *;

   using UnderlyingIterator = PredicatedTileIterator<
       layout::PitchLinearShape<Shape::kRow * kInterleavedK,
                                Shape::kColumn / kInterleavedK>,
       Element, layout::PitchLinear, (kAdvanceRank == 0 ? 0 : 1), ThreadMap, AccessSize>;


   using AccessType = typename UnderlyingIterator::AccessType;

   using Fragment = cutlass::Array<Element, ThreadMap::Iterations::kCount *
                                                ThreadMap::kElementsPerAccess>;

   using Mask = typename UnderlyingIterator::Mask;

   class Params {
    private:
     friend PredicatedTileIterator;

     typename UnderlyingIterator::Params params_;

    public:
     CUTLASS_HOST_DEVICE
     Params() {}

     CUTLASS_HOST_DEVICE
     Params(Layout const &layout)
         : params_(layout::PitchLinear(layout.stride(0))) {}
   };

  private:
   //
   // Data members
   //

   UnderlyingIterator iterator_;

  public:
   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id,
       TensorCoord const &threadblock_offset)
       : iterator_(params.params_, pointer,
                   layout::PitchLinearCoord(extent.row() * kInterleavedK,
                                            extent.column() / kInterleavedK),
                   thread_id,
                   layout::PitchLinearCoord(
                       threadblock_offset.row() * kInterleavedK,
                       threadblock_offset.column() / kInterleavedK)) {}

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id
       )
       : PredicatedTileIterator(params, pointer, extent, thread_id,
                                make_Coord(0, 0)) {}

   CUTLASS_HOST_DEVICE
   void add_pointer_offset(LongIndex pointer_offset) {
     iterator_.add_pointer_offset(pointer_offset);
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator &operator++() {
     ++iterator_;
     return *this;
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator operator++(int) {
     PredicatedTileIterator self(*this);
     operator++();
     return self;
   }

   CUTLASS_HOST_DEVICE
   void clear_mask() { iterator_.clear_mask(); }

   CUTLASS_HOST_DEVICE
   void enable_mask() { iterator_.enable_mask(); }

   CUTLASS_HOST_DEVICE
   void set_mask(Mask const &mask) { iterator_.set_mask(mask); }

   CUTLASS_HOST_DEVICE
   void get_mask(Mask &mask) { iterator_.get_mask(mask); }

   CUTLASS_DEVICE
   void load_with_pointer_offset(Fragment &frag, Index pointer_offset) {
     iterator_.load_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void load(Fragment &frag) { load_with_pointer_offset(frag, 0); }

   CUTLASS_DEVICE
   void store_with_pointer_offset(Fragment const &frag, Index pointer_offset) {
     iterator_.store_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void store(Fragment const &frag) { store_with_pointer_offset(frag, 0); }
 };


 template <typename Shape_, typename Element_, int AdvanceRank,
           typename ThreadMap_, int AccessSize, int InterleavedK>
 class PredicatedTileIterator<Shape_, Element_,
                              layout::RowMajorInterleaved<InterleavedK>,
                              AdvanceRank, ThreadMap_, AccessSize> {
  public:
   static_assert(
       AdvanceRank == 0 || AdvanceRank == 1,
       "Specialization for pitch-linear iterator may along advance along the "
       "contiguous(rank=0) or strided(rank=1) dimension.");

   using Shape = Shape_;
   using Element = Element_;
   static int const kInterleavedK = InterleavedK;
   using Layout = layout::RowMajorInterleaved<kInterleavedK>;
   static int const kAdvanceRank = AdvanceRank;
   using ThreadMap = ThreadMap_;

   using Index = typename Layout::Index;
   using LongIndex = typename Layout::LongIndex;

   using TensorRef = TensorRef<Element, Layout>;
   using TensorView = TensorView<Element, Layout>;
   using TensorCoord = typename Layout::TensorCoord;

   using Pointer = Element *;
   using NonConstPointer = typename platform::remove_const<Element>::type *;

   using UnderlyingIterator = PredicatedTileIterator<
       layout::PitchLinearShape<Shape::kColumn * kInterleavedK,
                                Shape::kRow / kInterleavedK>,
       Element, layout::PitchLinear, (kAdvanceRank == 0 ? 1 : 0), ThreadMap, AccessSize>;


   using AccessType = typename UnderlyingIterator::AccessType;

   using Fragment = cutlass::Array<Element, ThreadMap::Iterations::kCount *
                                                ThreadMap::kElementsPerAccess>;

   using Mask = typename UnderlyingIterator::Mask;

   class Params {
    private:
     friend PredicatedTileIterator;

     typename UnderlyingIterator::Params params_;

    public:
     CUTLASS_HOST_DEVICE
     Params() {}

     CUTLASS_HOST_DEVICE
     Params(Layout const &layout)
         : params_(layout::PitchLinear(layout.stride(0))) {}
   };

  private:
   //
   // Data members
   //

   UnderlyingIterator iterator_;

  public:
   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id,
       TensorCoord const &threadblock_offset)
       : iterator_(params.params_, pointer,
                   layout::PitchLinearCoord(extent.column() * kInterleavedK,
                                            extent.row() / kInterleavedK),
                   thread_id,
                   layout::PitchLinearCoord(
                       threadblock_offset.column() * kInterleavedK,
                       threadblock_offset.row() / kInterleavedK)) {}

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator(
       Params const &params,
       Pointer pointer,
       TensorCoord extent,
       int thread_id
       )
       : PredicatedTileIterator(params, pointer, extent, thread_id,
                                make_Coord(0, 0)) {}

   CUTLASS_HOST_DEVICE
   void add_pointer_offset(LongIndex pointer_offset) {
     iterator_.add_pointer_offset(pointer_offset);
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator &operator++() {
     ++iterator_;
     return *this;
   }

   CUTLASS_HOST_DEVICE
   PredicatedTileIterator operator++(int) {
     PredicatedTileIterator self(*this);
     operator++();
     return self;
   }

   CUTLASS_HOST_DEVICE
   void clear_mask() { iterator_.clear_mask(); }

   CUTLASS_HOST_DEVICE
   void enable_mask() { iterator_.enable_mask(); }

   CUTLASS_HOST_DEVICE
   void set_mask(Mask const &mask) { iterator_.set_mask(mask); }

   CUTLASS_HOST_DEVICE
   void get_mask(Mask &mask) { iterator_.get_mask(mask); }

   CUTLASS_DEVICE
   void load_with_pointer_offset(Fragment &frag, Index pointer_offset) {
     iterator_.load_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void load(Fragment &frag) { load_with_pointer_offset(frag, 0); }

   CUTLASS_DEVICE
   void store_with_pointer_offset(Fragment const &frag, Index pointer_offset) {
     iterator_.store_with_pointer_offset(frag, pointer_offset);
   }

   CUTLASS_DEVICE
   void store(Fragment const &frag) { store_with_pointer_offset(frag, 0); }
 };


 } // namespace threadblock
 } // namespace transform
 } // namespace cutlass

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::AccessType
typename UnderlyingIterator::AccessType AccessType
Definition: transform/threadblock/predicated_tile_iterator.h:405

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Shape
Shape_ Shape
Definition: transform/threadblock/predicated_tile_iterator.h:380

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::clear_mask
CUTLASS_HOST_DEVICE void clear_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:503

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::LongIndex
typename Layout::LongIndex LongIndex
Definition: transform/threadblock/predicated_tile_iterator.h:954

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::load
CUTLASS_DEVICE void load(Fragment &frag)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:533

cutlass::layout::RowMajor::LongIndex
int64_t LongIndex
Long index type used for offsets.
Definition: layout/matrix.h:62

cutlass::layout::ColumnMajorInterleaved::LongIndex
int64_t LongIndex
Long index type used for offsets.
Definition: layout/matrix.h:355

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::store
CUTLASS_DEVICE void store(Fragment const &frag)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:354

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Pointer
Element * Pointer
Definition: transform/threadblock/predicated_tile_iterator.h:586

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::add_pointer_offset
CUTLASS_HOST_DEVICE void add_pointer_offset(LongIndex pointer_offset)
Adds a pointer offset in units of Element.
Definition: transform/threadblock/predicated_tile_iterator.h:1040

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Shape
Shape_ Shape
Definition: transform/threadblock/predicated_tile_iterator.h:154

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Mask
typename TileAccessIterator::Mask Mask
Predicate vector stores mask to guard accesses.
Definition: transform/threadblock/predicated_tile_iterator.h:185

cutlass
Definition: aligned_buffer.h:35

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator & operator++()
Definition: transform/threadblock/predicated_tile_iterator.h:870

cutlass::layout::PitchLinearCoord
Coordinate in pitch-linear space.
Definition: pitch_linear.h:52

memory.h
Architecture-specific operators on memory.

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator operator++(int)
Definition: transform/threadblock/predicated_tile_iterator.h:495

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Index
typename Layout::Index Index
Definition: transform/threadblock/predicated_tile_iterator.h:953

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::set_mask
CUTLASS_HOST_DEVICE void set_mask(Mask const &mask)
Sets the predicate mask, overriding value stored in predicate iterator.
Definition: transform/threadblock/predicated_tile_iterator.h:515

cutlass::platform::remove_const::type
T type
Definition: platform.h:351

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id)
Construct a PredicatedTileIterator with zero threadblock offset.
Definition: transform/threadblock/predicated_tile_iterator.h:465

cutlass::layout::RowMajorInterleaved::LongIndex
int64_t LongIndex
Long index type used for offsets.
Definition: layout/matrix.h:249

cutlass::layout::PitchLinear
Mapping function for pitch-linear memory.
Definition: pitch_linear.h:163

cutlass::layout::ColumnMajorInterleaved::Index
int32_t Index
Index type used for coordinates.
Definition: layout/matrix.h:352

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::TensorCoord
typename Layout::TensorCoord TensorCoord
Definition: transform/threadblock/predicated_tile_iterator.h:958

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Pointer
Element * Pointer
Definition: transform/threadblock/predicated_tile_iterator.h:393

cutlass::make_Coord
CUTLASS_HOST_DEVICE Coord< 1 > make_Coord(int _0)
Helper to make a 2-element coordinate.
Definition: coord.h:387

cutlass::layout::ColumnMajor::LongIndex
int64_t LongIndex
Long index type used for offsets.
Definition: layout/matrix.h:154

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::clear_mask
CUTLASS_HOST_DEVICE void clear_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:696

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Index
typename Layout::Index Index
Definition: transform/threadblock/predicated_tile_iterator.h:579

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::TensorCoord
typename Layout::TensorCoord TensorCoord
Definition: transform/threadblock/predicated_tile_iterator.h:584

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::LongIndex
typename Layout::LongIndex LongIndex
Definition: transform/threadblock/predicated_tile_iterator.h:580

cutlass::AlignedArray
Aligned array type.
Definition: array.h:511

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::store_with_pointer_offset
CUTLASS_DEVICE void store_with_pointer_offset(Fragment const &frag, Index pointer_offset)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:916

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Shape
Shape_ Shape
Definition: transform/threadblock/predicated_tile_iterator.h:765

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::NonConstPointer
typename platform::remove_const< Element >::type * NonConstPointer
Definition: transform/threadblock/predicated_tile_iterator.h:394

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id)
Construct a PredicatedTileIterator with zero threadblock offset.
Definition: transform/threadblock/predicated_tile_iterator.h:1029

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::store_with_pointer_offset
CUTLASS_DEVICE void store_with_pointer_offset(Fragment const &frag, Index pointer_offset)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:732

cutlass::layout::RowMajorInterleaved::Index
int32_t Index
Index type used for coordinates.
Definition: layout/matrix.h:246

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id, TensorCoord const &threadblock_offset)
Constructs a TileIterator from its precomputed state, threadblock offset, and thread ID...
Definition: transform/threadblock/predicated_tile_iterator.h:641

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::add_pointer_offset
CUTLASS_HOST_DEVICE void add_pointer_offset(LongIndex pointer_offset)
Adds a pointer offset in units of Element.
Definition: transform/threadblock/predicated_tile_iterator.h:859

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::load_with_pointer_offset
CUTLASS_DEVICE void load_with_pointer_offset(Fragment &frag, Index pointer_offset)
Definition: transform/threadblock/predicated_tile_iterator.h:298

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id, TensorCoord const &threadblock_offset)
Definition: transform/threadblock/predicated_tile_iterator.h:1008

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::load
CUTLASS_DEVICE void load(Fragment &frag)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:912

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::LongIndex
typename Layout::LongIndex LongIndex
Definition: transform/threadblock/predicated_tile_iterator.h:773

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::clear_mask
CUTLASS_HOST_DEVICE void clear_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:1071

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator & operator++()
Definition: transform/threadblock/predicated_tile_iterator.h:484

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id)
Construct a PredicatedTileIterator with zero threadblock offset.
Definition: transform/threadblock/predicated_tile_iterator.h:848

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::store_with_pointer_offset
CUTLASS_DEVICE void store_with_pointer_offset(Fragment const &frag, Index pointer_offset)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:1097

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id, TensorCoord const &threadblock_offset)
Definition: transform/threadblock/predicated_tile_iterator.h:221

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::set_mask
CUTLASS_HOST_DEVICE void set_mask(Mask const &mask)
Sets the predicate mask, overriding value stored in predicate iterator.
Definition: transform/threadblock/predicated_tile_iterator.h:1079

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Fragment
cutlass::Array< Element, ThreadMap::Iterations::kCount *ThreadMap::kElementsPerAccess > Fragment
Fragment object to be loaded or stored.
Definition: transform/threadblock/predicated_tile_iterator.h:408

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params(Layout const &layout)
Construct the Params object given a pitch-linear tensor&#39;s layout.
Definition: transform/threadblock/predicated_tile_iterator.h:811

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::get_mask
CUTLASS_HOST_DEVICE void get_mask(Mask &mask)
Gets the mask.
Definition: transform/threadblock/predicated_tile_iterator.h:714

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Fragment
cutlass::Array< Element, ThreadMap::Iterations::kCount *ThreadMap::kElementsPerAccess > Fragment
Fragment object to be loaded or stored.
Definition: transform/threadblock/predicated_tile_iterator.h:792

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::add_pointer_offset
CUTLASS_HOST_DEVICE void add_pointer_offset(LongIndex pointer_offset)
Adds a pointer offset in units of Element.
Definition: transform/threadblock/predicated_tile_iterator.h:248

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Mask
typename UnderlyingIterator::Mask Mask
Predicate vector stores mask to guard accesses.
Definition: transform/threadblock/predicated_tile_iterator.h:411

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id, TensorCoord const &threadblock_offset)
Definition: transform/threadblock/predicated_tile_iterator.h:827

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::get_mask
CUTLASS_HOST_DEVICE void get_mask(Mask &mask)
Gets the mask.
Definition: transform/threadblock/predicated_tile_iterator.h:521

cutlass::layout::ColumnMajor
Mapping function for column-major matrices.
Definition: layout/matrix.h:142

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::load
CUTLASS_DEVICE void load(Fragment &frag)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:1093

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params(Layout const &layout)
Construct the Params object given a pitch-linear tensor&#39;s layout.
Definition: transform/threadblock/predicated_tile_iterator.h:429

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params()
Definition: transform/threadblock/predicated_tile_iterator.h:618

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::get_mask
CUTLASS_HOST_DEVICE void get_mask(Mask &mask)
Gets the mask.
Definition: transform/threadblock/predicated_tile_iterator.h:295

cutlass::layout::PitchLinearShape
Template defining a shape used by pitch-linear operators.
Definition: pitch_linear.h:43

CUTLASS_PRAGMA_UNROLL
#define CUTLASS_PRAGMA_UNROLL
Definition: cutlass.h:110

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Mask
typename UnderlyingIterator::Mask Mask
Predicate vector stores mask to guard accesses.
Definition: transform/threadblock/predicated_tile_iterator.h:604

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator operator++(int)
Definition: transform/threadblock/predicated_tile_iterator.h:688

cutlass::layout::RowMajor::Index
int32_t Index
Index type used for coordinates.
Definition: layout/matrix.h:59

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params(Layout const &layout)
Construct the Params object given a pitch-linear tensor&#39;s layout.
Definition: transform/threadblock/predicated_tile_iterator.h:199

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params()
Definition: transform/threadblock/predicated_tile_iterator.h:807

cutlass::operator++
CUTLASS_HOST_DEVICE half_t & operator++(half_t &lhs)
Definition: half.h:694

cutlass::layout::PitchLinear::LongIndex
int64_t LongIndex
Long index type used for offsets.
Definition: pitch_linear.h:175

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::set_mask
CUTLASS_HOST_DEVICE void set_mask(Mask const &mask)
Sets the predicate mask, overriding value stored in predicate iterator.
Definition: transform/threadblock/predicated_tile_iterator.h:708

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::get_mask
CUTLASS_HOST_DEVICE void get_mask(Mask &mask)
Gets the mask.
Definition: transform/threadblock/predicated_tile_iterator.h:1083

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id, TensorCoord const &threadblock_offset)
Constructs a TileIterator from its precomputed state, threadblock offset, and thread ID...
Definition: transform/threadblock/predicated_tile_iterator.h:448

cutlass::TensorView< Element, Layout >

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::AccessType
typename UnderlyingIterator::AccessType AccessType
Definition: transform/threadblock/predicated_tile_iterator.h:788

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Fragment
cutlass::Array< Element, ThreadMap::Iterations::kCount *ThreadMap::kElementsPerAccess > Fragment
Fragment object to be loaded or stored.
Definition: transform/threadblock/predicated_tile_iterator.h:182

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::AccessType
typename UnderlyingIterator::AccessType AccessType
Definition: transform/threadblock/predicated_tile_iterator.h:598

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::add_pointer_offset
CUTLASS_HOST_DEVICE void add_pointer_offset(LongIndex pointer_offset)
Adds a pointer offset in units of Element.
Definition: transform/threadblock/predicated_tile_iterator.h:667

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params()
Definition: transform/threadblock/predicated_tile_iterator.h:988

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator operator++(int)
Definition: transform/threadblock/predicated_tile_iterator.h:882

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator & operator++()
Definition: transform/threadblock/predicated_tile_iterator.h:677

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::enable_mask
CUTLASS_HOST_DEVICE void enable_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:509

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id)
Construct a PredicatedTileIterator with zero threadblock offset.
Definition: transform/threadblock/predicated_tile_iterator.h:658

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::load
CUTLASS_DEVICE void load(Fragment &frag)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:326

cutlass::TensorRef< Element, Layout >

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::store
CUTLASS_DEVICE void store(Fragment const &frag)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:738

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::LongIndex
typename Layout::LongIndex LongIndex
Definition: transform/threadblock/predicated_tile_iterator.h:161

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::TensorCoord
typename Layout::TensorCoord TensorCoord
Definition: transform/threadblock/predicated_tile_iterator.h:391

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Fragment
cutlass::Array< Element, ThreadMap::Iterations::kCount *ThreadMap::kElementsPerAccess > Fragment
Fragment object to be loaded or stored.
Definition: transform/threadblock/predicated_tile_iterator.h:973

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator & operator++()
Definition: transform/threadblock/predicated_tile_iterator.h:1051

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::enable_mask
CUTLASS_HOST_DEVICE void enable_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:1075

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Pointer
Element * Pointer
Definition: transform/threadblock/predicated_tile_iterator.h:960

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Index
typename Layout::Index Index
Definition: transform/threadblock/predicated_tile_iterator.h:772

predicated_tile_access_iterator.h
Templates calculating the address and predicates to the load of tiles from pitch-linear rank=2 tensor...

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator & operator++()
Definition: transform/threadblock/predicated_tile_iterator.h:259

CUTLASS_HOST_DEVICE
#define CUTLASS_HOST_DEVICE
Definition: cutlass.h:89

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Shape
Shape_ Shape
Definition: transform/threadblock/predicated_tile_iterator.h:573

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params()
Definition: transform/threadblock/predicated_tile_iterator.h:425

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::clear_mask
CUTLASS_HOST_DEVICE void clear_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:283

static_assert
#define static_assert(__e, __m)
Definition: platform.h:153

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::enable_mask
CUTLASS_HOST_DEVICE void enable_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:702

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Pointer
Element * Pointer
Definition: transform/threadblock/predicated_tile_iterator.h:167

cutlass::layout::PitchLinear::Index
int32_t Index
Index type used for coordinates.
Definition: pitch_linear.h:172

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator operator++(int)
Definition: transform/threadblock/predicated_tile_iterator.h:1063

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::TensorCoord
typename Layout::TensorCoord TensorCoord
Definition: transform/threadblock/predicated_tile_iterator.h:777

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::get_mask
CUTLASS_HOST_DEVICE void get_mask(Mask &mask)
Gets the mask.
Definition: transform/threadblock/predicated_tile_iterator.h:902

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Fragment
cutlass::Array< Element, ThreadMap::Iterations::kCount *ThreadMap::kElementsPerAccess > Fragment
Fragment object to be loaded or stored.
Definition: transform/threadblock/predicated_tile_iterator.h:601

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::NonConstPointer
typename platform::remove_const< Element >::type * NonConstPointer
Definition: transform/threadblock/predicated_tile_iterator.h:780

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::store
CUTLASS_DEVICE void store(Fragment const &frag)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:545

cutlass::transform::threadblock::PredicatedTileIterator
Definition: transform/threadblock/predicated_tile_iterator.h:133

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params(Layout const &layout)
Construct the Params object given a pitch-linear tensor&#39;s layout.
Definition: transform/threadblock/predicated_tile_iterator.h:622

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::clear_mask
CUTLASS_HOST_DEVICE void clear_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:890

cutlass::layout::RowMajor
Mapping function for row-major matrices.
Definition: layout/matrix.h:50

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Index
typename Layout::Index Index
Definition: transform/threadblock/predicated_tile_iterator.h:160

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Shape
Shape_ Shape
Definition: transform/threadblock/predicated_tile_iterator.h:946

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::store
CUTLASS_DEVICE void store(Fragment const &frag)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:922

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Params::PredicatedTileIterator
friend PredicatedTileIterator
Definition: transform/threadblock/predicated_tile_iterator.h:190

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::load_with_pointer_offset
CUTLASS_DEVICE void load_with_pointer_offset(Fragment &frag, Index pointer_offset)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:720

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::set_mask
CUTLASS_HOST_DEVICE void set_mask(Mask const &mask)
Sets the predicate mask, overriding value stored in predicate iterator.
Definition: transform/threadblock/predicated_tile_iterator.h:898

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::load_with_pointer_offset
CUTLASS_DEVICE void load_with_pointer_offset(Fragment &frag, Index pointer_offset)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:1087

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Pointer
Element * Pointer
Definition: transform/threadblock/predicated_tile_iterator.h:779

cutlass::layout::ColumnMajorInterleaved
Definition: layout/matrix.h:343

cutlass::layout::ColumnMajor::Index
int32_t Index
Index type used for coordinates.
Definition: layout/matrix.h:151

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::NonConstPointer
typename platform::remove_const< Element >::type * NonConstPointer
Definition: transform/threadblock/predicated_tile_iterator.h:961

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::LongIndex
typename Layout::LongIndex LongIndex
Definition: transform/threadblock/predicated_tile_iterator.h:387

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::operator++
CUTLASS_HOST_DEVICE PredicatedTileIterator operator++(int)
Definition: transform/threadblock/predicated_tile_iterator.h:275

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::load
CUTLASS_DEVICE void load(Fragment &frag)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:726

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Mask
typename UnderlyingIterator::Mask Mask
Predicate vector stores mask to guard accesses.
Definition: transform/threadblock/predicated_tile_iterator.h:795

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::store_with_pointer_offset
CUTLASS_DEVICE void store_with_pointer_offset(Fragment const &frag, Index pointer_offset)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:330

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params(Layout const &layout)
Construct the Params object given a pitch-linear tensor&#39;s layout.
Definition: transform/threadblock/predicated_tile_iterator.h:992

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::load_with_pointer_offset
CUTLASS_DEVICE void load_with_pointer_offset(Fragment &frag, Index pointer_offset)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:906

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::NonConstPointer
typename platform::remove_const< Element >::type * NonConstPointer
Definition: transform/threadblock/predicated_tile_iterator.h:168

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::add_pointer_offset
CUTLASS_HOST_DEVICE void add_pointer_offset(LongIndex pointer_offset)
Adds a pointer offset in units of Element.
Definition: transform/threadblock/predicated_tile_iterator.h:474

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::enable_mask
CUTLASS_HOST_DEVICE void enable_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:287

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::AccessType
typename UnderlyingIterator::AccessType AccessType
Definition: transform/threadblock/predicated_tile_iterator.h:969

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::PredicatedTileIterator
CUTLASS_HOST_DEVICE PredicatedTileIterator(Params const &params, Pointer pointer, TensorCoord extent, int thread_id)
Construct a PredicatedTileIterator with zero threadblock offset.
Definition: transform/threadblock/predicated_tile_iterator.h:237

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::set_mask
CUTLASS_HOST_DEVICE void set_mask(Mask const &mask)
Sets the predicate mask, overriding value stored in predicate iterator.
Definition: transform/threadblock/predicated_tile_iterator.h:291

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::store
CUTLASS_DEVICE void store(Fragment const &frag)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:1103

cutlass::MatrixCoord
Definition: matrix_coord.h:39

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::Index
typename Layout::Index Index
Definition: transform/threadblock/predicated_tile_iterator.h:386

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::Params::Params
CUTLASS_HOST_DEVICE Params()
Definition: transform/threadblock/predicated_tile_iterator.h:202

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::PitchLinear, AdvanceRank, ThreadMap_, AccessSize >::TensorCoord
typename Layout::TensorCoord TensorCoord
Definition: transform/threadblock/predicated_tile_iterator.h:165

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::Mask
typename UnderlyingIterator::Mask Mask
Predicate vector stores mask to guard accesses.
Definition: transform/threadblock/predicated_tile_iterator.h:976

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::store_with_pointer_offset
CUTLASS_DEVICE void store_with_pointer_offset(Fragment const &frag, Index pointer_offset)
Store a fragment to memory.
Definition: transform/threadblock/predicated_tile_iterator.h:539

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajorInterleaved< InterleavedK >, AdvanceRank, ThreadMap_, AccessSize >::enable_mask
CUTLASS_HOST_DEVICE void enable_mask()
Clears the predicate set efficiently.
Definition: transform/threadblock/predicated_tile_iterator.h:894

cutlass::transform::threadblock::PredicatedTileAccessIterator< Shape, Element, Layout, kAdvanceRank, ThreadMap, AccessType >

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::ColumnMajor, AdvanceRank, ThreadMap_, AccessSize >::load_with_pointer_offset
CUTLASS_DEVICE void load_with_pointer_offset(Fragment &frag, Index pointer_offset)
Loads a fragment from memory.
Definition: transform/threadblock/predicated_tile_iterator.h:527

cutlass::transform::threadblock::PredicatedTileIterator< Shape_, Element_, layout::RowMajor, AdvanceRank, ThreadMap_, AccessSize >::NonConstPointer
typename platform::remove_const< Element >::type * NonConstPointer
Definition: transform/threadblock/predicated_tile_iterator.h:587

cutlass::layout::RowMajorInterleaved
Definition: layout/matrix.h:237