PTX Instructions#

Instructions by section#

Half Precision Comparison Instructions#
Instruction	Available in libcu++
set	No
setp	No

Data Movement and Conversion Instructions#
Instruction	Available in libcu++
mov	No
shfl	No
shfl.sync	Yes, CCCL 2.9.0 / CUDA 12.9
prmt	Yes, CCCL 3.0.0 / CUDA 13.0
ld	Yes, CCCL 3.0.0 / CUDA 13.0
ld.global.nc	Yes, CCCL 3.0.0 / CUDA 13.0
ldu	No
st	Yes, CCCL 3.0.0 / CUDA 13.0
st.async	CCCL 2.3.0 / CUDA 12.4
st.bulk	CCCL 2.8 / CUDA 12.9
multimem.ld_reduce, multimem.st, multimem.red	CCCL 2.8 / CUDA 12.9
prefetch, prefetchu	No
applypriority	No
discard	No
createpolicy	No
isspacep	No
cvta	No
cvt	No
cvt.pack	No
mapa	No
getctarank	CCCL 2.4.0 / CUDA 12.5

Data Movement and Conversion Instructions: Asynchronous copy#
Instruction	Available in libcu++
cp.async	No
cp.async.commit_group	No
cp.async.wait_group	No
cp.async.bulk	CCCL 2.4.0 / CUDA 12.5
cp.reduce.async.bulk	CCCL 2.4.0 / CUDA 12.5
cp.async.bulk.prefetch	No
cp.reduce.async.bulk	CCCL 2.4.0 / CUDA 12.5
cp.reduce.async.bulk.tensor	CCCL 2.4.0 / CUDA 12.5
cp.async.bulk.prefetch.tensor	No
cp.async.bulk.commit_group	CCCL 2.4.0 / CUDA 12.5
cp.async.bulk.wait_group	CCCL 2.4.0 / CUDA 12.5
tensormap.replace	CCCL 2.4.0 / CUDA 12.5

Parallel Synchronization and Communication Instructions: mbarrier#
Instruction	Available in libcu++
mbarrier.init	CCCL 2.5.0 / CUDA Future
mbarrier.inval	CCCL 3.2.0 / CUDA 13.2
mbarrier.complete_tx	No
mbarrier.arrive	CCCL 2.3.0 / CUDA 12.4
mbarrier.arrive_drop	No
cp.async.mbarrier.arrive	CCCL 2.8 / CUDA 12.9
mbarrier.expect_tx	CCCL 2.8 / CUDA 12.9
mbarrier.test_wait	CCCL 2.3.0 / CUDA 12.4
mbarrier.try_wait	CCCL 2.3.0 / CUDA 12.4
mbarrier.pending_count	No
tensormap.cp_fenceproxy	CCCL 2.4.0 / CUDA 12.5
clusterlaunchcontrol.try_cancel	CCCL 2.8 / CUDA 12.9
clusterlaunchcontrol.query_cancel	CCCL 2.8 / CUDA 12.9

SIMD Video Instructions#
Instruction	Available in libcu++
vadd2, vsub2, vavrg2, vabsdiff2, vmin2, vmax2	No
vset2	No
vadd4, vsub4, vavrg4, vabsdiff4, vmin4, vmax4	No
vset4	No

Special registers <libcudacxx-ptx-instructions-special-registers>#
Instruction	PTX ISA	SM Version	Available in libcu++
tid	20	All	CCCL 2.4.0 / CUDA 12.5
ntid	20	All	CCCL 2.4.0 / CUDA 12.5
laneid	13	All	CCCL 2.4.0 / CUDA 12.5
warpid	13	All	CCCL 2.4.0 / CUDA 12.5
nwarpid	20	20	CCCL 2.4.0 / CUDA 12.5
ctaid	20	All	CCCL 2.4.0 / CUDA 12.5
nctaid	20	All	CCCL 2.4.0 / CUDA 12.5
smid	13	All	CCCL 2.4.0 / CUDA 12.5
nsmid	20	20	CCCL 2.4.0 / CUDA 12.5
gridid	30	30	CCCL 2.4.0 / CUDA 12.5
is_explicit_cluster	78	90	CCCL 2.4.0 / CUDA 12.5
clusterid	78	90	CCCL 2.4.0 / CUDA 12.5
nclusterid	78	90	CCCL 2.4.0 / CUDA 12.5
cluster_ctaid	78	90	CCCL 2.4.0 / CUDA 12.5
cluster_nctaid	78	90	CCCL 2.4.0 / CUDA 12.5
cluster_ctarank	78	90	CCCL 2.4.0 / CUDA 12.5
cluster_nctarank	78	90	CCCL 2.4.0 / CUDA 12.5
lanemask_eq	20	20	CCCL 2.4.0 / CUDA 12.5
lanemask_le	20	20	CCCL 2.4.0 / CUDA 12.5
lanemask_lt	20	20	CCCL 2.4.0 / CUDA 12.5
lanemask_ge	20	20	CCCL 2.4.0 / CUDA 12.5
lanemask_gt	20	20	CCCL 2.4.0 / CUDA 12.5
clock, clock_hi	10	All	CCCL 2.4.0 / CUDA 12.5
clock64	20	20	CCCL 2.4.0 / CUDA 12.5
pm0			No
pm0_64			No
envreg			No
globaltimer, globaltimer_lo, globaltimer_hi	31	31	CCCL 2.4.0 / CUDA 12.5
reserved_smem_offset_begin, reserved_smem_offset_end, reserved_smem_offset_cap, reserved_smem_offset_2			No
total_smem_size	41	20	CCCL 2.4.0 / CUDA 12.5
aggr_smem_size	81	90	CCCL 2.4.0 / CUDA 12.5
dynamic_smem_size	41	20	CCCL 2.4.0 / CUDA 12.5
current_graph_exec	80	50	CCCL 2.4.0 / CUDA 12.5