Merge branch 'main' into astroC86/get-or-put-to-copy

astroC86 · astroC86 · commit d1cc73f7a99a · 2025-08-19T21:29:32.000+02:00
diff --git a/iris/iris.py b/iris/iris.py
@@ -356,7 +356,7 @@ def load(pointer, to_rank, from_rank, heap_bases, mask=None):
     Returns:
         Block: The loaded value from the target memory location.
     """
-    translated_ptr = __translate(pointer, from_rank, to_rank, heap_bases)
+    translated_ptr = __translate(pointer, to_rank, from_rank, heap_bases)
     result = tl.load(translated_ptr, mask=mask)
     return result
 
@@ -407,7 +407,7 @@ def get(from_ptr, to_ptr, from_rank, to_rank, heap_bases, mask=None):
     Returns:
         None
     """
-    translated_from_ptr = __translate(from_ptr, to_rank, from_rank, heap_bases)
+    translated_from_ptr = __translate(from_ptr, from_rank, to_rank, heap_bases)
 
     data = tl.load(translated_from_ptr, mask=mask)
 
diff --git a/tests/unittests/test_load.py b/tests/unittests/test_load.py
@@ -19,18 +19,14 @@ def load_kernel(
 ):
     pid = tl.program_id(0)
 
+    partner = int((source_rank + num_ranks // 2) % num_ranks)
     # Compute start index of this block
     block_start = pid * BLOCK_SIZE
     offsets = block_start + tl.arange(0, BLOCK_SIZE)
 
     # Guard for out-of-bounds accesses
     mask = offsets < BLOCK_SIZE
-
-    result = tl.zeros([BLOCK_SIZE], dtype=data.type.element_ty)
-    for target_rank in range(num_ranks):
-        result += iris.load(data + offsets, source_rank, target_rank, heap_bases, mask=mask)
-
-    # Store data to result buffer
+    result = iris.load(data + offsets, source_rank, partner, heap_bases, mask=mask)
     tl.store(results + offsets, result, mask=mask)
 
 
@@ -58,16 +54,17 @@ def test_load_api(dtype, BLOCK_SIZE):
     num_ranks = shmem.get_num_ranks()
     heap_bases = shmem.get_heap_bases()
     source_rank = shmem.get_rank()
+    partner = int((source_rank + num_ranks // 2) % num_ranks)
 
-    data = shmem.ones(BLOCK_SIZE, dtype=dtype)
+    data = shmem.full((BLOCK_SIZE,), source_rank, dtype=dtype)
     results = shmem.zeros_like(data)
 
     grid = lambda meta: (1,)
     load_kernel[grid](data, results, source_rank, num_ranks, BLOCK_SIZE, heap_bases)
     shmem.barrier()
 
     # Verify the result
-    expected = torch.ones(BLOCK_SIZE, dtype=dtype, device="cuda") * num_ranks
+    expected = torch.ones(BLOCK_SIZE, dtype=dtype, device="cuda") * partner
 
     try:
         torch.testing.assert_close(results, expected, rtol=0, atol=0)