sklam/multikernels.py

## multikernels.py
from numba import cuda
import numpy as np

@cuda.jit
def foo(arr):
    for i in range(arr.size):
        arr[i] += i

A = np.arange(10000)
B = np.arange(10000)


dA=cuda.to_device(A)
dB=cuda.to_device(A)
cuda.synchronize()


streamA = cuda.stream()
streamB = cuda.stream()

for _ in range(100):
    foo[1, 1, streamA](dA)
    foo[1, 1, streamB](dB)

cuda.synchronize()

dA.copy_to_host(A)
dB.copy_to_host(B)

print(A)
print(B)
	from numba import cuda
	import numpy as np

	@cuda.jit
	def foo(arr):
	for i in range(arr.size):
	arr[i] += i

	A = np.arange(10000)
	B = np.arange(10000)


	dA=cuda.to_device(A)
	dB=cuda.to_device(A)
	cuda.synchronize()


	streamA = cuda.stream()
	streamB = cuda.stream()

	for _ in range(100):
	foo[1, 1, streamA](dA)
	foo[1, 1, streamB](dB)

	cuda.synchronize()

	dA.copy_to_host(A)
	dB.copy_to_host(B)

	print(A)
	print(B)