camel-cdr/rvv-shishua.S

## rvv-shishua.S
.global shishua_rvv # void shishua_rvv (uint64_t state[4], void *dest, size_t n)
shishua_rvv:
	# load state (can easily be expanded to state[8] or state[16])
	vsetvli t6, x0, e64, m2, ta, ma
	ld a4, 0(a0)
	vmv.v.x v0, a4
	ld a4, 8(a0)
	vmv.v.x v4, a4
	ld a4, 16(a0)
	vmv.v.x v8, a4
	ld a4, 24(a0)
	vmv.v.x v12, a4

	li t0, 0xbf58476d1ce4e5b9 # splitmix mul 1
	li t1, 0x94d049bb133111eb # splitmix mul 2
	.macro rvv_rand_splitmix64 v, t
		# mix in vid
		vsetvli t6, x0, e8, m8, ta, ma
		vid.v \t
		vsetvli t6, x0, e16, m8, ta, ma
		vadd.vv \v, \v, \t
		vmul.vx \v, \v, t0
		vid.v \t
		vsetvli t6, x0, e64, m8, ta, ma
		vadd.vv \v, \v, \t
		vmul.vx \v, \v, t1

		# warmup with splitmix64
		vsrl.vi \t, \v, 30
		vxor.vv \v, \v, \t
		vmul.vx \v, \v, t0

		vsrl.vi \t, \v, 27
		vxor.vv \v, \v, \t
		vmul.vx \v, \v, t1

		vsrl.vi \t, \v, 31
		vxor.vv \v, \v, \t
	.endm
	rvv_rand_splitmix64 v0, v16
	rvv_rand_splitmix64 v8, v16

	# almost shishua
1:
	# shuffle
	vsetvli x0, a2, e32, m8, ta, ma
	vmv.x.s a4, v0
	vslide1down.vx v16, v0, a4
	vmv.x.s a4, v8
	vslide1down.vx v24, v8, a4

	# shift
	vsetvli x0, x0, e64, m8, ta, ma
	vsrl.vi v0, v0, 1
	vsrl.vi v8, v8, 3

	# add
	vadd.vv v8, v8, v24
	vxor.vv v24, v24, v0
	vadd.vv v0, v0, v16

	# store
	vsetvli a3, x0, e8, m8, ta, ma
	vse8.v v24, (a1)
	add a1, a1, a3
	sub a2, a2, a3
	bnez a2, 1b

	# reduce back to uint64_t state[4]
	vsetvli t6, x0, e64, m8, ta, ma
	vredsum.vs v0, v0, v0
	vredxor.vs v8, v8, v8

	vmv.x.s a4, v0
	sd a4, 0(a0)
	vmv.x.s a4, v4
	sd a4, 8(a0)
	vmv.x.s a4, v8
	sd a4, 16(a0)
	vmv.x.s a4, v12
	sd a4, 24(a0)

	ret
	.global shishua_rvv # void shishua_rvv (uint64_t state[4], void *dest, size_t n)
	shishua_rvv:
	# load state (can easily be expanded to state[8] or state[16])
	vsetvli t6, x0, e64, m2, ta, ma
	ld a4, 0(a0)
	vmv.v.x v0, a4
	ld a4, 8(a0)
	vmv.v.x v4, a4
	ld a4, 16(a0)
	vmv.v.x v8, a4
	ld a4, 24(a0)
	vmv.v.x v12, a4

	li t0, 0xbf58476d1ce4e5b9 # splitmix mul 1
	li t1, 0x94d049bb133111eb # splitmix mul 2
	.macro rvv_rand_splitmix64 v, t
	# mix in vid
	vsetvli t6, x0, e8, m8, ta, ma
	vid.v \t
	vsetvli t6, x0, e16, m8, ta, ma
	vadd.vv \v, \v, \t
	vmul.vx \v, \v, t0
	vid.v \t
	vsetvli t6, x0, e64, m8, ta, ma
	vadd.vv \v, \v, \t
	vmul.vx \v, \v, t1

	# warmup with splitmix64
	vsrl.vi \t, \v, 30
	vxor.vv \v, \v, \t
	vmul.vx \v, \v, t0

	vsrl.vi \t, \v, 27
	vxor.vv \v, \v, \t
	vmul.vx \v, \v, t1

	vsrl.vi \t, \v, 31
	vxor.vv \v, \v, \t
	.endm
	rvv_rand_splitmix64 v0, v16
	rvv_rand_splitmix64 v8, v16

	# almost shishua
	1:
	# shuffle
	vsetvli x0, a2, e32, m8, ta, ma
	vmv.x.s a4, v0
	vslide1down.vx v16, v0, a4
	vmv.x.s a4, v8
	vslide1down.vx v24, v8, a4

	# shift
	vsetvli x0, x0, e64, m8, ta, ma
	vsrl.vi v0, v0, 1
	vsrl.vi v8, v8, 3

	# add
	vadd.vv v8, v8, v24
	vxor.vv v24, v24, v0
	vadd.vv v0, v0, v16

	# store
	vsetvli a3, x0, e8, m8, ta, ma
	vse8.v v24, (a1)
	add a1, a1, a3
	sub a2, a2, a3
	bnez a2, 1b

	# reduce back to uint64_t state[4]
	vsetvli t6, x0, e64, m8, ta, ma
	vredsum.vs v0, v0, v0
	vredxor.vs v8, v8, v8

	vmv.x.s a4, v0
	sd a4, 0(a0)
	vmv.x.s a4, v4
	sd a4, 8(a0)
	vmv.x.s a4, v8
	sd a4, 16(a0)
	vmv.x.s a4, v12
	sd a4, 24(a0)

	ret