krisk0/mul_8x2_42ticks.s

## mul_8x2_42ticks.s
 .text
 .globl mul8x2_zen
 .type mul8x2_zen, @function
mul8x2_zen:
 vzeroupper
 movq %r13, %xmm10
 movq %rdx, %rax
 movq (%rdx), %rdx
 movq %r15, %xmm9
 movq 8(%rax), %rax
 mulx (%rsi), %r8, %r9
 mulx 8(%rsi), %r10, %r11
 movq %r14, %xmm8
 mulx 16(%rsi), %r15, %r14
 mulx 24(%rsi), %rcx, %r13
 movq %r12, %xmm7
 movq %rbx, %xmm6
 movq %rax, 48(%rdi)
 mulx 32(%rsi), %rax, %r12
 movq %rbp, %xmm5
 mulx 40(%rsi), %rbx, %rbp
 addq %r10, %r9
 movq %r8, (%rdi)
 mulx 48(%rsi), %r8, %r10
 adcq %r15, %r11
 movq %r9, 8(%rdi)
 mulx 56(%rsi), %r9, %r15
 movq 48(%rdi), %rdx
 adcq %rcx, %r14
 movq %r11, 16(%rdi)
 mulx (%rsi), %r11, %rcx
 adcq %r13, %rax
 adcq %rbx, %r12
 mulx 8(%rsi), %r13, %rbx
 adcq %rbp, %r8
 adcq %r10, %r9
 mulx 16(%rsi), %r10, %rbp
 adcq $0, %r15
 addq %r11, 8(%rdi)
 movq $0, %r11
 adcq %r13, 16(%rdi)
 adcq %rbx, %r14
 mulx 24(%rsi), %r13, %rbx
 adcq %rbp, %rax
 movq 16(%rdi), %rbp
 adcq $0, %r11
 xor %edx, %edx
 movq 48(%rdi), %rdx
 adox %rbp, %rcx
 adox %r14, %r10
 adox %r13, %rax
 mulx 32(%rsi), %r14, %rbp
 adox %rbx, %r12
 mulx 40(%rsi), %r13, %rbx
 adcx %r12, %r11
 movq %rcx, 16(%rdi)
 mulx 48(%rsi), %rcx, %r12
 adox %rbp, %r8
 adox %rbx, %r9
 mulx 56(%rsi), %rbx, %rbp
 adcx %r13, %r8
 movq $0, %r13
 adcx %rcx, %r9
 adox %r12, %r15
 mulx (%rsi), %rcx, %r12
 adox %r13, %rbp
 adcx %rbx, %r15
 adcx %r13, %rbp
 mulx 8(%rsi), %r13, %rbx
 movq %rbp, 48(%rdi)
 movq 16(%rdi), %rbp
 adcx %r12, %r10
 movq 48(%rdi), %r12
 adox %rbp, %rcx
 movq %rcx, 16(%rdi)
 mulx 16(%rsi), %rcx, %rbp
 adox %r13, %r10
 adcx %rbx, %rax
 mulx 24(%rsi), %r13, %rbx
 movq %r10, 24(%rdi)
 adox %rcx, %rax
 mulx 32(%rsi), %r10, %rcx
 adcx %r14, %r11
 movq %rax, 32(%rdi)
 mulx 40(%rsi), %rax, %r14
 adox %rbp, %r11
 adcx %rbx, %r8
 mulx 48(%rsi), %rbx, %rbp
 adox %r10, %r8
 adcx %rcx, %r9
 mulx 56(%rsi), %r10, %rcx
 movq %xmm14, %rdx
 adox %r9, %rax
 movq $0, %r9
 adcx %r14, %r15
 movq %xmm9, %r15
 movq %xmm8, %r14
 adcx %rbp, %r12
 movq %xmm5, %rbp
 adcx %r13, %r9
 movq %xmm10, %r13
 movq %rax, 32(%rdi)
 adcx %r12, %r10
 movq %r12, 40(%rdi)
 movq %xmm7, %r12
 movq %r8, 48(%rdi)
 adcx %rbx, %rcx
 movq %xmm6, %rbx
 movq %r9, 56(%rdi)
 movq %r10, 64(%rdi)
 movq %rcx, 72(%rdi)
 retq
	.text
	.globl mul8x2_zen
	.type mul8x2_zen, @function
	mul8x2_zen:
	vzeroupper
	movq %r13, %xmm10
	movq %rdx, %rax
	movq (%rdx), %rdx
	movq %r15, %xmm9
	movq 8(%rax), %rax
	mulx (%rsi), %r8, %r9
	mulx 8(%rsi), %r10, %r11
	movq %r14, %xmm8
	mulx 16(%rsi), %r15, %r14
	mulx 24(%rsi), %rcx, %r13
	movq %r12, %xmm7
	movq %rbx, %xmm6
	movq %rax, 48(%rdi)
	mulx 32(%rsi), %rax, %r12
	movq %rbp, %xmm5
	mulx 40(%rsi), %rbx, %rbp
	addq %r10, %r9
	movq %r8, (%rdi)
	mulx 48(%rsi), %r8, %r10
	adcq %r15, %r11
	movq %r9, 8(%rdi)
	mulx 56(%rsi), %r9, %r15
	movq 48(%rdi), %rdx
	adcq %rcx, %r14
	movq %r11, 16(%rdi)
	mulx (%rsi), %r11, %rcx
	adcq %r13, %rax
	adcq %rbx, %r12
	mulx 8(%rsi), %r13, %rbx
	adcq %rbp, %r8
	adcq %r10, %r9
	mulx 16(%rsi), %r10, %rbp
	adcq $0, %r15
	addq %r11, 8(%rdi)
	movq $0, %r11
	adcq %r13, 16(%rdi)
	adcq %rbx, %r14
	mulx 24(%rsi), %r13, %rbx
	adcq %rbp, %rax
	movq 16(%rdi), %rbp
	adcq $0, %r11
	xor %edx, %edx
	movq 48(%rdi), %rdx
	adox %rbp, %rcx
	adox %r14, %r10
	adox %r13, %rax
	mulx 32(%rsi), %r14, %rbp
	adox %rbx, %r12
	mulx 40(%rsi), %r13, %rbx
	adcx %r12, %r11
	movq %rcx, 16(%rdi)
	mulx 48(%rsi), %rcx, %r12
	adox %rbp, %r8
	adox %rbx, %r9
	mulx 56(%rsi), %rbx, %rbp
	adcx %r13, %r8
	movq $0, %r13
	adcx %rcx, %r9
	adox %r12, %r15
	mulx (%rsi), %rcx, %r12
	adox %r13, %rbp
	adcx %rbx, %r15
	adcx %r13, %rbp
	mulx 8(%rsi), %r13, %rbx
	movq %rbp, 48(%rdi)
	movq 16(%rdi), %rbp
	adcx %r12, %r10
	movq 48(%rdi), %r12
	adox %rbp, %rcx
	movq %rcx, 16(%rdi)
	mulx 16(%rsi), %rcx, %rbp
	adox %r13, %r10
	adcx %rbx, %rax
	mulx 24(%rsi), %r13, %rbx
	movq %r10, 24(%rdi)
	adox %rcx, %rax
	mulx 32(%rsi), %r10, %rcx
	adcx %r14, %r11
	movq %rax, 32(%rdi)
	mulx 40(%rsi), %rax, %r14
	adox %rbp, %r11
	adcx %rbx, %r8
	mulx 48(%rsi), %rbx, %rbp
	adox %r10, %r8
	adcx %rcx, %r9
	mulx 56(%rsi), %r10, %rcx
	movq %xmm14, %rdx
	adox %r9, %rax
	movq $0, %r9
	adcx %r14, %r15
	movq %xmm9, %r15
	movq %xmm8, %r14
	adcx %rbp, %r12
	movq %xmm5, %rbp
	adcx %r13, %r9
	movq %xmm10, %r13
	movq %rax, 32(%rdi)
	adcx %r12, %r10
	movq %r12, 40(%rdi)
	movq %xmm7, %r12
	movq %r8, 48(%rdi)
	adcx %rbx, %rcx
	movq %xmm6, %rbx
	movq %r9, 56(%rdi)
	movq %r10, 64(%rdi)
	movq %rcx, 72(%rdi)
	retq