Created
October 23, 2014 17:23
-
-
Save tanakamura/3829d57bef90fca41f6a to your computer and use it in GitHub Desktop.
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
matmul_x86_fma_: | |
.LFB1165: | |
.cfi_startproc | |
pushq %rbp | |
.cfi_def_cfa_offset 16 | |
.cfi_offset 6, -16 | |
addq %rdi, %rcx | |
vxorps %xmm0, %xmm0, %xmm0 | |
movq %rsp, %rbp | |
.cfi_def_cfa_register 6 | |
pushq %r12 | |
pushq %rbx | |
andq $-32, %rsp | |
addq $32, %rsp | |
.cfi_offset 12, -24 | |
.cfi_offset 3, -32 | |
movq 24(%rbp), %r10 | |
imulq %r10, %rcx | |
leaq (%rcx,%rsi), %rax | |
leaq (%r8,%rax,4), %r12 | |
leaq (%rcx,%r10), %rax | |
addq %rdx, %rcx | |
prefetcht0 (%r12) | |
leaq (%rax,%rsi), %rdi | |
addq %r10, %rax | |
leaq (%r8,%rdi,4), %rbx | |
leaq (%rax,%rsi), %rdi | |
addq %r10, %rax | |
prefetcht0 (%rbx) | |
leaq (%r8,%rdi,4), %r11 | |
addq %rsi, %rax | |
leaq (%r8,%rax,4), %r8 | |
movq %rdx, %rax | |
prefetcht0 (%r11) | |
imulq %r10, %rax | |
prefetcht0 (%r8) | |
leaq (%r9,%rcx,4), %rcx | |
vbroadcastss (%rcx), %ymm12 | |
vbroadcastss 8(%rcx), %ymm15 | |
vmovaps %ymm12, %ymm11 | |
addq %rax, %rsi | |
movq 16(%rbp), %rax | |
leaq (%rax,%rsi,4), %rsi | |
leaq 0(,%r10,4), %rax | |
vmovaps (%rsi), %ymm1 | |
leaq (%rcx,%rax), %rdi | |
vmovaps 32(%rsi), %ymm2 | |
vbroadcastss (%rdi), %ymm13 | |
addq %rax, %rdi | |
vfmadd132ps %ymm1, %ymm0, %ymm11 | |
vbroadcastss (%rdi,%r10,4), %ymm3 | |
leaq 4(%rcx,%rax), %r9 | |
vfmadd132ps %ymm2, %ymm0, %ymm12 | |
vbroadcastss (%rdi), %ymm8 | |
movq %r10, %rdi | |
vmovaps %ymm13, %ymm10 | |
salq $4, %rdi | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vmovaps %ymm8, %ymm9 | |
prefetcht0 (%rsi,%rdi) | |
addq %rax, %rsi | |
vbroadcastss (%r9), %ymm5 | |
vfmadd132ps %ymm1, %ymm0, %ymm10 | |
vfmadd132ps %ymm2, %ymm0, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd132ps %ymm1, %ymm0, %ymm9 | |
vfmadd132ps %ymm2, %ymm0, %ymm8 | |
vfmadd132ps %ymm3, %ymm0, %ymm1 | |
vfmadd132ps %ymm3, %ymm0, %ymm2 | |
vmovaps %ymm1, %ymm14 | |
vmovaps 32(%rsi), %ymm3 | |
leaq 8(%rcx,%rax), %r9 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vbroadcastss 4(%rcx), %ymm0 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss (%r9), %ymm7 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
addq %rax, %r9 | |
vfmadd231ps %ymm1, %ymm0, %ymm11 | |
vfmadd231ps %ymm3, %ymm0, %ymm12 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd132ps %ymm4, %ymm2, %ymm3 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vmovaps 32(%rsi), %ymm2 | |
vmovaps (%rsi), %ymm1 | |
prefetcht0 (%rsi,%rdi) | |
addq %rax, %rsi | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm2, %ymm7, %ymm13 | |
vfmadd231ps %ymm2, %ymm15, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 12(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vbroadcastss (%r9), %ymm7 | |
addq %rax, %r9 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
vmovaps 32(%rsi), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vfmadd231ps %ymm2, %ymm6, %ymm8 | |
vbroadcastss 12(%rcx), %ymm15 | |
vfmadd132ps %ymm5, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm4, %ymm7, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm4, %ymm15, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 16(%rcx,%rax), %r9 | |
vfmadd231ps %ymm4, %ymm6, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vbroadcastss (%r9), %ymm7 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm5, %ymm2, %ymm4 | |
vbroadcastss 16(%rcx), %ymm15 | |
vfmadd231ps %ymm3, %ymm7, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 20(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
vbroadcastss (%r9), %ymm7 | |
addq %rax, %r9 | |
vfmadd231ps %ymm3, %ymm15, %ymm12 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vfmadd231ps %ymm3, %ymm6, %ymm8 | |
vbroadcastss 20(%rcx), %ymm15 | |
vfmadd132ps %ymm5, %ymm4, %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm2, %ymm7, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm15, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 24(%rcx,%rax), %r9 | |
vfmadd231ps %ymm2, %ymm6, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vbroadcastss (%r9), %ymm7 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm5, %ymm3, %ymm2 | |
vbroadcastss 24(%rcx), %ymm15 | |
vfmadd231ps %ymm0, %ymm7, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 28(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
vbroadcastss (%r9), %ymm7 | |
addq %rax, %r9 | |
vfmadd231ps %ymm0, %ymm15, %ymm12 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vfmadd231ps %ymm0, %ymm6, %ymm8 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
vfmadd132ps %ymm5, %ymm2, %ymm0 | |
vmovaps (%rsi), %ymm1 | |
vbroadcastss (%r9), %ymm6 | |
prefetcht0 (%rsi,%rdi) | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm5 | |
leaq 32(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm10 | |
vbroadcastss 28(%rcx), %ymm15 | |
vfmadd231ps %ymm1, %ymm6, %ymm9 | |
vfmadd231ps %ymm3, %ymm6, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm14 | |
vfmadd231ps %ymm3, %ymm7, %ymm13 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm15, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm3, %ymm15, %ymm12 | |
vfmadd132ps %ymm5, %ymm0, %ymm3 | |
vbroadcastss 32(%rcx), %ymm7 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 36(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 36(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 40(%rcx,%rax), %r9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss 40(%rcx), %ymm7 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 44(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 44(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 48(%rcx,%rax), %r9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss 48(%rcx), %ymm7 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 52(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 52(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 56(%rcx,%rax), %r9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss 56(%rcx), %ymm7 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 60(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 60(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 64(%rcx,%rax), %r9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss 64(%rcx), %ymm7 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 68(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 68(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 72(%rcx,%rax), %r9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss 72(%rcx), %ymm7 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 76(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 76(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 80(%rcx,%rax), %r9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss 80(%rcx), %ymm7 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 84(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 84(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 88(%rcx,%rax), %r9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss 88(%rcx), %ymm7 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 92(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 92(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 96(%rcx,%rax), %r9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss 96(%rcx), %ymm7 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 100(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 100(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 104(%rcx,%rax), %r9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss 104(%rcx), %ymm7 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 108(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 108(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 112(%rcx,%rax), %r9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss 112(%rcx), %ymm7 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 116(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 116(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 120(%rcx,%rax), %r9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss 120(%rcx), %ymm7 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
leaq 124(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 124(%rcx), %ymm7 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vmovaps (%rsi), %ymm1 | |
leaq 128(%rcx,%rax), %r9 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss 128(%rcx), %ymm7 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
leaq 132(%rcx,%rax), %r9 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
addq %rax, %rsi | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss 132(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
leaq 136(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vmovaps (%rsi), %ymm1 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
addq %rax, %rsi | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss (%r9), %ymm5 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 136(%rcx), %ymm7 | |
leaq 140(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 140(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 144(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 144(%rcx), %ymm7 | |
leaq 148(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 148(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 152(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 152(%rcx), %ymm7 | |
leaq 156(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 156(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 160(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 160(%rcx), %ymm7 | |
leaq 164(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 164(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 168(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 168(%rcx), %ymm7 | |
leaq 172(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 172(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 176(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 176(%rcx), %ymm7 | |
leaq 180(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 180(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 184(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 184(%rcx), %ymm7 | |
leaq 188(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 188(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 192(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 192(%rcx), %ymm7 | |
leaq 196(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 196(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 200(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 200(%rcx), %ymm7 | |
leaq 204(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 204(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 208(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 208(%rcx), %ymm7 | |
leaq 212(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 212(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 216(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 216(%rcx), %ymm7 | |
leaq 220(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 220(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 224(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vbroadcastss 224(%rcx), %ymm7 | |
leaq 228(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 228(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 232(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm2 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vbroadcastss 232(%rcx), %ymm7 | |
leaq 236(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vbroadcastss 236(%rcx), %ymm7 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
prefetcht0 (%rsi,%rdi) | |
leaq 240(%rcx,%rax), %r9 | |
vbroadcastss (%r9), %ymm6 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
addq %rax, %r9 | |
vmovaps (%rsi), %ymm1 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vfmadd132ps %ymm4, %ymm3, %ymm2 | |
vbroadcastss (%r9), %ymm5 | |
addq %rax, %rsi | |
vfmadd231ps %ymm0, %ymm6, %ymm13 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
prefetcht0 (%rsi,%rdi) | |
vmovaps 32(%rsi), %ymm3 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm0, %ymm5, %ymm8 | |
vbroadcastss 240(%rcx), %ymm7 | |
leaq 244(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
addq %rax, %r9 | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm0, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm2, %ymm0 | |
addq %rax, %rsi | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
vfmadd231ps %ymm3, %ymm6, %ymm13 | |
vfmadd231ps %ymm3, %ymm5, %ymm8 | |
vmovaps 32(%rsi), %ymm2 | |
leaq 248(%rcx,%rax), %r9 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vbroadcastss (%r9), %ymm6 | |
vbroadcastss 244(%rcx), %ymm7 | |
addq %rax, %r9 | |
prefetcht0 (%rsi,%rdi) | |
vbroadcastss (%r9), %ymm5 | |
vfmadd231ps %ymm2, %ymm6, %ymm13 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm3, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vfmadd132ps %ymm4, %ymm0, %ymm3 | |
vbroadcastss (%r9,%r10,4), %ymm4 | |
addq %rax, %rsi | |
vmovaps 32(%rsi), %ymm0 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd231ps %ymm1, %ymm4, %ymm14 | |
vfmadd231ps %ymm2, %ymm5, %ymm8 | |
vfmadd231ps %ymm2, %ymm4, %ymm3 | |
vbroadcastss 248(%rcx), %ymm7 | |
prefetcht0 (%rsi,%rdi) | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd231ps %ymm2, %ymm7, %ymm12 | |
vmovaps (%rsi), %ymm1 | |
vbroadcastss 252(%rcx), %ymm7 | |
leaq 252(%rcx,%rax), %rcx | |
addq %rcx, %rax | |
vbroadcastss (%rcx), %ymm6 | |
testq %rdx, %rdx | |
vbroadcastss (%rax), %ymm5 | |
vfmadd231ps %ymm1, %ymm7, %ymm11 | |
vfmadd132ps %ymm0, %ymm12, %ymm7 | |
vbroadcastss (%rax,%r10,4), %ymm4 | |
vfmadd231ps %ymm1, %ymm6, %ymm10 | |
vfmadd132ps %ymm0, %ymm13, %ymm6 | |
vfmadd231ps %ymm1, %ymm5, %ymm9 | |
vfmadd132ps %ymm0, %ymm8, %ymm5 | |
vfmadd132ps %ymm4, %ymm14, %ymm1 | |
vfmadd132ps %ymm0, %ymm3, %ymm4 | |
je .L13 | |
vaddps (%r12), %ymm11, %ymm11 | |
vaddps 32(%r12), %ymm7, %ymm7 | |
vmovaps %ymm11, (%r12) | |
vmovaps %ymm7, 32(%r12) | |
vaddps (%rbx), %ymm10, %ymm10 | |
vaddps 32(%rbx), %ymm6, %ymm6 | |
vmovaps %ymm10, (%rbx) | |
vmovaps %ymm6, 32(%rbx) | |
vaddps (%r11), %ymm9, %ymm9 | |
vaddps 32(%r11), %ymm5, %ymm5 | |
vmovaps %ymm9, (%r11) | |
vmovaps %ymm5, 32(%r11) | |
vaddps (%r8), %ymm1, %ymm1 | |
vaddps 32(%r8), %ymm4, %ymm4 | |
vmovaps %ymm1, (%r8) | |
vmovaps %ymm4, 32(%r8) | |
vzeroupper | |
leaq -16(%rbp), %rsp | |
popq %rbx | |
popq %r12 | |
popq %rbp | |
.cfi_remember_state | |
.cfi_def_cfa 7, 8 | |
ret |
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment