Skip to content

Instantly share code, notes, and snippets.

@tanakamura
Created October 23, 2014 17:23
Show Gist options
  • Save tanakamura/3829d57bef90fca41f6a to your computer and use it in GitHub Desktop.
Save tanakamura/3829d57bef90fca41f6a to your computer and use it in GitHub Desktop.
matmul_x86_fma_:
.LFB1165:
.cfi_startproc
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset 6, -16
addq %rdi, %rcx
vxorps %xmm0, %xmm0, %xmm0
movq %rsp, %rbp
.cfi_def_cfa_register 6
pushq %r12
pushq %rbx
andq $-32, %rsp
addq $32, %rsp
.cfi_offset 12, -24
.cfi_offset 3, -32
movq 24(%rbp), %r10
imulq %r10, %rcx
leaq (%rcx,%rsi), %rax
leaq (%r8,%rax,4), %r12
leaq (%rcx,%r10), %rax
addq %rdx, %rcx
prefetcht0 (%r12)
leaq (%rax,%rsi), %rdi
addq %r10, %rax
leaq (%r8,%rdi,4), %rbx
leaq (%rax,%rsi), %rdi
addq %r10, %rax
prefetcht0 (%rbx)
leaq (%r8,%rdi,4), %r11
addq %rsi, %rax
leaq (%r8,%rax,4), %r8
movq %rdx, %rax
prefetcht0 (%r11)
imulq %r10, %rax
prefetcht0 (%r8)
leaq (%r9,%rcx,4), %rcx
vbroadcastss (%rcx), %ymm12
vbroadcastss 8(%rcx), %ymm15
vmovaps %ymm12, %ymm11
addq %rax, %rsi
movq 16(%rbp), %rax
leaq (%rax,%rsi,4), %rsi
leaq 0(,%r10,4), %rax
vmovaps (%rsi), %ymm1
leaq (%rcx,%rax), %rdi
vmovaps 32(%rsi), %ymm2
vbroadcastss (%rdi), %ymm13
addq %rax, %rdi
vfmadd132ps %ymm1, %ymm0, %ymm11
vbroadcastss (%rdi,%r10,4), %ymm3
leaq 4(%rcx,%rax), %r9
vfmadd132ps %ymm2, %ymm0, %ymm12
vbroadcastss (%rdi), %ymm8
movq %r10, %rdi
vmovaps %ymm13, %ymm10
salq $4, %rdi
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vmovaps %ymm8, %ymm9
prefetcht0 (%rsi,%rdi)
addq %rax, %rsi
vbroadcastss (%r9), %ymm5
vfmadd132ps %ymm1, %ymm0, %ymm10
vfmadd132ps %ymm2, %ymm0, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd132ps %ymm1, %ymm0, %ymm9
vfmadd132ps %ymm2, %ymm0, %ymm8
vfmadd132ps %ymm3, %ymm0, %ymm1
vfmadd132ps %ymm3, %ymm0, %ymm2
vmovaps %ymm1, %ymm14
vmovaps 32(%rsi), %ymm3
leaq 8(%rcx,%rax), %r9
prefetcht0 (%rsi,%rdi)
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vbroadcastss 4(%rcx), %ymm0
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss (%r9), %ymm7
vfmadd231ps %ymm1, %ymm6, %ymm10
addq %rax, %r9
vfmadd231ps %ymm1, %ymm0, %ymm11
vfmadd231ps %ymm3, %ymm0, %ymm12
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd132ps %ymm4, %ymm2, %ymm3
vfmadd231ps %ymm1, %ymm4, %ymm14
vmovaps 32(%rsi), %ymm2
vmovaps (%rsi), %ymm1
prefetcht0 (%rsi,%rdi)
addq %rax, %rsi
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm2, %ymm7, %ymm13
vfmadd231ps %ymm2, %ymm15, %ymm12
vbroadcastss (%r9,%r10,4), %ymm5
leaq 12(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm10
vbroadcastss (%r9), %ymm7
addq %rax, %r9
vfmadd231ps %ymm1, %ymm15, %ymm11
vmovaps 32(%rsi), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm9
vfmadd231ps %ymm2, %ymm6, %ymm8
vbroadcastss 12(%rcx), %ymm15
vfmadd132ps %ymm5, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm14
vbroadcastss (%r9), %ymm6
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm4, %ymm7, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm4, %ymm15, %ymm12
vbroadcastss (%r9,%r10,4), %ymm5
leaq 16(%rcx,%rax), %r9
vfmadd231ps %ymm4, %ymm6, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm15, %ymm11
vfmadd231ps %ymm1, %ymm7, %ymm10
vfmadd231ps %ymm1, %ymm6, %ymm9
vbroadcastss (%r9), %ymm7
vfmadd231ps %ymm1, %ymm5, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm5, %ymm2, %ymm4
vbroadcastss 16(%rcx), %ymm15
vfmadd231ps %ymm3, %ymm7, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm6
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm7, %ymm10
vbroadcastss (%r9,%r10,4), %ymm5
leaq 20(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm15, %ymm11
vbroadcastss (%r9), %ymm7
addq %rax, %r9
vfmadd231ps %ymm3, %ymm15, %ymm12
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm6, %ymm9
vfmadd231ps %ymm3, %ymm6, %ymm8
vbroadcastss 20(%rcx), %ymm15
vfmadd132ps %ymm5, %ymm4, %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm14
vbroadcastss (%r9), %ymm6
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm2, %ymm7, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm15, %ymm12
vbroadcastss (%r9,%r10,4), %ymm5
leaq 24(%rcx,%rax), %r9
vfmadd231ps %ymm2, %ymm6, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm15, %ymm11
vfmadd231ps %ymm1, %ymm7, %ymm10
vfmadd231ps %ymm1, %ymm6, %ymm9
vbroadcastss (%r9), %ymm7
vfmadd231ps %ymm1, %ymm5, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm5, %ymm3, %ymm2
vbroadcastss 24(%rcx), %ymm15
vfmadd231ps %ymm0, %ymm7, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm6
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm7, %ymm10
vbroadcastss (%r9,%r10,4), %ymm5
leaq 28(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm15, %ymm11
vbroadcastss (%r9), %ymm7
addq %rax, %r9
vfmadd231ps %ymm0, %ymm15, %ymm12
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm6, %ymm9
vfmadd231ps %ymm0, %ymm6, %ymm8
vfmadd231ps %ymm1, %ymm5, %ymm14
vfmadd132ps %ymm5, %ymm2, %ymm0
vmovaps (%rsi), %ymm1
vbroadcastss (%r9), %ymm6
prefetcht0 (%rsi,%rdi)
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm5
leaq 32(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm10
vbroadcastss 28(%rcx), %ymm15
vfmadd231ps %ymm1, %ymm6, %ymm9
vfmadd231ps %ymm3, %ymm6, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm14
vfmadd231ps %ymm3, %ymm7, %ymm13
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm15, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm3, %ymm15, %ymm12
vfmadd132ps %ymm5, %ymm0, %ymm3
vbroadcastss 32(%rcx), %ymm7
vfmadd231ps %ymm2, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 36(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 36(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm0, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 40(%rcx,%rax), %r9
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss 40(%rcx), %ymm7
vfmadd231ps %ymm3, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 44(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 44(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm0, %ymm3
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm2, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 48(%rcx,%rax), %r9
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss 48(%rcx), %ymm7
vfmadd231ps %ymm0, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 52(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 52(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm2, %ymm0
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm3, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 56(%rcx,%rax), %r9
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss 56(%rcx), %ymm7
vfmadd231ps %ymm2, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 60(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 60(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm0, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 64(%rcx,%rax), %r9
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss 64(%rcx), %ymm7
vfmadd231ps %ymm3, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 68(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 68(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm0, %ymm3
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm2, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 72(%rcx,%rax), %r9
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss 72(%rcx), %ymm7
vfmadd231ps %ymm0, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 76(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 76(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm2, %ymm0
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm3, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 80(%rcx,%rax), %r9
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss 80(%rcx), %ymm7
vfmadd231ps %ymm2, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 84(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 84(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm0, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 88(%rcx,%rax), %r9
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss 88(%rcx), %ymm7
vfmadd231ps %ymm3, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 92(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 92(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm0, %ymm3
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm2, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 96(%rcx,%rax), %r9
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss 96(%rcx), %ymm7
vfmadd231ps %ymm0, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 100(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 100(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm2, %ymm0
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm3, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 104(%rcx,%rax), %r9
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss 104(%rcx), %ymm7
vfmadd231ps %ymm2, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 108(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 108(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm0, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 112(%rcx,%rax), %r9
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss 112(%rcx), %ymm7
vfmadd231ps %ymm3, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 116(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 116(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm0, %ymm3
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm2, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
leaq 120(%rcx,%rax), %r9
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm4, %ymm14
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss 120(%rcx), %ymm7
vfmadd231ps %ymm0, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
leaq 124(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm7, %ymm11
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 124(%rcx), %ymm7
vfmadd132ps %ymm4, %ymm2, %ymm0
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm3, %ymm6, %ymm13
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm7, %ymm12
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm5, %ymm8
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm1, %ymm4, %ymm14
vmovaps (%rsi), %ymm1
leaq 128(%rcx,%rax), %r9
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9), %ymm6
addq %rax, %r9
prefetcht0 (%rsi,%rdi)
vbroadcastss 128(%rcx), %ymm7
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm2, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
leaq 132(%rcx,%rax), %r9
vfmadd132ps %ymm4, %ymm3, %ymm2
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vmovaps (%rsi), %ymm1
addq %rax, %rsi
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm0, %ymm6, %ymm13
prefetcht0 (%rsi,%rdi)
vbroadcastss 132(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm6, %ymm10
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
leaq 136(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vmovaps (%rsi), %ymm1
vbroadcastss (%r9), %ymm6
addq %rax, %r9
addq %rax, %rsi
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss (%r9), %ymm5
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm3, %ymm6, %ymm13
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 136(%rcx), %ymm7
leaq 140(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 140(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 144(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm2, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 144(%rcx), %ymm7
leaq 148(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 148(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 152(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm3, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 152(%rcx), %ymm7
leaq 156(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm0, %ymm6, %ymm13
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 156(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 160(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm0, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 160(%rcx), %ymm7
leaq 164(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 164(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 168(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm2, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 168(%rcx), %ymm7
leaq 172(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 172(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 176(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm3, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 176(%rcx), %ymm7
leaq 180(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm0, %ymm6, %ymm13
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 180(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 184(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm0, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 184(%rcx), %ymm7
leaq 188(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 188(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 192(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm2, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 192(%rcx), %ymm7
leaq 196(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 196(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 200(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm3, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 200(%rcx), %ymm7
leaq 204(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm0, %ymm6, %ymm13
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 204(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 208(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm0, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 208(%rcx), %ymm7
leaq 212(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 212(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 216(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm2, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 216(%rcx), %ymm7
leaq 220(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 220(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 224(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm3, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm2, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm2, %ymm5, %ymm8
vbroadcastss 224(%rcx), %ymm7
leaq 228(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm3, %ymm2
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm0, %ymm6, %ymm13
vfmadd231ps %ymm0, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 228(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 232(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm0, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm2, %ymm0
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm3, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm2
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm3, %ymm5, %ymm8
vbroadcastss 232(%rcx), %ymm7
leaq 236(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm2, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vbroadcastss 236(%rcx), %ymm7
vfmadd231ps %ymm1, %ymm4, %ymm14
prefetcht0 (%rsi,%rdi)
leaq 240(%rcx,%rax), %r9
vbroadcastss (%r9), %ymm6
vfmadd231ps %ymm1, %ymm7, %ymm11
addq %rax, %r9
vmovaps (%rsi), %ymm1
vfmadd231ps %ymm2, %ymm7, %ymm12
vfmadd132ps %ymm4, %ymm3, %ymm2
vbroadcastss (%r9), %ymm5
addq %rax, %rsi
vfmadd231ps %ymm0, %ymm6, %ymm13
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
prefetcht0 (%rsi,%rdi)
vmovaps 32(%rsi), %ymm3
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm0, %ymm5, %ymm8
vbroadcastss 240(%rcx), %ymm7
leaq 244(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
addq %rax, %r9
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm0, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm2, %ymm0
addq %rax, %rsi
vbroadcastss (%r9,%r10,4), %ymm4
vfmadd231ps %ymm3, %ymm6, %ymm13
vfmadd231ps %ymm3, %ymm5, %ymm8
vmovaps 32(%rsi), %ymm2
leaq 248(%rcx,%rax), %r9
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm1, %ymm4, %ymm14
vbroadcastss (%r9), %ymm6
vbroadcastss 244(%rcx), %ymm7
addq %rax, %r9
prefetcht0 (%rsi,%rdi)
vbroadcastss (%r9), %ymm5
vfmadd231ps %ymm2, %ymm6, %ymm13
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm3, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vfmadd132ps %ymm4, %ymm0, %ymm3
vbroadcastss (%r9,%r10,4), %ymm4
addq %rax, %rsi
vmovaps 32(%rsi), %ymm0
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd231ps %ymm1, %ymm4, %ymm14
vfmadd231ps %ymm2, %ymm5, %ymm8
vfmadd231ps %ymm2, %ymm4, %ymm3
vbroadcastss 248(%rcx), %ymm7
prefetcht0 (%rsi,%rdi)
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd231ps %ymm2, %ymm7, %ymm12
vmovaps (%rsi), %ymm1
vbroadcastss 252(%rcx), %ymm7
leaq 252(%rcx,%rax), %rcx
addq %rcx, %rax
vbroadcastss (%rcx), %ymm6
testq %rdx, %rdx
vbroadcastss (%rax), %ymm5
vfmadd231ps %ymm1, %ymm7, %ymm11
vfmadd132ps %ymm0, %ymm12, %ymm7
vbroadcastss (%rax,%r10,4), %ymm4
vfmadd231ps %ymm1, %ymm6, %ymm10
vfmadd132ps %ymm0, %ymm13, %ymm6
vfmadd231ps %ymm1, %ymm5, %ymm9
vfmadd132ps %ymm0, %ymm8, %ymm5
vfmadd132ps %ymm4, %ymm14, %ymm1
vfmadd132ps %ymm0, %ymm3, %ymm4
je .L13
vaddps (%r12), %ymm11, %ymm11
vaddps 32(%r12), %ymm7, %ymm7
vmovaps %ymm11, (%r12)
vmovaps %ymm7, 32(%r12)
vaddps (%rbx), %ymm10, %ymm10
vaddps 32(%rbx), %ymm6, %ymm6
vmovaps %ymm10, (%rbx)
vmovaps %ymm6, 32(%rbx)
vaddps (%r11), %ymm9, %ymm9
vaddps 32(%r11), %ymm5, %ymm5
vmovaps %ymm9, (%r11)
vmovaps %ymm5, 32(%r11)
vaddps (%r8), %ymm1, %ymm1
vaddps 32(%r8), %ymm4, %ymm4
vmovaps %ymm1, (%r8)
vmovaps %ymm4, 32(%r8)
vzeroupper
leaq -16(%rbp), %rsp
popq %rbx
popq %r12
popq %rbp
.cfi_remember_state
.cfi_def_cfa 7, 8
ret
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment