Skip to content

Instantly share code, notes, and snippets.

@ychen306
Created April 18, 2019 06:01
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save ychen306/6a4833b47ea5df2cbca3785b2e2382b6 to your computer and use it in GitHub Desktop.
Save ychen306/6a4833b47ea5df2cbca3785b2e2382b6 to your computer and use it in GitHub Desktop.
vxorps %xmm4, %xmm4, %xmm4
movq %r11, %rax
movq %r10, %rdx
xorl %r15d, %r15d
vmovaps %ymm4, %ymm9
vmovaps %ymm4, %ymm15
vmovaps %ymm4, -80(%rbp)
vmovaps %ymm4, %ymm11
vmovaps %ymm4, %ymm8
vmovaps %ymm4, %ymm5
vmovaps %ymm4, %ymm1
vmovaps %ymm4, %ymm7
vmovaps %ymm4, %ymm6
vmovaps %ymm4, %ymm0
vmovaps %ymm4, %ymm3
nopl (%rax)
prefetcht0 (%rax)
vmovaps 32(%rdx), %ymm2
prefetcht0 512(%rdx)
vmovaps (%rdx), %ymm14
vmovaps 64(%rdx), %ymm12
vbroadcastss (%rax), %ymm13
vmovaps -80(%rbp), %ymm10
vfmadd231ps %ymm14, %ymm13, %ymm11
vfmadd231ps %ymm2, %ymm13, %ymm10
vfmadd231ps %ymm12, %ymm13, %ymm9
vbroadcastss 4(%rax), %ymm13
vfmadd231ps %ymm2, %ymm13, %ymm7
vfmadd231ps %ymm14, %ymm13, %ymm8
vfmadd231ps %ymm12, %ymm13, %ymm6
vbroadcastss 8(%rax), %ymm13
vfmadd231ps %ymm2, %ymm13, %ymm4
vfmadd231ps %ymm14, %ymm13, %ymm5
vfmadd231ps %ymm12, %ymm13, %ymm3
vbroadcastss 12(%rax), %ymm13
vfmadd231ps %ymm2, %ymm13, %ymm1
vfmadd231ps %ymm14, %ymm13, %ymm0
vmovaps %ymm15, %ymm2
vfmadd231ps %ymm12, %ymm13, %ymm2
vmovaps 96(%rdx), %ymm15
prefetcht0 608(%rdx)
vmovaps 128(%rdx), %ymm13
vmovaps 160(%rdx), %ymm12
vbroadcastss 16(%rax), %ymm14
vfmadd231ps %ymm15, %ymm14, %ymm11
vfmadd231ps %ymm13, %ymm14, %ymm10
vfmadd231ps %ymm12, %ymm14, %ymm9
vbroadcastss 20(%rax), %ymm14
vfmadd231ps %ymm15, %ymm14, %ymm8
vfmadd231ps %ymm13, %ymm14, %ymm7
vfmadd231ps %ymm12, %ymm14, %ymm6
vbroadcastss 24(%rax), %ymm14
vfmadd231ps %ymm15, %ymm14, %ymm5
vfmadd231ps %ymm13, %ymm14, %ymm4
vfmadd231ps %ymm12, %ymm14, %ymm3
vbroadcastss 28(%rax), %ymm14
vfmadd231ps %ymm15, %ymm14, %ymm0
vfmadd231ps %ymm13, %ymm14, %ymm1
vfmadd231ps %ymm12, %ymm14, %ymm2
vmovaps 192(%rdx), %ymm15
prefetcht0 704(%rdx)
vmovaps 224(%rdx), %ymm14
vmovaps 256(%rdx), %ymm12
vbroadcastss 32(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm11
vfmadd231ps %ymm14, %ymm13, %ymm10
vfmadd231ps %ymm12, %ymm13, %ymm9
vbroadcastss 36(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm8
vfmadd231ps %ymm14, %ymm13, %ymm7
vfmadd231ps %ymm12, %ymm13, %ymm6
vbroadcastss 40(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm5
vfmadd231ps %ymm14, %ymm13, %ymm4
vfmadd231ps %ymm12, %ymm13, %ymm3
vbroadcastss 44(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm0
vfmadd231ps %ymm14, %ymm13, %ymm1
vfmadd231ps %ymm12, %ymm13, %ymm2
vmovaps 288(%rdx), %ymm15
prefetcht0 800(%rdx)
vmovaps 320(%rdx), %ymm14
vmovaps 352(%rdx), %ymm12
vbroadcastss 48(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm11
vfmadd231ps %ymm14, %ymm13, %ymm10
vfmadd231ps %ymm12, %ymm13, %ymm9
vbroadcastss 52(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm8
vfmadd231ps %ymm14, %ymm13, %ymm7
vfmadd231ps %ymm12, %ymm13, %ymm6
vbroadcastss 56(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm5
vfmadd231ps %ymm14, %ymm13, %ymm4
vfmadd231ps %ymm12, %ymm13, %ymm3
vbroadcastss 60(%rax), %ymm13
vfmadd231ps %ymm15, %ymm13, %ymm0
vfmadd231ps %ymm14, %ymm13, %ymm1
vfmadd231ps %ymm12, %ymm13, %ymm2
vmovaps 384(%rdx), %ymm14
prefetcht0 896(%rdx)
vmovaps 416(%rdx), %ymm13
vmovaps 448(%rdx), %ymm12
vbroadcastss 64(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm11
vfmadd231ps %ymm13, %ymm15, %ymm10
vfmadd231ps %ymm12, %ymm15, %ymm9
vbroadcastss 68(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm8
vfmadd231ps %ymm13, %ymm15, %ymm7
vfmadd231ps %ymm12, %ymm15, %ymm6
vbroadcastss 72(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm5
vfmadd231ps %ymm13, %ymm15, %ymm4
vfmadd231ps %ymm12, %ymm15, %ymm3
vbroadcastss 76(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm0
vfmadd231ps %ymm13, %ymm15, %ymm1
vfmadd231ps %ymm12, %ymm15, %ymm2
vmovaps 480(%rdx), %ymm14
prefetcht0 992(%rdx)
vmovaps 512(%rdx), %ymm13
vmovaps 544(%rdx), %ymm12
vbroadcastss 80(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm11
vfmadd231ps %ymm13, %ymm15, %ymm10
vfmadd231ps %ymm12, %ymm15, %ymm9
vbroadcastss 84(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm8
vfmadd231ps %ymm13, %ymm15, %ymm7
vfmadd231ps %ymm12, %ymm15, %ymm6
vbroadcastss 88(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm5
vfmadd231ps %ymm13, %ymm15, %ymm4
vfmadd231ps %ymm12, %ymm15, %ymm3
vbroadcastss 92(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm0
vfmadd231ps %ymm13, %ymm15, %ymm1
vfmadd231ps %ymm12, %ymm15, %ymm2
vmovaps 576(%rdx), %ymm14
prefetcht0 1088(%rdx)
vmovaps 608(%rdx), %ymm13
vmovaps 640(%rdx), %ymm12
vbroadcastss 96(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm11
vfmadd231ps %ymm13, %ymm15, %ymm10
vfmadd231ps %ymm12, %ymm15, %ymm9
vbroadcastss 100(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm8
vfmadd231ps %ymm13, %ymm15, %ymm7
vfmadd231ps %ymm12, %ymm15, %ymm6
vbroadcastss 104(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm5
vfmadd231ps %ymm13, %ymm15, %ymm4
vfmadd231ps %ymm12, %ymm15, %ymm3
vbroadcastss 108(%rax), %ymm15
vfmadd231ps %ymm14, %ymm15, %ymm0
vfmadd231ps %ymm13, %ymm15, %ymm1
vfmadd231ps %ymm12, %ymm15, %ymm2
vmovaps 672(%rdx), %ymm14
prefetcht0 1184(%rdx)
vmovaps 704(%rdx), %ymm13
vmovaps 736(%rdx), %ymm12
vbroadcastss 112(%rax), %ymm15
vfmadd231ps %ymm13, %ymm15, %ymm10
vfmadd231ps %ymm14, %ymm15, %ymm11
vmovaps %ymm10, -80(%rbp)
vfmadd231ps %ymm12, %ymm15, %ymm9
vbroadcastss 116(%rax), %ymm10
vfmadd231ps %ymm14, %ymm10, %ymm8
vfmadd231ps %ymm13, %ymm10, %ymm7
vfmadd231ps %ymm12, %ymm10, %ymm6
vbroadcastss 120(%rax), %ymm10
vfmadd231ps %ymm14, %ymm10, %ymm5
vfmadd231ps %ymm13, %ymm10, %ymm4
vfmadd231ps %ymm12, %ymm10, %ymm3
vbroadcastss 124(%rax), %ymm10
vfmadd231ps %ymm12, %ymm10, %ymm2
vfmadd231ps %ymm14, %ymm10, %ymm0
vfmadd231ps %ymm13, %ymm10, %ymm1
vmovaps %ymm2, %ymm15
subq $-128, %rax
addq $768, %rdx ## imm = 0x300
addq $8, %r15
cmpq %r15, %r14
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment