Skip to content

Instantly share code, notes, and snippets.

@tmcdonell
Created March 17, 2014 19:43
Show Gist options
  • Save tmcdonell/9606772 to your computer and use it in GitHub Desktop.
Save tmcdonell/9606772 to your computer and use it in GitHub Desktop.
//
// Generated by LLVM NVPTX Back-End
//
.version 3.1
.target sm_30
.address_size 64
// .globl __nv_fminf
.visible .func (.param .b32 func_retval0) fminf
(
.param .b32 fminf_param_0,
.param .b32 fminf_param_1
)
;
.visible .func (.param .b32 func_retval0) sqrtf
(
.param .b32 sqrtf_param_0
)
;
.visible .func (.param .b32 func_retval0) __nv_fminf(
.param .b32 __nv_fminf_param_0,
.param .b32 __nv_fminf_param_1
)
{
.reg .f32 %f<4>;
ld.param.f32 %f1, [__nv_fminf_param_0];
ld.param.f32 %f2, [__nv_fminf_param_1];
min.f32 %f3, %f1, %f2;
st.param.f32 [func_retval0+0], %f3;
ret;
}
// .globl __nv_sqrtf
.visible .func (.param .b32 func_retval0) __nv_sqrtf(
.param .b32 __nv_sqrtf_param_0
)
{
.reg .f32 %f<3>;
ld.param.f32 %f1, [__nv_sqrtf_param_0];
sqrt.rn.f32 %f2, %f1;
st.param.f32 [func_retval0+0], %f2;
ret;
}
// .globl __nvvm_reflect
.visible .func (.param .b32 func_retval0) __nvvm_reflect(
.param .b64 __nvvm_reflect_param_0
)
{
.reg .s32 %r<2>;
mov.u32 %r1, 0;
st.param.b32 [func_retval0+0], %r1;
ret;
}
// .globl generate
.visible .entry generate(
.param .u64 generate_param_0,
.param .u64 generate_param_1,
.param .u64 generate_param_2,
.param .u64 generate_param_3,
.param .u64 generate_param_4,
.param .u64 generate_param_5,
.param .u64 generate_param_6,
.param .u64 generate_param_7,
.param .u64 generate_param_8,
.param .u64 generate_param_9,
.param .u64 generate_param_10,
.param .u64 generate_param_11,
.param .u64 generate_param_12,
.param .u64 generate_param_13,
.param .u64 generate_param_14,
.param .u64 generate_param_15,
.param .u64 generate_param_16,
.param .u64 generate_param_17,
.param .u64 generate_param_18,
.param .u64 generate_param_19,
.param .u64 generate_param_20,
.param .u64 generate_param_21,
.param .u64 generate_param_22,
.param .u64 generate_param_23,
.param .u64 generate_param_24,
.param .u64 generate_param_25,
.param .u64 generate_param_26,
.param .u64 generate_param_27,
.param .u64 generate_param_28,
.param .u64 generate_param_29,
.param .u64 generate_param_30,
.param .u64 generate_param_31,
.param .u64 generate_param_32,
.param .u64 generate_param_33,
.param .u64 generate_param_34,
.param .u64 generate_param_35,
.param .u64 generate_param_36,
.param .u64 generate_param_37,
.param .u64 generate_param_38,
.param .u64 generate_param_39,
.param .u64 generate_param_40,
.param .u64 generate_param_41,
.param .u64 generate_param_42,
.param .u64 generate_param_43,
.param .u64 generate_param_44,
.param .u64 generate_param_45,
.param .u64 generate_param_46,
.param .u64 generate_param_47,
.param .u64 generate_param_48,
.param .u64 generate_param_49,
.param .u64 generate_param_50,
.param .u64 generate_param_51,
.param .u64 generate_param_52,
.param .u64 generate_param_53,
.param .u64 generate_param_54,
.param .u64 generate_param_55,
.param .u64 generate_param_56,
.param .u64 generate_param_57,
.param .u64 generate_param_58,
.param .u64 generate_param_59,
.param .u64 generate_param_60,
.param .u64 generate_param_61,
.param .u64 generate_param_62,
.param .u64 generate_param_63,
.param .u64 generate_param_64,
.param .u64 generate_param_65,
.param .u64 generate_param_66,
.param .u64 generate_param_67,
.param .u64 generate_param_68,
.param .u64 generate_param_69,
.param .u64 generate_param_70,
.param .u64 generate_param_71,
.param .u64 generate_param_72,
.param .u64 generate_param_73,
.param .u64 generate_param_74,
.param .u64 generate_param_75,
.param .u64 generate_param_76,
.param .u64 generate_param_77,
.param .u64 generate_param_78,
.param .u64 generate_param_79,
.param .u64 generate_param_80,
.param .u64 generate_param_81,
.param .u64 generate_param_82,
.param .u64 generate_param_83,
.param .u64 generate_param_84,
.param .u64 generate_param_85,
.param .u64 generate_param_86,
.param .u64 generate_param_87,
.param .u64 generate_param_88,
.param .u64 generate_param_89,
.param .u64 generate_param_90,
.param .u64 generate_param_91,
.param .u64 generate_param_92,
.param .u64 generate_param_93,
.param .u64 generate_param_94,
.param .u64 generate_param_95,
.param .u64 generate_param_96,
.param .u64 generate_param_97,
.param .u64 generate_param_98,
.param .u64 generate_param_99,
.param .u64 generate_param_100,
.param .u64 generate_param_101,
.param .u64 generate_param_102,
.param .u64 generate_param_103,
.param .u64 generate_param_104,
.param .u64 generate_param_105,
.param .u64 generate_param_106,
.param .u64 generate_param_107,
.param .u64 generate_param_108,
.param .u64 generate_param_109
)
{
.reg .pred %p<350>;
.reg .f32 %f<1290>;
.reg .s32 %r<111>;
.reg .s64 %rl<401>;
ld.param.u64 %rl176, [generate_param_1];
ld.param.u64 %rl103, [generate_param_2];
mul.lo.s64 %rl177, %rl103, %rl176;
cvt.u32.u64 %r1, %rl177;
mov.u32 %r37, %ntid.x;
mov.u32 %r38, %tid.x;
mov.u32 %r39, %ctaid.x;
mad.lo.s32 %r99, %r39, %r37, %r38;
setp.ge.s32 %p58, %r99, %r1;
@%p58 bra BB3_159;
ld.param.u64 %rl102, [generate_param_0];
ld.param.u64 %rl104, [generate_param_3];
ld.param.u64 %rl175, [generate_param_109];
ld.param.u64 %rl174, [generate_param_108];
ld.param.u64 %rl173, [generate_param_107];
ld.param.u64 %rl172, [generate_param_106];
ld.param.u64 %rl171, [generate_param_105];
ld.param.u64 %rl170, [generate_param_104];
ld.param.u64 %rl169, [generate_param_103];
ld.param.u64 %rl168, [generate_param_102];
ld.param.u64 %rl167, [generate_param_97];
ld.param.u64 %rl166, [generate_param_96];
ld.param.u64 %rl165, [generate_param_95];
ld.param.u64 %rl164, [generate_param_94];
ld.param.u64 %rl163, [generate_param_93];
ld.param.u64 %rl162, [generate_param_88];
ld.param.u64 %rl161, [generate_param_87];
ld.param.u64 %rl160, [generate_param_86];
ld.param.u64 %rl159, [generate_param_85];
ld.param.u64 %rl158, [generate_param_84];
ld.param.u64 %rl157, [generate_param_83];
ld.param.u64 %rl156, [generate_param_82];
ld.param.u64 %rl155, [generate_param_77];
ld.param.u64 %rl154, [generate_param_76];
ld.param.u64 %rl153, [generate_param_75];
ld.param.u64 %rl152, [generate_param_74];
ld.param.u64 %rl151, [generate_param_73];
ld.param.u64 %rl150, [generate_param_68];
ld.param.u64 %rl149, [generate_param_67];
ld.param.u64 %rl148, [generate_param_66];
ld.param.u64 %rl147, [generate_param_65];
ld.param.u64 %rl146, [generate_param_64];
ld.param.u64 %rl145, [generate_param_59];
ld.param.u64 %rl144, [generate_param_58];
ld.param.u64 %rl143, [generate_param_57];
ld.param.u64 %rl142, [generate_param_56];
ld.param.u64 %rl141, [generate_param_55];
ld.param.u64 %rl140, [generate_param_54];
ld.param.u64 %rl139, [generate_param_53];
ld.param.u64 %rl138, [generate_param_48];
ld.param.u64 %rl137, [generate_param_47];
ld.param.u64 %rl136, [generate_param_46];
ld.param.u64 %rl135, [generate_param_45];
ld.param.u64 %rl134, [generate_param_44];
ld.param.u64 %rl133, [generate_param_43];
ld.param.u64 %rl132, [generate_param_42];
ld.param.u64 %rl131, [generate_param_37];
ld.param.u64 %rl130, [generate_param_36];
ld.param.u64 %rl129, [generate_param_35];
ld.param.u64 %rl128, [generate_param_34];
ld.param.u64 %rl127, [generate_param_33];
ld.param.u64 %rl126, [generate_param_28];
ld.param.u64 %rl125, [generate_param_27];
ld.param.u64 %rl124, [generate_param_26];
ld.param.u64 %rl123, [generate_param_25];
ld.param.u64 %rl122, [generate_param_24];
ld.param.u64 %rl121, [generate_param_23];
ld.param.u64 %rl120, [generate_param_22];
ld.param.u64 %rl119, [generate_param_21];
ld.param.u64 %rl118, [generate_param_17];
ld.param.u64 %rl117, [generate_param_16];
ld.param.u64 %rl116, [generate_param_15];
ld.param.u64 %rl115, [generate_param_14];
ld.param.u64 %rl114, [generate_param_13];
ld.param.u64 %rl113, [generate_param_12];
ld.param.u64 %rl112, [generate_param_11];
ld.param.u64 %rl111, [generate_param_10];
ld.param.u64 %rl110, [generate_param_9];
ld.param.u64 %rl109, [generate_param_8];
ld.param.u64 %rl108, [generate_param_7];
ld.param.u64 %rl107, [generate_param_6];
ld.param.u64 %rl106, [generate_param_5];
ld.param.u64 %rl105, [generate_param_4];
mov.u32 %r36, %nctaid.x;
mul.lo.s32 %r2, %r37, %r36;
neg.s64 %rl1, %rl112;
BB3_2:
cvt.s64.s32 %rl178, %r99;
rem.s64 %rl179, %rl178, %rl103;
div.s64 %rl180, %rl178, %rl103;
add.s64 %rl181, %rl179, -400;
cvt.rn.f32.s64 %f541, %rl181;
div.rn.f32 %f542, %f541, 0f43C80000;
add.s64 %rl182, %rl180, -300;
cvt.rn.f32.s64 %f543, %rl182;
div.rn.f32 %f544, %f543, 0fC3960000;
fma.rn.f32 %f545, %f542, 0f43055556, 0fC2480000;
fma.rn.f32 %f546, %f544, 0f42C80000, 0f42C80000;
mul.f32 %f547, %f546, %f546;
fma.rn.f32 %f548, %f545, %f545, %f547;
add.f32 %f549, %f548, 0f48EF4200;
sqrt.rn.f32 %f550, %f549;
rcp.rn.f32 %f551, %f550;
mul.f32 %f1, %f545, %f551;
mul.f32 %f2, %f551, %f546;
mul.f32 %f3, %f551, 0f442F0000;
mov.pred %p59, 0;
mov.f32 %f540, 0f7F7FFFFF;
mov.f32 %f1099, 0f3F800000;
mov.f32 %f1113, 0f00000000;
setp.lt.s64 %p60, %rl120, 1;
mov.u64 %rl351, %rl113;
mov.u64 %rl352, %rl114;
mov.u64 %rl353, %rl115;
mov.u64 %rl354, %rl116;
mov.u64 %rl355, %rl117;
mov.u64 %rl356, %rl118;
mov.u64 %rl357, %rl119;
mov.u64 %rl358, %rl120;
mov.f32 %f1098, %f1113;
mov.f32 %f1100, %f1113;
mov.f32 %f1101, %f1113;
mov.f32 %f1102, %f540;
mov.pred %p314, %p59;
@%p60 bra BB3_6;
BB3_3:
ld.f32 %f9, [%rl354];
ld.f32 %f10, [%rl355];
ld.f32 %f11, [%rl356];
ld.f32 %f12, [%rl357];
mul.f32 %f553, %f2, %f10;
fma.rn.f32 %f554, %f1, %f9, %f553;
fma.rn.f32 %f13, %f3, %f11, %f554;
setp.ge.f32 %p62, %f13, 0f00000000;
mov.f32 %f1103, %f540;
mov.pred %p315, %p59;
@%p62 bra BB3_5;
ld.f32 %f555, [%rl353];
ld.f32 %f556, [%rl352];
ld.f32 %f557, [%rl351];
add.f32 %f558, %f557, 0fC2480000;
add.f32 %f559, %f556, 0f42C80000;
add.f32 %f560, %f555, 0f442F0000;
mul.f32 %f561, %f9, %f558;
fma.rn.f32 %f562, %f10, %f559, %f561;
fma.rn.f32 %f563, %f11, %f560, %f562;
div.rn.f32 %f1103, %f563, %f13;
mov.pred %p315, -1;
BB3_5:
setp.lt.f32 %p64, %f1103, %f1102;
and.pred %p65, %p315, %p64;
selp.f32 %f1098, %f12, %f1098, %p65;
selp.f32 %f1099, %f11, %f1099, %p65;
selp.f32 %f1100, %f10, %f1100, %p65;
selp.f32 %f1101, %f9, %f1101, %p65;
selp.f32 %f1102, %f1103, %f1102, %p65;
and.pred %p66, %p65, %p315;
not.pred %p67, %p65;
and.pred %p68, %p67, %p314;
or.pred %p314, %p66, %p68;
add.s64 %rl358, %rl358, -1;
add.s64 %rl357, %rl357, 4;
add.s64 %rl356, %rl356, 4;
add.s64 %rl355, %rl355, 4;
add.s64 %rl354, %rl354, 4;
add.s64 %rl353, %rl353, 4;
add.s64 %rl352, %rl352, 4;
add.s64 %rl351, %rl351, 4;
setp.ne.s64 %p69, %rl358, 0;
@%p69 bra BB3_3;
BB3_6:
setp.lt.s64 %p71, %rl112, 1;
@%p71 bra BB3_160;
mov.u64 %rl359, 0;
mov.f32 %f1114, %f1113;
mov.f32 %f1115, %f1113;
mov.f32 %f1116, %f1113;
mov.f32 %f1117, %f1113;
mov.f32 %f1118, %f1113;
mov.f32 %f1119, %f1113;
mov.f32 %f1120, %f540;
mov.pred %p318, %p59;
BB3_8:
shl.b64 %rl184, %rl359, 2;
sub.s64 %rl185, %rl104, %rl184;
ld.f32 %f34, [%rl185];
sub.s64 %rl186, %rl105, %rl184;
ld.f32 %f35, [%rl186];
sub.s64 %rl187, %rl106, %rl184;
ld.f32 %f36, [%rl187];
sub.s64 %rl188, %rl107, %rl184;
ld.f32 %f37, [%rl188];
sub.s64 %rl189, %rl108, %rl184;
ld.f32 %f38, [%rl189];
sub.s64 %rl190, %rl109, %rl184;
ld.f32 %f39, [%rl190];
sub.s64 %rl191, %rl110, %rl184;
ld.f32 %f40, [%rl191];
sub.s64 %rl192, %rl111, %rl184;
ld.f32 %f41, [%rl192];
add.f32 %f567, %f34, 0fC2480000;
add.f32 %f568, %f35, 0f42C80000;
add.f32 %f569, %f36, 0f442F0000;
mul.f32 %f570, %f2, %f568;
fma.rn.f32 %f571, %f1, %f567, %f570;
fma.rn.f32 %f572, %f3, %f569, %f571;
fma.rn.f32 %f573, %f1, %f572, 0f42480000;
fma.rn.f32 %f574, %f2, %f572, 0fC2C80000;
fma.rn.f32 %f575, %f3, %f572, 0fC42F0000;
add.f32 %f42, %f573, 0fC2480000;
add.f32 %f43, %f574, 0f42C80000;
add.f32 %f44, %f575, 0f442F0000;
sub.f32 %f576, %f573, %f34;
sub.f32 %f577, %f574, %f35;
sub.f32 %f578, %f575, %f36;
mul.f32 %f579, %f577, %f577;
fma.rn.f32 %f580, %f576, %f576, %f579;
fma.rn.f32 %f581, %f578, %f578, %f580;
sqrt.rn.f32 %f45, %f581;
setp.ge.f32 %p73, %f45, %f37;
mul.f32 %f582, %f2, %f43;
fma.rn.f32 %f583, %f1, %f42, %f582;
fma.rn.f32 %f584, %f3, %f44, %f583;
setp.le.f32 %p74, %f584, 0f00000000;
or.pred %p75, %p73, %p74;
mov.f32 %f1112, %f540;
mov.pred %p317, %p59;
@%p75 bra BB3_10;
mul.f32 %f585, %f43, %f43;
fma.rn.f32 %f586, %f42, %f42, %f585;
fma.rn.f32 %f587, %f44, %f44, %f586;
sqrt.rn.f32 %f588, %f587;
mul.f32 %f589, %f37, %f37;
neg.f32 %f590, %f45;
fma.rn.f32 %f591, %f590, %f45, %f589;
sqrt.rn.f32 %f592, %f591;
sub.f32 %f1112, %f588, %f592;
mov.pred %p317, -1;
BB3_10:
setp.lt.f32 %p77, %f1112, %f1120;
and.pred %p78, %p317, %p77;
selp.f32 %f1113, %f41, %f1113, %p78;
selp.f32 %f1114, %f40, %f1114, %p78;
selp.f32 %f1115, %f39, %f1115, %p78;
selp.f32 %f1116, %f38, %f1116, %p78;
selp.f32 %f1117, %f36, %f1117, %p78;
selp.f32 %f1118, %f35, %f1118, %p78;
selp.f32 %f1119, %f34, %f1119, %p78;
selp.f32 %f1120, %f1112, %f1120, %p78;
and.pred %p79, %p78, %p317;
not.pred %p80, %p78;
and.pred %p81, %p80, %p318;
or.pred %p318, %p79, %p81;
add.s64 %rl359, %rl359, -1;
setp.ne.s64 %p82, %rl1, %rl359;
@%p82 bra BB3_8;
bra.uni BB3_11;
BB3_160:
mov.f32 %f1114, %f1113;
mov.f32 %f1115, %f1113;
mov.f32 %f1116, %f1113;
mov.f32 %f1117, %f1113;
mov.f32 %f1118, %f1113;
mov.f32 %f1119, %f1113;
mov.f32 %f1120, %f540;
mov.pred %p318, %p59;
BB3_11:
or.pred %p83, %p318, %p314;
mov.u32 %r109, 0;
mov.u32 %r108, -16777216;
mov.u32 %r110, %r109;
@!%p83 bra BB3_158;
bra.uni BB3_12;
BB3_12:
setp.geu.f32 %p84, %f1120, %f1102;
@%p84 bra BB3_14;
fma.rn.f32 %f1130, %f1, %f1120, 0f42480000;
fma.rn.f32 %f1129, %f2, %f1120, 0fC2C80000;
fma.rn.f32 %f1128, %f3, %f1120, 0fC42F0000;
sub.f32 %f595, %f1130, %f1119;
sub.f32 %f596, %f1129, %f1118;
sub.f32 %f597, %f1128, %f1117;
mul.f32 %f598, %f596, %f596;
fma.rn.f32 %f599, %f595, %f595, %f598;
fma.rn.f32 %f600, %f597, %f597, %f599;
sqrt.rn.f32 %f601, %f600;
rcp.rn.f32 %f602, %f601;
mul.f32 %f1101, %f595, %f602;
mul.f32 %f1100, %f596, %f602;
mul.f32 %f1099, %f597, %f602;
mov.f32 %f1098, %f1113;
bra.uni BB3_19;
BB3_14:
fma.rn.f32 %f1130, %f1, %f1102, 0f42480000;
fma.rn.f32 %f1128, %f3, %f1102, 0fC42F0000;
div.rn.f32 %f593, %f1130, 0f42C80000;
cvt.rzi.s32.f32 %r42, %f593;
shr.u32 %r43, %r42, 31;
add.s32 %r44, %r42, %r43;
and.b32 %r45, %r44, -2;
sub.s32 %r100, %r42, %r45;
setp.gt.s32 %p85, %r42, -1;
@%p85 bra BB3_161;
setp.eq.s32 %p86, %r100, 0;
add.s32 %r46, %r100, 2;
selp.b32 %r100, 0, %r46, %p86;
bra.uni BB3_16;
BB3_161:
BB3_16:
div.rn.f32 %f594, %f1128, 0f42C80000;
cvt.rzi.s32.f32 %r47, %f594;
shr.u32 %r48, %r47, 31;
add.s32 %r49, %r47, %r48;
and.b32 %r50, %r49, -2;
sub.s32 %r101, %r47, %r50;
setp.gt.s32 %p87, %r47, -1;
@%p87 bra BB3_162;
setp.eq.s32 %p88, %r101, 0;
add.s32 %r51, %r101, 2;
selp.b32 %r101, 0, %r51, %p88;
bra.uni BB3_18;
BB3_162:
BB3_18:
fma.rn.f32 %f1129, %f2, %f1102, 0fC2C80000;
setp.lt.f32 %p89, %f1130, 0f00000000;
setp.lt.f32 %p90, %f1128, 0f00000000;
xor.pred %p91, %p90, %p89;
selp.u32 %r52, 1, 0, %p91;
xor.b32 %r53, %r52, %r100;
xor.b32 %r54, %r53, %r101;
setp.eq.s32 %p92, %r54, 1;
selp.f32 %f1114, 0f3F800000, 0f3ECCCCCD, %p92;
mov.f32 %f1115, %f1114;
mov.f32 %f1116, %f1114;
BB3_19:
mov.f32 %f1287, 0f00000000;
setp.lt.s64 %p93, %rl175, 1;
mov.f32 %f1146, %f1287;
mov.f32 %f1147, %f1287;
mov.f32 %f1148, %f1287;
@%p93 bra BB3_46;
setp.gt.s64 %p94, %rl132, 0;
mov.u64 %rl193, 0;
mov.f32 %f1146, 0f00000000;
mov.f32 %f1147, %f1146;
mov.f32 %f1148, %f1146;
mov.u64 %rl362, %rl193;
mov.u64 %rl363, %rl193;
@%p94 bra BB3_36;
bra.uni BB3_37;
BB3_36:
mov.u64 %rl24, %rl362;
add.s64 %rl362, %rl24, 1;
shl.b64 %rl213, %rl24, 2;
add.s64 %rl214, %rl169, %rl213;
ld.f32 %f634, [%rl214];
add.s64 %rl215, %rl170, %rl213;
ld.f32 %f635, [%rl215];
add.s64 %rl216, %rl171, %rl213;
ld.f32 %f636, [%rl216];
add.s64 %rl217, %rl172, %rl213;
ld.f32 %f110, [%rl217];
add.s64 %rl218, %rl173, %rl213;
ld.f32 %f111, [%rl218];
add.s64 %rl219, %rl174, %rl213;
ld.f32 %f112, [%rl219];
sub.f32 %f637, %f634, %f1130;
sub.f32 %f638, %f635, %f1129;
sub.f32 %f639, %f636, %f1128;
mul.f32 %f640, %f638, %f638;
fma.rn.f32 %f641, %f637, %f637, %f640;
fma.rn.f32 %f642, %f639, %f639, %f641;
sqrt.rn.f32 %f113, %f642;
rcp.rn.f32 %f643, %f113;
mul.f32 %f114, %f637, %f643;
mul.f32 %f115, %f638, %f643;
mul.f32 %f116, %f639, %f643;
mov.u64 %rl360, %rl193;
BB3_21:
shl.b64 %rl220, %rl360, 2;
add.s64 %rl221, %rl128, %rl220;
ld.f32 %f645, [%rl221];
add.s64 %rl222, %rl129, %rl220;
ld.f32 %f646, [%rl222];
add.s64 %rl223, %rl130, %rl220;
ld.f32 %f647, [%rl223];
add.s64 %rl224, %rl131, %rl220;
ld.f32 %f85, [%rl224];
sub.f32 %f648, %f645, %f1130;
sub.f32 %f649, %f646, %f1129;
sub.f32 %f650, %f647, %f1128;
mul.f32 %f651, %f115, %f649;
fma.rn.f32 %f652, %f114, %f648, %f651;
fma.rn.f32 %f653, %f116, %f650, %f652;
fma.rn.f32 %f654, %f114, %f653, %f1130;
fma.rn.f32 %f655, %f115, %f653, %f1129;
fma.rn.f32 %f656, %f116, %f653, %f1128;
sub.f32 %f86, %f654, %f1130;
sub.f32 %f87, %f655, %f1129;
sub.f32 %f88, %f656, %f1128;
sub.f32 %f657, %f654, %f645;
sub.f32 %f658, %f655, %f646;
sub.f32 %f659, %f656, %f647;
mul.f32 %f660, %f658, %f658;
fma.rn.f32 %f661, %f657, %f657, %f660;
fma.rn.f32 %f662, %f659, %f659, %f661;
sqrt.rn.f32 %f89, %f662;
setp.ge.f32 %p107, %f89, %f85;
mul.f32 %f663, %f115, %f87;
fma.rn.f32 %f664, %f114, %f86, %f663;
fma.rn.f32 %f665, %f116, %f88, %f664;
setp.le.f32 %p108, %f665, 0f00000000;
or.pred %p109, %p107, %p108;
@%p109 bra BB3_22;
bra.uni BB3_23;
BB3_22:
mov.pred %p319, 0;
mov.f32 %f1131, 0f7F7FFFFF;
bra.uni BB3_24;
BB3_23:
mul.f32 %f666, %f87, %f87;
fma.rn.f32 %f667, %f86, %f86, %f666;
fma.rn.f32 %f668, %f88, %f88, %f667;
sqrt.rn.f32 %f669, %f668;
mul.f32 %f670, %f85, %f85;
neg.f32 %f671, %f89;
fma.rn.f32 %f672, %f671, %f89, %f670;
sqrt.rn.f32 %f673, %f672;
sub.f32 %f1131, %f669, %f673;
mov.pred %p319, -1;
BB3_24:
setp.geu.f32 %p111, %f1131, %f113;
setp.lt.f32 %p112, %f1131, %f113;
and.pred %p10, %p319, %p112;
not.pred %p113, %p319;
selp.u64 %rl225, 1, 0, %p10;
xor.b64 %rl226, %rl225, 1;
add.s64 %rl360, %rl226, %rl360;
or.pred %p114, %p113, %p111;
setp.lt.s64 %p115, %rl360, %rl132;
and.pred %p116, %p115, %p114;
@%p116 bra BB3_21;
setp.lt.s64 %p118, %rl127, 1;
@%p118 bra BB3_26;
mov.u64 %rl361, 0;
BB3_28:
shl.b64 %rl228, %rl361, 2;
add.s64 %rl229, %rl124, %rl228;
ld.f32 %f92, [%rl229];
add.s64 %rl230, %rl125, %rl228;
ld.f32 %f93, [%rl230];
add.s64 %rl231, %rl126, %rl228;
ld.f32 %f94, [%rl231];
mul.f32 %f675, %f115, %f93;
fma.rn.f32 %f676, %f114, %f92, %f675;
fma.rn.f32 %f95, %f116, %f94, %f676;
setp.ge.f32 %p120, %f95, 0f00000000;
@%p120 bra BB3_29;
add.s64 %rl233, %rl123, %rl228;
add.s64 %rl234, %rl122, %rl228;
add.s64 %rl235, %rl121, %rl228;
ld.f32 %f677, [%rl233];
ld.f32 %f678, [%rl234];
ld.f32 %f679, [%rl235];
sub.f32 %f680, %f679, %f1130;
sub.f32 %f681, %f678, %f1129;
sub.f32 %f682, %f677, %f1128;
mul.f32 %f683, %f92, %f680;
fma.rn.f32 %f684, %f93, %f681, %f683;
fma.rn.f32 %f685, %f94, %f682, %f684;
div.rn.f32 %f1132, %f685, %f95;
mov.pred %p320, -1;
bra.uni BB3_31;
BB3_29:
mov.pred %p320, 0;
mov.f32 %f1132, 0f7F7FFFFF;
BB3_31:
setp.geu.f32 %p122, %f1132, %f113;
setp.lt.f32 %p123, %f1132, %f113;
and.pred %p321, %p320, %p123;
not.pred %p124, %p320;
selp.u64 %rl236, 1, 0, %p321;
xor.b64 %rl237, %rl236, 1;
add.s64 %rl361, %rl237, %rl361;
or.pred %p125, %p124, %p122;
setp.lt.s64 %p126, %rl361, %rl127;
and.pred %p127, %p126, %p125;
@%p127 bra BB3_28;
bra.uni BB3_32;
BB3_26:
mov.pred %p321, 0;
BB3_32:
or.pred %p128, %p10, %p321;
@%p128 bra BB3_33;
bra.uni BB3_34;
BB3_33:
mov.f32 %f1133, 0f00000000;
mov.f32 %f1134, %f1133;
mov.f32 %f1135, %f1133;
bra.uni BB3_35;
BB3_34:
mul.f32 %f687, %f1100, %f115;
fma.rn.f32 %f688, %f1101, %f114, %f687;
fma.rn.f32 %f689, %f1099, %f116, %f688;
mul.f32 %f690, %f113, %f113;
div.rn.f32 %f691, %f689, %f690;
mul.f32 %f1135, %f110, %f691;
mul.f32 %f1134, %f111, %f691;
mul.f32 %f1133, %f112, %f691;
BB3_35:
add.f32 %f1148, %f1148, %f1135;
add.f32 %f1147, %f1147, %f1134;
add.f32 %f1146, %f1146, %f1133;
setp.eq.s64 %p129, %rl362, %rl175;
@%p129 bra BB3_46;
bra.uni BB3_36;
BB3_37:
add.s64 %rl27, %rl363, 1;
shl.b64 %rl195, %rl363, 2;
add.s64 %rl196, %rl169, %rl195;
ld.f32 %f606, [%rl196];
add.s64 %rl197, %rl170, %rl195;
ld.f32 %f607, [%rl197];
add.s64 %rl198, %rl171, %rl195;
ld.f32 %f608, [%rl198];
add.s64 %rl199, %rl172, %rl195;
ld.f32 %f120, [%rl199];
add.s64 %rl200, %rl173, %rl195;
ld.f32 %f121, [%rl200];
add.s64 %rl201, %rl174, %rl195;
ld.f32 %f122, [%rl201];
sub.f32 %f609, %f606, %f1130;
sub.f32 %f610, %f607, %f1129;
sub.f32 %f611, %f608, %f1128;
mul.f32 %f612, %f610, %f610;
fma.rn.f32 %f613, %f609, %f609, %f612;
fma.rn.f32 %f614, %f611, %f611, %f613;
sqrt.rn.f32 %f123, %f614;
rcp.rn.f32 %f615, %f123;
mul.f32 %f124, %f609, %f615;
mul.f32 %f125, %f610, %f615;
mul.f32 %f126, %f611, %f615;
setp.lt.s64 %p95, %rl127, 1;
mov.u64 %rl364, %rl193;
@%p95 bra BB3_44;
BB3_38:
shl.b64 %rl202, %rl364, 2;
add.s64 %rl203, %rl124, %rl202;
ld.f32 %f127, [%rl203];
add.s64 %rl204, %rl125, %rl202;
ld.f32 %f128, [%rl204];
add.s64 %rl205, %rl126, %rl202;
ld.f32 %f129, [%rl205];
mul.f32 %f617, %f125, %f128;
fma.rn.f32 %f618, %f124, %f127, %f617;
fma.rn.f32 %f130, %f126, %f129, %f618;
setp.ge.f32 %p97, %f130, 0f00000000;
@%p97 bra BB3_39;
add.s64 %rl207, %rl123, %rl202;
add.s64 %rl208, %rl122, %rl202;
add.s64 %rl209, %rl121, %rl202;
ld.f32 %f619, [%rl207];
ld.f32 %f620, [%rl208];
ld.f32 %f621, [%rl209];
sub.f32 %f622, %f621, %f1130;
sub.f32 %f623, %f620, %f1129;
sub.f32 %f624, %f619, %f1128;
mul.f32 %f625, %f127, %f622;
fma.rn.f32 %f626, %f128, %f623, %f625;
fma.rn.f32 %f627, %f129, %f624, %f626;
div.rn.f32 %f1142, %f627, %f130;
mov.pred %p322, -1;
bra.uni BB3_41;
BB3_39:
mov.pred %p322, 0;
mov.f32 %f1142, 0f7F7FFFFF;
BB3_41:
setp.geu.f32 %p99, %f1142, %f123;
setp.lt.f32 %p100, %f1142, %f123;
and.pred %p15, %p322, %p100;
not.pred %p101, %p322;
selp.u64 %rl210, 1, 0, %p15;
xor.b64 %rl211, %rl210, 1;
add.s64 %rl364, %rl211, %rl364;
or.pred %p102, %p101, %p99;
setp.lt.s64 %p103, %rl364, %rl127;
and.pred %p104, %p103, %p102;
@%p104 bra BB3_38;
@%p15 bra BB3_43;
bra.uni BB3_44;
BB3_43:
mov.f32 %f1143, 0f00000000;
mov.f32 %f1144, %f1143;
mov.f32 %f1145, %f1143;
bra.uni BB3_45;
BB3_44:
mul.f32 %f629, %f1100, %f125;
fma.rn.f32 %f630, %f1101, %f124, %f629;
fma.rn.f32 %f631, %f1099, %f126, %f630;
mul.f32 %f632, %f123, %f123;
div.rn.f32 %f633, %f631, %f632;
mul.f32 %f1145, %f120, %f633;
mul.f32 %f1144, %f121, %f633;
mul.f32 %f1143, %f122, %f633;
BB3_45:
add.f32 %f1148, %f1148, %f1145;
add.f32 %f1147, %f1147, %f1144;
add.f32 %f1146, %f1146, %f1143;
setp.ne.s64 %p105, %rl27, %rl175;
mov.u64 %rl363, %rl27;
@%p105 bra BB3_37;
BB3_46:
mov.f32 %f604, 0f3F800000;
mul.f32 %f698, %f1, %f1101;
fma.rn.f32 %f699, %f2, %f1100, %f698;
fma.rn.f32 %f700, %f3, %f1099, %f699;
add.f32 %f701, %f700, %f700;
neg.f32 %f702, %f1101;
fma.rn.f32 %f148, %f702, %f701, %f1;
neg.f32 %f703, %f1100;
fma.rn.f32 %f149, %f703, %f701, %f2;
neg.f32 %f704, %f1099;
fma.rn.f32 %f150, %f704, %f701, %f3;
mov.pred %p130, 0;
mov.f32 %f694, 0f7F7FFFFF;
mov.u64 %rl365, %rl113;
mov.u64 %rl366, %rl114;
mov.u64 %rl367, %rl115;
mov.u64 %rl368, %rl116;
mov.u64 %rl369, %rl117;
mov.u64 %rl370, %rl118;
mov.u64 %rl371, %rl119;
mov.u64 %rl372, %rl120;
mov.f32 %f1149, %f1287;
mov.f32 %f1150, %f604;
mov.f32 %f1151, %f1287;
mov.f32 %f1152, %f1287;
mov.f32 %f1153, %f694;
mov.pred %p323, %p130;
@%p60 bra BB3_50;
BB3_47:
ld.f32 %f156, [%rl368];
ld.f32 %f157, [%rl369];
ld.f32 %f158, [%rl370];
ld.f32 %f159, [%rl371];
mul.f32 %f706, %f149, %f157;
fma.rn.f32 %f707, %f148, %f156, %f706;
fma.rn.f32 %f160, %f150, %f158, %f707;
setp.ge.f32 %p133, %f160, 0f00000000;
mov.f32 %f1154, %f694;
mov.pred %p324, %p130;
@%p133 bra BB3_49;
ld.f32 %f708, [%rl367];
ld.f32 %f709, [%rl366];
ld.f32 %f710, [%rl365];
sub.f32 %f711, %f710, %f1130;
sub.f32 %f712, %f709, %f1129;
sub.f32 %f713, %f708, %f1128;
mul.f32 %f714, %f156, %f711;
fma.rn.f32 %f715, %f157, %f712, %f714;
fma.rn.f32 %f716, %f158, %f713, %f715;
div.rn.f32 %f1154, %f716, %f160;
mov.pred %p324, -1;
BB3_49:
setp.lt.f32 %p135, %f1154, %f1153;
and.pred %p136, %p324, %p135;
selp.f32 %f1149, %f159, %f1149, %p136;
selp.f32 %f1150, %f158, %f1150, %p136;
selp.f32 %f1151, %f157, %f1151, %p136;
selp.f32 %f1152, %f156, %f1152, %p136;
selp.f32 %f1153, %f1154, %f1153, %p136;
and.pred %p137, %p136, %p324;
not.pred %p138, %p136;
and.pred %p139, %p138, %p323;
or.pred %p323, %p137, %p139;
add.s64 %rl372, %rl372, -1;
add.s64 %rl371, %rl371, 4;
add.s64 %rl370, %rl370, 4;
add.s64 %rl369, %rl369, 4;
add.s64 %rl368, %rl368, 4;
add.s64 %rl367, %rl367, 4;
add.s64 %rl366, %rl366, 4;
add.s64 %rl365, %rl365, 4;
setp.ne.s64 %p140, %rl372, 0;
@%p140 bra BB3_47;
BB3_50:
@%p71 bra BB3_163;
mov.u64 %rl373, 0;
mov.f32 %f1164, %f1287;
mov.f32 %f1165, %f1287;
mov.f32 %f1166, %f1287;
mov.f32 %f1167, %f1287;
mov.f32 %f1168, %f1287;
mov.f32 %f1169, %f1287;
mov.f32 %f1170, %f1287;
mov.f32 %f1171, %f694;
mov.pred %p327, %p130;
BB3_52:
shl.b64 %rl239, %rl373, 2;
sub.s64 %rl240, %rl104, %rl239;
ld.f32 %f181, [%rl240];
sub.s64 %rl241, %rl105, %rl239;
ld.f32 %f182, [%rl241];
sub.s64 %rl242, %rl106, %rl239;
ld.f32 %f183, [%rl242];
sub.s64 %rl243, %rl107, %rl239;
ld.f32 %f184, [%rl243];
sub.s64 %rl244, %rl108, %rl239;
ld.f32 %f185, [%rl244];
sub.s64 %rl245, %rl109, %rl239;
ld.f32 %f186, [%rl245];
sub.s64 %rl246, %rl110, %rl239;
ld.f32 %f187, [%rl246];
sub.s64 %rl247, %rl111, %rl239;
ld.f32 %f188, [%rl247];
sub.f32 %f720, %f181, %f1130;
sub.f32 %f721, %f182, %f1129;
sub.f32 %f722, %f183, %f1128;
mul.f32 %f723, %f149, %f721;
fma.rn.f32 %f724, %f148, %f720, %f723;
fma.rn.f32 %f725, %f150, %f722, %f724;
fma.rn.f32 %f726, %f148, %f725, %f1130;
fma.rn.f32 %f727, %f149, %f725, %f1129;
fma.rn.f32 %f728, %f150, %f725, %f1128;
sub.f32 %f189, %f726, %f1130;
sub.f32 %f190, %f727, %f1129;
sub.f32 %f191, %f728, %f1128;
sub.f32 %f729, %f726, %f181;
sub.f32 %f730, %f727, %f182;
sub.f32 %f731, %f728, %f183;
mul.f32 %f732, %f730, %f730;
fma.rn.f32 %f733, %f729, %f729, %f732;
fma.rn.f32 %f734, %f731, %f731, %f733;
sqrt.rn.f32 %f192, %f734;
setp.ge.f32 %p144, %f192, %f184;
mul.f32 %f735, %f149, %f190;
fma.rn.f32 %f736, %f148, %f189, %f735;
fma.rn.f32 %f737, %f150, %f191, %f736;
setp.le.f32 %p145, %f737, 0f00000000;
or.pred %p146, %p144, %p145;
mov.f32 %f1163, %f694;
mov.pred %p326, %p130;
@%p146 bra BB3_54;
mul.f32 %f738, %f190, %f190;
fma.rn.f32 %f739, %f189, %f189, %f738;
fma.rn.f32 %f740, %f191, %f191, %f739;
sqrt.rn.f32 %f741, %f740;
mul.f32 %f742, %f184, %f184;
neg.f32 %f743, %f192;
fma.rn.f32 %f744, %f743, %f192, %f742;
sqrt.rn.f32 %f745, %f744;
sub.f32 %f1163, %f741, %f745;
mov.pred %p326, -1;
BB3_54:
setp.lt.f32 %p148, %f1163, %f1171;
and.pred %p149, %p326, %p148;
selp.f32 %f1164, %f188, %f1164, %p149;
selp.f32 %f1165, %f187, %f1165, %p149;
selp.f32 %f1166, %f186, %f1166, %p149;
selp.f32 %f1167, %f185, %f1167, %p149;
selp.f32 %f1168, %f183, %f1168, %p149;
selp.f32 %f1169, %f182, %f1169, %p149;
selp.f32 %f1170, %f181, %f1170, %p149;
selp.f32 %f1171, %f1163, %f1171, %p149;
and.pred %p150, %p149, %p326;
not.pred %p151, %p149;
and.pred %p152, %p151, %p327;
or.pred %p327, %p150, %p152;
add.s64 %rl373, %rl373, -1;
setp.ne.s64 %p153, %rl1, %rl373;
@%p153 bra BB3_52;
bra.uni BB3_55;
BB3_163:
mov.f32 %f1164, %f1287;
mov.f32 %f1165, %f1287;
mov.f32 %f1166, %f1287;
mov.f32 %f1167, %f1287;
mov.f32 %f1168, %f1287;
mov.f32 %f1169, %f1287;
mov.f32 %f1170, %f1287;
mov.f32 %f1171, %f694;
mov.pred %p327, %p130;
BB3_55:
or.pred %p154, %p327, %p323;
mov.f32 %f1288, %f1287;
mov.f32 %f1289, %f1287;
@!%p154 bra BB3_157;
bra.uni BB3_56;
BB3_56:
setp.geu.f32 %p155, %f1171, %f1153;
@%p155 bra BB3_58;
fma.rn.f32 %f1181, %f148, %f1171, %f1130;
fma.rn.f32 %f1180, %f149, %f1171, %f1129;
fma.rn.f32 %f1179, %f150, %f1171, %f1128;
sub.f32 %f749, %f1181, %f1170;
sub.f32 %f750, %f1180, %f1169;
sub.f32 %f751, %f1179, %f1168;
mul.f32 %f752, %f750, %f750;
fma.rn.f32 %f753, %f749, %f749, %f752;
fma.rn.f32 %f754, %f751, %f751, %f753;
sqrt.rn.f32 %f755, %f754;
rcp.rn.f32 %f756, %f755;
mul.f32 %f1152, %f749, %f756;
mul.f32 %f1151, %f750, %f756;
mul.f32 %f1150, %f751, %f756;
mov.f32 %f1149, %f1164;
bra.uni BB3_63;
BB3_58:
fma.rn.f32 %f1181, %f148, %f1153, %f1130;
fma.rn.f32 %f1179, %f150, %f1153, %f1128;
div.rn.f32 %f747, %f1181, 0f42C80000;
cvt.rzi.s32.f32 %r55, %f747;
shr.u32 %r56, %r55, 31;
add.s32 %r57, %r55, %r56;
and.b32 %r58, %r57, -2;
sub.s32 %r102, %r55, %r58;
setp.gt.s32 %p156, %r55, -1;
@%p156 bra BB3_164;
setp.eq.s32 %p157, %r102, 0;
add.s32 %r59, %r102, 2;
selp.b32 %r102, 0, %r59, %p157;
bra.uni BB3_60;
BB3_164:
BB3_60:
div.rn.f32 %f748, %f1179, 0f42C80000;
cvt.rzi.s32.f32 %r60, %f748;
shr.u32 %r61, %r60, 31;
add.s32 %r62, %r60, %r61;
and.b32 %r63, %r62, -2;
sub.s32 %r103, %r60, %r63;
setp.gt.s32 %p158, %r60, -1;
@%p158 bra BB3_165;
setp.eq.s32 %p159, %r103, 0;
add.s32 %r64, %r103, 2;
selp.b32 %r103, 0, %r64, %p159;
bra.uni BB3_62;
BB3_165:
BB3_62:
fma.rn.f32 %f1180, %f149, %f1153, %f1129;
setp.lt.f32 %p160, %f1181, 0f00000000;
setp.lt.f32 %p161, %f1179, 0f00000000;
xor.pred %p162, %p161, %p160;
selp.u32 %r65, 1, 0, %p162;
xor.b32 %r66, %r65, %r102;
xor.b32 %r67, %r66, %r103;
setp.eq.s32 %p163, %r67, 1;
selp.f32 %f1165, 0f3F800000, 0f3ECCCCCD, %p163;
mov.f32 %f1166, %f1165;
mov.f32 %f1167, %f1165;
BB3_63:
mov.f32 %f1194, 0f3F800000;
sub.f32 %f231, %f1194, %f1149;
@%p93 bra BB3_64;
mov.u64 %rl248, 0;
mov.f32 %f1182, 0f00000000;
mov.f32 %f1183, %f1182;
mov.f32 %f1184, %f1182;
mov.u64 %rl374, %rl248;
BB3_66:
shl.b64 %rl250, %rl374, 2;
add.s64 %rl251, %rl169, %rl250;
ld.f32 %f760, [%rl251];
add.s64 %rl252, %rl170, %rl250;
ld.f32 %f761, [%rl252];
add.s64 %rl253, %rl171, %rl250;
ld.f32 %f762, [%rl253];
add.s64 %rl254, %rl172, %rl250;
ld.f32 %f235, [%rl254];
add.s64 %rl255, %rl173, %rl250;
ld.f32 %f236, [%rl255];
add.s64 %rl256, %rl174, %rl250;
ld.f32 %f237, [%rl256];
sub.f32 %f763, %f760, %f1181;
sub.f32 %f764, %f761, %f1180;
sub.f32 %f765, %f762, %f1179;
mul.f32 %f766, %f764, %f764;
fma.rn.f32 %f767, %f763, %f763, %f766;
fma.rn.f32 %f768, %f765, %f765, %f767;
sqrt.rn.f32 %f238, %f768;
rcp.rn.f32 %f769, %f238;
mul.f32 %f239, %f763, %f769;
mul.f32 %f240, %f764, %f769;
mul.f32 %f241, %f765, %f769;
mov.pred %p331, 0;
setp.lt.s64 %p166, %rl168, 1;
mov.u64 %rl375, %rl248;
mov.pred %p329, %p331;
@%p166 bra BB3_71;
BB3_67:
shl.b64 %rl257, %rl375, 2;
add.s64 %rl258, %rl164, %rl257;
ld.f32 %f771, [%rl258];
add.s64 %rl259, %rl165, %rl257;
ld.f32 %f772, [%rl259];
add.s64 %rl260, %rl166, %rl257;
ld.f32 %f773, [%rl260];
add.s64 %rl261, %rl167, %rl257;
ld.f32 %f242, [%rl261];
sub.f32 %f774, %f771, %f1181;
sub.f32 %f775, %f772, %f1180;
sub.f32 %f776, %f773, %f1179;
mul.f32 %f777, %f240, %f775;
fma.rn.f32 %f778, %f239, %f774, %f777;
fma.rn.f32 %f779, %f241, %f776, %f778;
fma.rn.f32 %f780, %f239, %f779, %f1181;
fma.rn.f32 %f781, %f240, %f779, %f1180;
fma.rn.f32 %f782, %f241, %f779, %f1179;
sub.f32 %f243, %f780, %f1181;
sub.f32 %f244, %f781, %f1180;
sub.f32 %f245, %f782, %f1179;
sub.f32 %f783, %f780, %f771;
sub.f32 %f784, %f781, %f772;
sub.f32 %f785, %f782, %f773;
mul.f32 %f786, %f784, %f784;
fma.rn.f32 %f787, %f783, %f783, %f786;
fma.rn.f32 %f788, %f785, %f785, %f787;
sqrt.rn.f32 %f246, %f788;
setp.ge.f32 %p168, %f246, %f242;
mul.f32 %f789, %f240, %f244;
fma.rn.f32 %f790, %f239, %f243, %f789;
fma.rn.f32 %f791, %f241, %f245, %f790;
setp.le.f32 %p169, %f791, 0f00000000;
or.pred %p170, %p168, %p169;
@%p170 bra BB3_68;
bra.uni BB3_69;
BB3_68:
mov.pred %p328, 0;
mov.f32 %f1185, 0f7F7FFFFF;
bra.uni BB3_70;
BB3_69:
mul.f32 %f792, %f244, %f244;
fma.rn.f32 %f793, %f243, %f243, %f792;
fma.rn.f32 %f794, %f245, %f245, %f793;
sqrt.rn.f32 %f795, %f794;
mul.f32 %f796, %f242, %f242;
neg.f32 %f797, %f246;
fma.rn.f32 %f798, %f797, %f246, %f796;
sqrt.rn.f32 %f799, %f798;
sub.f32 %f1185, %f795, %f799;
mov.pred %p328, -1;
BB3_70:
setp.geu.f32 %p172, %f1185, %f238;
setp.lt.f32 %p173, %f1185, %f238;
and.pred %p329, %p328, %p173;
not.pred %p174, %p328;
selp.u64 %rl262, 1, 0, %p329;
xor.b64 %rl263, %rl262, 1;
add.s64 %rl375, %rl263, %rl375;
or.pred %p175, %p174, %p172;
setp.lt.s64 %p176, %rl375, %rl168;
and.pred %p177, %p176, %p175;
@%p177 bra BB3_67;
BB3_71:
setp.lt.s64 %p179, %rl139, 1;
@%p179 bra BB3_77;
mov.u64 %rl376, 0;
BB3_73:
shl.b64 %rl265, %rl376, 2;
add.s64 %rl266, %rl136, %rl265;
ld.f32 %f249, [%rl266];
add.s64 %rl267, %rl137, %rl265;
ld.f32 %f250, [%rl267];
add.s64 %rl268, %rl138, %rl265;
ld.f32 %f251, [%rl268];
mul.f32 %f801, %f240, %f250;
fma.rn.f32 %f802, %f239, %f249, %f801;
fma.rn.f32 %f252, %f241, %f251, %f802;
setp.ge.f32 %p181, %f252, 0f00000000;
@%p181 bra BB3_74;
add.s64 %rl270, %rl135, %rl265;
add.s64 %rl271, %rl134, %rl265;
add.s64 %rl272, %rl133, %rl265;
ld.f32 %f803, [%rl270];
ld.f32 %f804, [%rl271];
ld.f32 %f805, [%rl272];
sub.f32 %f806, %f805, %f1181;
sub.f32 %f807, %f804, %f1180;
sub.f32 %f808, %f803, %f1179;
mul.f32 %f809, %f249, %f806;
fma.rn.f32 %f810, %f250, %f807, %f809;
fma.rn.f32 %f811, %f251, %f808, %f810;
div.rn.f32 %f1186, %f811, %f252;
mov.pred %p330, -1;
bra.uni BB3_76;
BB3_74:
mov.pred %p330, 0;
mov.f32 %f1186, 0f7F7FFFFF;
BB3_76:
setp.geu.f32 %p183, %f1186, %f238;
setp.lt.f32 %p184, %f1186, %f238;
and.pred %p331, %p330, %p184;
not.pred %p185, %p330;
selp.u64 %rl273, 1, 0, %p331;
xor.b64 %rl274, %rl273, 1;
add.s64 %rl376, %rl274, %rl376;
or.pred %p186, %p185, %p183;
setp.lt.s64 %p187, %rl376, %rl139;
and.pred %p188, %p187, %p186;
@%p188 bra BB3_73;
BB3_77:
add.s64 %rl374, %rl374, 1;
or.pred %p189, %p329, %p331;
@%p189 bra BB3_78;
bra.uni BB3_79;
BB3_78:
mov.f32 %f1187, 0f00000000;
mov.f32 %f1188, %f1187;
mov.f32 %f1189, %f1187;
bra.uni BB3_80;
BB3_79:
mul.f32 %f813, %f1151, %f240;
fma.rn.f32 %f814, %f1152, %f239, %f813;
fma.rn.f32 %f815, %f1150, %f241, %f814;
mul.f32 %f816, %f238, %f238;
div.rn.f32 %f817, %f815, %f816;
mul.f32 %f1189, %f235, %f817;
mul.f32 %f1188, %f236, %f817;
mul.f32 %f1187, %f237, %f817;
BB3_80:
add.f32 %f1184, %f1184, %f1189;
add.f32 %f1183, %f1183, %f1188;
add.f32 %f1182, %f1182, %f1187;
setp.ne.s64 %p190, %rl374, %rl175;
@%p190 bra BB3_66;
add.f32 %f1192, %f1184, 0f3E99999A;
add.f32 %f1191, %f1183, 0f3E99999A;
add.f32 %f1190, %f1182, 0f3E99999A;
bra.uni BB3_82;
BB3_64:
mov.f32 %f1190, 0f3E99999A;
mov.f32 %f1191, %f1190;
mov.f32 %f1192, %f1190;
BB3_82:
mul.f32 %f821, %f148, %f1152;
fma.rn.f32 %f822, %f149, %f1151, %f821;
fma.rn.f32 %f823, %f150, %f1150, %f822;
add.f32 %f824, %f823, %f823;
neg.f32 %f825, %f1152;
fma.rn.f32 %f273, %f825, %f824, %f148;
neg.f32 %f826, %f1151;
fma.rn.f32 %f274, %f826, %f824, %f149;
neg.f32 %f827, %f1150;
fma.rn.f32 %f275, %f827, %f824, %f150;
mov.pred %p191, 0;
mov.f32 %f820, 0f7F7FFFFF;
mov.f32 %f1284, 0f00000000;
mov.u64 %rl377, %rl113;
mov.u64 %rl378, %rl114;
mov.u64 %rl379, %rl115;
mov.u64 %rl380, %rl116;
mov.u64 %rl381, %rl117;
mov.u64 %rl382, %rl118;
mov.u64 %rl383, %rl119;
mov.u64 %rl384, %rl120;
mov.f32 %f1193, %f1284;
mov.f32 %f1195, %f1284;
mov.f32 %f1196, %f1284;
mov.f32 %f1197, %f820;
mov.pred %p332, %p191;
@%p60 bra BB3_86;
BB3_83:
ld.f32 %f281, [%rl380];
ld.f32 %f282, [%rl381];
ld.f32 %f283, [%rl382];
ld.f32 %f284, [%rl383];
mul.f32 %f829, %f274, %f282;
fma.rn.f32 %f830, %f273, %f281, %f829;
fma.rn.f32 %f285, %f275, %f283, %f830;
setp.ge.f32 %p194, %f285, 0f00000000;
mov.f32 %f1198, %f820;
mov.pred %p333, %p191;
@%p194 bra BB3_85;
ld.f32 %f831, [%rl379];
ld.f32 %f832, [%rl378];
ld.f32 %f833, [%rl377];
sub.f32 %f834, %f833, %f1181;
sub.f32 %f835, %f832, %f1180;
sub.f32 %f836, %f831, %f1179;
mul.f32 %f837, %f281, %f834;
fma.rn.f32 %f838, %f282, %f835, %f837;
fma.rn.f32 %f839, %f283, %f836, %f838;
div.rn.f32 %f1198, %f839, %f285;
mov.pred %p333, -1;
BB3_85:
setp.lt.f32 %p196, %f1198, %f1197;
and.pred %p197, %p333, %p196;
selp.f32 %f1193, %f284, %f1193, %p197;
selp.f32 %f1194, %f283, %f1194, %p197;
selp.f32 %f1195, %f282, %f1195, %p197;
selp.f32 %f1196, %f281, %f1196, %p197;
selp.f32 %f1197, %f1198, %f1197, %p197;
and.pred %p198, %p197, %p333;
not.pred %p199, %p197;
and.pred %p200, %p199, %p332;
or.pred %p332, %p198, %p200;
add.s64 %rl384, %rl384, -1;
add.s64 %rl383, %rl383, 4;
add.s64 %rl382, %rl382, 4;
add.s64 %rl381, %rl381, 4;
add.s64 %rl380, %rl380, 4;
add.s64 %rl379, %rl379, 4;
add.s64 %rl378, %rl378, 4;
add.s64 %rl377, %rl377, 4;
setp.ne.s64 %p201, %rl384, 0;
@%p201 bra BB3_83;
BB3_86:
@%p71 bra BB3_166;
mov.u64 %rl385, 0;
mov.f32 %f1208, %f1284;
mov.f32 %f1209, %f1284;
mov.f32 %f1210, %f1284;
mov.f32 %f1211, %f1284;
mov.f32 %f1212, %f1284;
mov.f32 %f1213, %f1284;
mov.f32 %f1214, %f1284;
mov.f32 %f1215, %f820;
mov.pred %p336, %p191;
BB3_88:
shl.b64 %rl276, %rl385, 2;
sub.s64 %rl277, %rl104, %rl276;
ld.f32 %f306, [%rl277];
sub.s64 %rl278, %rl105, %rl276;
ld.f32 %f307, [%rl278];
sub.s64 %rl279, %rl106, %rl276;
ld.f32 %f308, [%rl279];
sub.s64 %rl280, %rl107, %rl276;
ld.f32 %f309, [%rl280];
sub.s64 %rl281, %rl108, %rl276;
ld.f32 %f310, [%rl281];
sub.s64 %rl282, %rl109, %rl276;
ld.f32 %f311, [%rl282];
sub.s64 %rl283, %rl110, %rl276;
ld.f32 %f312, [%rl283];
sub.s64 %rl284, %rl111, %rl276;
ld.f32 %f313, [%rl284];
sub.f32 %f843, %f306, %f1181;
sub.f32 %f844, %f307, %f1180;
sub.f32 %f845, %f308, %f1179;
mul.f32 %f846, %f274, %f844;
fma.rn.f32 %f847, %f273, %f843, %f846;
fma.rn.f32 %f848, %f275, %f845, %f847;
fma.rn.f32 %f849, %f273, %f848, %f1181;
fma.rn.f32 %f850, %f274, %f848, %f1180;
fma.rn.f32 %f851, %f275, %f848, %f1179;
sub.f32 %f314, %f849, %f1181;
sub.f32 %f315, %f850, %f1180;
sub.f32 %f316, %f851, %f1179;
sub.f32 %f852, %f849, %f306;
sub.f32 %f853, %f850, %f307;
sub.f32 %f854, %f851, %f308;
mul.f32 %f855, %f853, %f853;
fma.rn.f32 %f856, %f852, %f852, %f855;
fma.rn.f32 %f857, %f854, %f854, %f856;
sqrt.rn.f32 %f317, %f857;
setp.ge.f32 %p205, %f317, %f309;
mul.f32 %f858, %f274, %f315;
fma.rn.f32 %f859, %f273, %f314, %f858;
fma.rn.f32 %f860, %f275, %f316, %f859;
setp.le.f32 %p206, %f860, 0f00000000;
or.pred %p207, %p205, %p206;
mov.f32 %f1207, %f820;
mov.pred %p335, %p191;
@%p207 bra BB3_90;
mul.f32 %f861, %f315, %f315;
fma.rn.f32 %f862, %f314, %f314, %f861;
fma.rn.f32 %f863, %f316, %f316, %f862;
sqrt.rn.f32 %f864, %f863;
mul.f32 %f865, %f309, %f309;
neg.f32 %f866, %f317;
fma.rn.f32 %f867, %f866, %f317, %f865;
sqrt.rn.f32 %f868, %f867;
sub.f32 %f1207, %f864, %f868;
mov.pred %p335, -1;
BB3_90:
setp.lt.f32 %p209, %f1207, %f1215;
and.pred %p210, %p335, %p209;
selp.f32 %f1208, %f313, %f1208, %p210;
selp.f32 %f1209, %f312, %f1209, %p210;
selp.f32 %f1210, %f311, %f1210, %p210;
selp.f32 %f1211, %f310, %f1211, %p210;
selp.f32 %f1212, %f308, %f1212, %p210;
selp.f32 %f1213, %f307, %f1213, %p210;
selp.f32 %f1214, %f306, %f1214, %p210;
selp.f32 %f1215, %f1207, %f1215, %p210;
and.pred %p211, %p210, %p335;
not.pred %p212, %p210;
and.pred %p213, %p212, %p336;
or.pred %p336, %p211, %p213;
add.s64 %rl385, %rl385, -1;
setp.ne.s64 %p214, %rl1, %rl385;
@%p214 bra BB3_88;
bra.uni BB3_91;
BB3_166:
mov.f32 %f1208, %f1284;
mov.f32 %f1209, %f1284;
mov.f32 %f1210, %f1284;
mov.f32 %f1211, %f1284;
mov.f32 %f1212, %f1284;
mov.f32 %f1213, %f1284;
mov.f32 %f1214, %f1284;
mov.f32 %f1215, %f820;
mov.pred %p336, %p191;
BB3_91:
or.pred %p215, %p336, %p332;
mov.f32 %f1285, %f1284;
mov.f32 %f1286, %f1284;
@!%p215 bra BB3_156;
bra.uni BB3_92;
BB3_92:
setp.geu.f32 %p216, %f1215, %f1197;
@%p216 bra BB3_94;
fma.rn.f32 %f1225, %f273, %f1215, %f1181;
fma.rn.f32 %f1224, %f274, %f1215, %f1180;
fma.rn.f32 %f1223, %f275, %f1215, %f1179;
sub.f32 %f872, %f1225, %f1214;
sub.f32 %f873, %f1224, %f1213;
sub.f32 %f874, %f1223, %f1212;
mul.f32 %f875, %f873, %f873;
fma.rn.f32 %f876, %f872, %f872, %f875;
fma.rn.f32 %f877, %f874, %f874, %f876;
sqrt.rn.f32 %f878, %f877;
rcp.rn.f32 %f879, %f878;
mul.f32 %f1196, %f872, %f879;
mul.f32 %f1195, %f873, %f879;
mul.f32 %f1194, %f874, %f879;
mov.f32 %f1193, %f1208;
bra.uni BB3_99;
BB3_94:
fma.rn.f32 %f1225, %f273, %f1197, %f1181;
fma.rn.f32 %f1223, %f275, %f1197, %f1179;
div.rn.f32 %f870, %f1225, 0f42C80000;
cvt.rzi.s32.f32 %r68, %f870;
shr.u32 %r69, %r68, 31;
add.s32 %r70, %r68, %r69;
and.b32 %r71, %r70, -2;
sub.s32 %r104, %r68, %r71;
setp.gt.s32 %p217, %r68, -1;
@%p217 bra BB3_167;
setp.eq.s32 %p218, %r104, 0;
add.s32 %r72, %r104, 2;
selp.b32 %r104, 0, %r72, %p218;
bra.uni BB3_96;
BB3_167:
BB3_96:
div.rn.f32 %f871, %f1223, 0f42C80000;
cvt.rzi.s32.f32 %r73, %f871;
shr.u32 %r74, %r73, 31;
add.s32 %r75, %r73, %r74;
and.b32 %r76, %r75, -2;
sub.s32 %r105, %r73, %r76;
setp.gt.s32 %p219, %r73, -1;
@%p219 bra BB3_168;
setp.eq.s32 %p220, %r105, 0;
add.s32 %r77, %r105, 2;
selp.b32 %r105, 0, %r77, %p220;
bra.uni BB3_98;
BB3_168:
BB3_98:
fma.rn.f32 %f1224, %f274, %f1197, %f1180;
setp.lt.f32 %p221, %f1225, 0f00000000;
setp.lt.f32 %p222, %f1223, 0f00000000;
xor.pred %p223, %p222, %p221;
selp.u32 %r78, 1, 0, %p223;
xor.b32 %r79, %r78, %r104;
xor.b32 %r80, %r79, %r105;
setp.eq.s32 %p224, %r80, 1;
selp.f32 %f1209, 0f3F800000, 0f3ECCCCCD, %p224;
mov.f32 %f1210, %f1209;
mov.f32 %f1211, %f1209;
BB3_99:
mov.f32 %f1238, 0f3F800000;
sub.f32 %f356, %f1238, %f1193;
@%p93 bra BB3_100;
mov.u64 %rl285, 0;
mov.f32 %f1226, 0f00000000;
mov.f32 %f1227, %f1226;
mov.f32 %f1228, %f1226;
mov.u64 %rl386, %rl285;
BB3_102:
shl.b64 %rl287, %rl386, 2;
add.s64 %rl288, %rl169, %rl287;
ld.f32 %f883, [%rl288];
add.s64 %rl289, %rl170, %rl287;
ld.f32 %f884, [%rl289];
add.s64 %rl290, %rl171, %rl287;
ld.f32 %f885, [%rl290];
add.s64 %rl291, %rl172, %rl287;
ld.f32 %f360, [%rl291];
add.s64 %rl292, %rl173, %rl287;
ld.f32 %f361, [%rl292];
add.s64 %rl293, %rl174, %rl287;
ld.f32 %f362, [%rl293];
sub.f32 %f886, %f883, %f1225;
sub.f32 %f887, %f884, %f1224;
sub.f32 %f888, %f885, %f1223;
mul.f32 %f889, %f887, %f887;
fma.rn.f32 %f890, %f886, %f886, %f889;
fma.rn.f32 %f891, %f888, %f888, %f890;
sqrt.rn.f32 %f363, %f891;
rcp.rn.f32 %f892, %f363;
mul.f32 %f364, %f886, %f892;
mul.f32 %f365, %f887, %f892;
mul.f32 %f366, %f888, %f892;
mov.pred %p340, 0;
setp.lt.s64 %p227, %rl151, 1;
mov.u64 %rl387, %rl285;
mov.pred %p338, %p340;
@%p227 bra BB3_107;
BB3_103:
shl.b64 %rl294, %rl387, 2;
add.s64 %rl295, %rl147, %rl294;
ld.f32 %f894, [%rl295];
add.s64 %rl296, %rl148, %rl294;
ld.f32 %f895, [%rl296];
add.s64 %rl297, %rl149, %rl294;
ld.f32 %f896, [%rl297];
add.s64 %rl298, %rl150, %rl294;
ld.f32 %f367, [%rl298];
sub.f32 %f897, %f894, %f1225;
sub.f32 %f898, %f895, %f1224;
sub.f32 %f899, %f896, %f1223;
mul.f32 %f900, %f365, %f898;
fma.rn.f32 %f901, %f364, %f897, %f900;
fma.rn.f32 %f902, %f366, %f899, %f901;
fma.rn.f32 %f903, %f364, %f902, %f1225;
fma.rn.f32 %f904, %f365, %f902, %f1224;
fma.rn.f32 %f905, %f366, %f902, %f1223;
sub.f32 %f368, %f903, %f1225;
sub.f32 %f369, %f904, %f1224;
sub.f32 %f370, %f905, %f1223;
sub.f32 %f906, %f903, %f894;
sub.f32 %f907, %f904, %f895;
sub.f32 %f908, %f905, %f896;
mul.f32 %f909, %f907, %f907;
fma.rn.f32 %f910, %f906, %f906, %f909;
fma.rn.f32 %f911, %f908, %f908, %f910;
sqrt.rn.f32 %f371, %f911;
setp.ge.f32 %p229, %f371, %f367;
mul.f32 %f912, %f365, %f369;
fma.rn.f32 %f913, %f364, %f368, %f912;
fma.rn.f32 %f914, %f366, %f370, %f913;
setp.le.f32 %p230, %f914, 0f00000000;
or.pred %p231, %p229, %p230;
@%p231 bra BB3_104;
bra.uni BB3_105;
BB3_104:
mov.pred %p337, 0;
mov.f32 %f1229, 0f7F7FFFFF;
bra.uni BB3_106;
BB3_105:
mul.f32 %f915, %f369, %f369;
fma.rn.f32 %f916, %f368, %f368, %f915;
fma.rn.f32 %f917, %f370, %f370, %f916;
sqrt.rn.f32 %f918, %f917;
mul.f32 %f919, %f367, %f367;
neg.f32 %f920, %f371;
fma.rn.f32 %f921, %f920, %f371, %f919;
sqrt.rn.f32 %f922, %f921;
sub.f32 %f1229, %f918, %f922;
mov.pred %p337, -1;
BB3_106:
setp.geu.f32 %p233, %f1229, %f363;
setp.lt.f32 %p234, %f1229, %f363;
and.pred %p338, %p337, %p234;
not.pred %p235, %p337;
selp.u64 %rl299, 1, 0, %p338;
xor.b64 %rl300, %rl299, 1;
add.s64 %rl387, %rl300, %rl387;
or.pred %p236, %p235, %p233;
setp.lt.s64 %p237, %rl387, %rl151;
and.pred %p238, %p237, %p236;
@%p238 bra BB3_103;
BB3_107:
setp.lt.s64 %p240, %rl146, 1;
@%p240 bra BB3_113;
mov.u64 %rl388, 0;
BB3_109:
shl.b64 %rl302, %rl388, 2;
add.s64 %rl303, %rl143, %rl302;
ld.f32 %f374, [%rl303];
add.s64 %rl304, %rl144, %rl302;
ld.f32 %f375, [%rl304];
add.s64 %rl305, %rl145, %rl302;
ld.f32 %f376, [%rl305];
mul.f32 %f924, %f365, %f375;
fma.rn.f32 %f925, %f364, %f374, %f924;
fma.rn.f32 %f377, %f366, %f376, %f925;
setp.ge.f32 %p242, %f377, 0f00000000;
@%p242 bra BB3_110;
add.s64 %rl307, %rl142, %rl302;
add.s64 %rl308, %rl141, %rl302;
add.s64 %rl309, %rl140, %rl302;
ld.f32 %f926, [%rl307];
ld.f32 %f927, [%rl308];
ld.f32 %f928, [%rl309];
sub.f32 %f929, %f928, %f1225;
sub.f32 %f930, %f927, %f1224;
sub.f32 %f931, %f926, %f1223;
mul.f32 %f932, %f374, %f929;
fma.rn.f32 %f933, %f375, %f930, %f932;
fma.rn.f32 %f934, %f376, %f931, %f933;
div.rn.f32 %f1230, %f934, %f377;
mov.pred %p339, -1;
bra.uni BB3_112;
BB3_110:
mov.pred %p339, 0;
mov.f32 %f1230, 0f7F7FFFFF;
BB3_112:
setp.geu.f32 %p244, %f1230, %f363;
setp.lt.f32 %p245, %f1230, %f363;
and.pred %p340, %p339, %p245;
not.pred %p246, %p339;
selp.u64 %rl310, 1, 0, %p340;
xor.b64 %rl311, %rl310, 1;
add.s64 %rl388, %rl311, %rl388;
or.pred %p247, %p246, %p244;
setp.lt.s64 %p248, %rl388, %rl146;
and.pred %p249, %p248, %p247;
@%p249 bra BB3_109;
BB3_113:
add.s64 %rl386, %rl386, 1;
or.pred %p250, %p338, %p340;
@%p250 bra BB3_114;
bra.uni BB3_115;
BB3_114:
mov.f32 %f1231, 0f00000000;
mov.f32 %f1232, %f1231;
mov.f32 %f1233, %f1231;
bra.uni BB3_116;
BB3_115:
mul.f32 %f936, %f1195, %f365;
fma.rn.f32 %f937, %f1196, %f364, %f936;
fma.rn.f32 %f938, %f1194, %f366, %f937;
mul.f32 %f939, %f363, %f363;
div.rn.f32 %f940, %f938, %f939;
mul.f32 %f1233, %f360, %f940;
mul.f32 %f1232, %f361, %f940;
mul.f32 %f1231, %f362, %f940;
BB3_116:
add.f32 %f1228, %f1228, %f1233;
add.f32 %f1227, %f1227, %f1232;
add.f32 %f1226, %f1226, %f1231;
setp.ne.s64 %p251, %rl386, %rl175;
@%p251 bra BB3_102;
add.f32 %f1236, %f1228, 0f3E99999A;
add.f32 %f1235, %f1227, 0f3E99999A;
add.f32 %f1234, %f1226, 0f3E99999A;
bra.uni BB3_118;
BB3_100:
mov.f32 %f1234, 0f3E99999A;
mov.f32 %f1235, %f1234;
mov.f32 %f1236, %f1234;
BB3_118:
mul.f32 %f944, %f273, %f1196;
fma.rn.f32 %f945, %f274, %f1195, %f944;
fma.rn.f32 %f946, %f275, %f1194, %f945;
add.f32 %f947, %f946, %f946;
neg.f32 %f948, %f1196;
fma.rn.f32 %f398, %f948, %f947, %f273;
neg.f32 %f949, %f1195;
fma.rn.f32 %f399, %f949, %f947, %f274;
neg.f32 %f950, %f1194;
fma.rn.f32 %f400, %f950, %f947, %f275;
mov.pred %p252, 0;
mov.f32 %f943, 0f7F7FFFFF;
mov.f32 %f1281, 0f00000000;
mov.u64 %rl389, %rl113;
mov.u64 %rl390, %rl114;
mov.u64 %rl391, %rl115;
mov.u64 %rl392, %rl116;
mov.u64 %rl393, %rl117;
mov.u64 %rl394, %rl118;
mov.u64 %rl395, %rl119;
mov.u64 %rl396, %rl120;
mov.f32 %f1237, %f1281;
mov.f32 %f1239, %f1281;
mov.f32 %f1240, %f1281;
mov.f32 %f1241, %f943;
mov.pred %p341, %p252;
@%p60 bra BB3_122;
BB3_119:
ld.f32 %f406, [%rl392];
ld.f32 %f407, [%rl393];
ld.f32 %f408, [%rl394];
ld.f32 %f409, [%rl395];
mul.f32 %f952, %f399, %f407;
fma.rn.f32 %f953, %f398, %f406, %f952;
fma.rn.f32 %f410, %f400, %f408, %f953;
setp.ge.f32 %p255, %f410, 0f00000000;
mov.f32 %f1242, %f943;
mov.pred %p342, %p252;
@%p255 bra BB3_121;
ld.f32 %f954, [%rl391];
ld.f32 %f955, [%rl390];
ld.f32 %f956, [%rl389];
sub.f32 %f957, %f956, %f1225;
sub.f32 %f958, %f955, %f1224;
sub.f32 %f959, %f954, %f1223;
mul.f32 %f960, %f406, %f957;
fma.rn.f32 %f961, %f407, %f958, %f960;
fma.rn.f32 %f962, %f408, %f959, %f961;
div.rn.f32 %f1242, %f962, %f410;
mov.pred %p342, -1;
BB3_121:
setp.lt.f32 %p257, %f1242, %f1241;
and.pred %p258, %p342, %p257;
selp.f32 %f1237, %f409, %f1237, %p258;
selp.f32 %f1238, %f408, %f1238, %p258;
selp.f32 %f1239, %f407, %f1239, %p258;
selp.f32 %f1240, %f406, %f1240, %p258;
selp.f32 %f1241, %f1242, %f1241, %p258;
and.pred %p259, %p258, %p342;
not.pred %p260, %p258;
and.pred %p261, %p260, %p341;
or.pred %p341, %p259, %p261;
add.s64 %rl396, %rl396, -1;
add.s64 %rl395, %rl395, 4;
add.s64 %rl394, %rl394, 4;
add.s64 %rl393, %rl393, 4;
add.s64 %rl392, %rl392, 4;
add.s64 %rl391, %rl391, 4;
add.s64 %rl390, %rl390, 4;
add.s64 %rl389, %rl389, 4;
setp.ne.s64 %p262, %rl396, 0;
@%p262 bra BB3_119;
BB3_122:
@%p71 bra BB3_169;
mov.u64 %rl397, 0;
mov.f32 %f1252, %f1281;
mov.f32 %f1253, %f1281;
mov.f32 %f1254, %f1281;
mov.f32 %f1255, %f1281;
mov.f32 %f1256, %f1281;
mov.f32 %f1257, %f1281;
mov.f32 %f1258, %f1281;
mov.f32 %f1259, %f943;
mov.pred %p345, %p252;
BB3_124:
shl.b64 %rl313, %rl397, 2;
sub.s64 %rl314, %rl104, %rl313;
ld.f32 %f431, [%rl314];
sub.s64 %rl315, %rl105, %rl313;
ld.f32 %f432, [%rl315];
sub.s64 %rl316, %rl106, %rl313;
ld.f32 %f433, [%rl316];
sub.s64 %rl317, %rl107, %rl313;
ld.f32 %f434, [%rl317];
sub.s64 %rl318, %rl108, %rl313;
ld.f32 %f435, [%rl318];
sub.s64 %rl319, %rl109, %rl313;
ld.f32 %f436, [%rl319];
sub.s64 %rl320, %rl110, %rl313;
ld.f32 %f437, [%rl320];
sub.s64 %rl321, %rl111, %rl313;
ld.f32 %f438, [%rl321];
sub.f32 %f966, %f431, %f1225;
sub.f32 %f967, %f432, %f1224;
sub.f32 %f968, %f433, %f1223;
mul.f32 %f969, %f399, %f967;
fma.rn.f32 %f970, %f398, %f966, %f969;
fma.rn.f32 %f971, %f400, %f968, %f970;
fma.rn.f32 %f972, %f398, %f971, %f1225;
fma.rn.f32 %f973, %f399, %f971, %f1224;
fma.rn.f32 %f974, %f400, %f971, %f1223;
sub.f32 %f439, %f972, %f1225;
sub.f32 %f440, %f973, %f1224;
sub.f32 %f441, %f974, %f1223;
sub.f32 %f975, %f972, %f431;
sub.f32 %f976, %f973, %f432;
sub.f32 %f977, %f974, %f433;
mul.f32 %f978, %f976, %f976;
fma.rn.f32 %f979, %f975, %f975, %f978;
fma.rn.f32 %f980, %f977, %f977, %f979;
sqrt.rn.f32 %f442, %f980;
setp.ge.f32 %p266, %f442, %f434;
mul.f32 %f981, %f399, %f440;
fma.rn.f32 %f982, %f398, %f439, %f981;
fma.rn.f32 %f983, %f400, %f441, %f982;
setp.le.f32 %p267, %f983, 0f00000000;
or.pred %p268, %p266, %p267;
mov.f32 %f1251, %f943;
mov.pred %p344, %p252;
@%p268 bra BB3_126;
mul.f32 %f984, %f440, %f440;
fma.rn.f32 %f985, %f439, %f439, %f984;
fma.rn.f32 %f986, %f441, %f441, %f985;
sqrt.rn.f32 %f987, %f986;
mul.f32 %f988, %f434, %f434;
neg.f32 %f989, %f442;
fma.rn.f32 %f990, %f989, %f442, %f988;
sqrt.rn.f32 %f991, %f990;
sub.f32 %f1251, %f987, %f991;
mov.pred %p344, -1;
BB3_126:
setp.lt.f32 %p270, %f1251, %f1259;
and.pred %p271, %p344, %p270;
selp.f32 %f1252, %f438, %f1252, %p271;
selp.f32 %f1253, %f437, %f1253, %p271;
selp.f32 %f1254, %f436, %f1254, %p271;
selp.f32 %f1255, %f435, %f1255, %p271;
selp.f32 %f1256, %f433, %f1256, %p271;
selp.f32 %f1257, %f432, %f1257, %p271;
selp.f32 %f1258, %f431, %f1258, %p271;
selp.f32 %f1259, %f1251, %f1259, %p271;
and.pred %p272, %p271, %p344;
not.pred %p273, %p271;
and.pred %p274, %p273, %p345;
or.pred %p345, %p272, %p274;
add.s64 %rl397, %rl397, -1;
setp.ne.s64 %p275, %rl1, %rl397;
@%p275 bra BB3_124;
bra.uni BB3_127;
BB3_169:
mov.f32 %f1252, %f1281;
mov.f32 %f1253, %f1281;
mov.f32 %f1254, %f1281;
mov.f32 %f1255, %f1281;
mov.f32 %f1256, %f1281;
mov.f32 %f1257, %f1281;
mov.f32 %f1258, %f1281;
mov.f32 %f1259, %f943;
mov.pred %p345, %p252;
BB3_127:
or.pred %p276, %p345, %p341;
mov.f32 %f1282, %f1281;
mov.f32 %f1283, %f1281;
@!%p276 bra BB3_155;
bra.uni BB3_128;
BB3_128:
setp.geu.f32 %p277, %f1259, %f1241;
@%p277 bra BB3_130;
fma.rn.f32 %f1269, %f398, %f1259, %f1225;
fma.rn.f32 %f1268, %f399, %f1259, %f1224;
fma.rn.f32 %f1267, %f400, %f1259, %f1223;
sub.f32 %f995, %f1269, %f1258;
sub.f32 %f996, %f1268, %f1257;
sub.f32 %f997, %f1267, %f1256;
mul.f32 %f998, %f996, %f996;
fma.rn.f32 %f999, %f995, %f995, %f998;
fma.rn.f32 %f1000, %f997, %f997, %f999;
sqrt.rn.f32 %f1001, %f1000;
rcp.rn.f32 %f1002, %f1001;
mul.f32 %f1240, %f995, %f1002;
mul.f32 %f1239, %f996, %f1002;
mul.f32 %f1238, %f997, %f1002;
mov.f32 %f1237, %f1252;
bra.uni BB3_135;
BB3_130:
fma.rn.f32 %f1269, %f398, %f1241, %f1225;
fma.rn.f32 %f1267, %f400, %f1241, %f1223;
div.rn.f32 %f993, %f1269, 0f42C80000;
cvt.rzi.s32.f32 %r81, %f993;
shr.u32 %r82, %r81, 31;
add.s32 %r83, %r81, %r82;
and.b32 %r84, %r83, -2;
sub.s32 %r106, %r81, %r84;
setp.gt.s32 %p278, %r81, -1;
@%p278 bra BB3_170;
setp.eq.s32 %p279, %r106, 0;
add.s32 %r85, %r106, 2;
selp.b32 %r106, 0, %r85, %p279;
bra.uni BB3_132;
BB3_170:
BB3_132:
div.rn.f32 %f994, %f1267, 0f42C80000;
cvt.rzi.s32.f32 %r86, %f994;
shr.u32 %r87, %r86, 31;
add.s32 %r88, %r86, %r87;
and.b32 %r89, %r88, -2;
sub.s32 %r107, %r86, %r89;
setp.gt.s32 %p280, %r86, -1;
@%p280 bra BB3_171;
setp.eq.s32 %p281, %r107, 0;
add.s32 %r90, %r107, 2;
selp.b32 %r107, 0, %r90, %p281;
bra.uni BB3_134;
BB3_171:
BB3_134:
fma.rn.f32 %f1268, %f399, %f1241, %f1224;
setp.lt.f32 %p282, %f1269, 0f00000000;
setp.lt.f32 %p283, %f1267, 0f00000000;
xor.pred %p284, %p283, %p282;
selp.u32 %r91, 1, 0, %p284;
xor.b32 %r92, %r91, %r106;
xor.b32 %r93, %r92, %r107;
setp.eq.s32 %p285, %r93, 1;
selp.f32 %f1253, 0f3F800000, 0f3ECCCCCD, %p285;
mov.f32 %f1254, %f1253;
mov.f32 %f1255, %f1253;
BB3_135:
mov.f32 %f1005, 0f3F800000;
sub.f32 %f481, %f1005, %f1237;
@%p93 bra BB3_136;
mov.u64 %rl322, 0;
mov.f32 %f1270, 0f00000000;
mov.f32 %f1271, %f1270;
mov.f32 %f1272, %f1270;
mov.u64 %rl398, %rl322;
BB3_138:
shl.b64 %rl324, %rl398, 2;
add.s64 %rl325, %rl169, %rl324;
ld.f32 %f1006, [%rl325];
add.s64 %rl326, %rl170, %rl324;
ld.f32 %f1007, [%rl326];
add.s64 %rl327, %rl171, %rl324;
ld.f32 %f1008, [%rl327];
add.s64 %rl328, %rl172, %rl324;
ld.f32 %f485, [%rl328];
add.s64 %rl329, %rl173, %rl324;
ld.f32 %f486, [%rl329];
add.s64 %rl330, %rl174, %rl324;
ld.f32 %f487, [%rl330];
sub.f32 %f1009, %f1006, %f1269;
sub.f32 %f1010, %f1007, %f1268;
sub.f32 %f1011, %f1008, %f1267;
mul.f32 %f1012, %f1010, %f1010;
fma.rn.f32 %f1013, %f1009, %f1009, %f1012;
fma.rn.f32 %f1014, %f1011, %f1011, %f1013;
sqrt.rn.f32 %f488, %f1014;
rcp.rn.f32 %f1015, %f488;
mul.f32 %f489, %f1009, %f1015;
mul.f32 %f490, %f1010, %f1015;
mul.f32 %f491, %f1011, %f1015;
mov.pred %p349, 0;
setp.lt.s64 %p288, %rl156, 1;
mov.u64 %rl399, %rl322;
mov.pred %p347, %p349;
@%p288 bra BB3_143;
BB3_139:
shl.b64 %rl331, %rl399, 2;
add.s64 %rl332, %rl152, %rl331;
ld.f32 %f1017, [%rl332];
add.s64 %rl333, %rl153, %rl331;
ld.f32 %f1018, [%rl333];
add.s64 %rl334, %rl154, %rl331;
ld.f32 %f1019, [%rl334];
add.s64 %rl335, %rl155, %rl331;
ld.f32 %f492, [%rl335];
sub.f32 %f1020, %f1017, %f1269;
sub.f32 %f1021, %f1018, %f1268;
sub.f32 %f1022, %f1019, %f1267;
mul.f32 %f1023, %f490, %f1021;
fma.rn.f32 %f1024, %f489, %f1020, %f1023;
fma.rn.f32 %f1025, %f491, %f1022, %f1024;
fma.rn.f32 %f1026, %f489, %f1025, %f1269;
fma.rn.f32 %f1027, %f490, %f1025, %f1268;
fma.rn.f32 %f1028, %f491, %f1025, %f1267;
sub.f32 %f493, %f1026, %f1269;
sub.f32 %f494, %f1027, %f1268;
sub.f32 %f495, %f1028, %f1267;
sub.f32 %f1029, %f1026, %f1017;
sub.f32 %f1030, %f1027, %f1018;
sub.f32 %f1031, %f1028, %f1019;
mul.f32 %f1032, %f1030, %f1030;
fma.rn.f32 %f1033, %f1029, %f1029, %f1032;
fma.rn.f32 %f1034, %f1031, %f1031, %f1033;
sqrt.rn.f32 %f496, %f1034;
setp.ge.f32 %p290, %f496, %f492;
mul.f32 %f1035, %f490, %f494;
fma.rn.f32 %f1036, %f489, %f493, %f1035;
fma.rn.f32 %f1037, %f491, %f495, %f1036;
setp.le.f32 %p291, %f1037, 0f00000000;
or.pred %p292, %p290, %p291;
@%p292 bra BB3_140;
bra.uni BB3_141;
BB3_140:
mov.pred %p346, 0;
mov.f32 %f1273, 0f7F7FFFFF;
bra.uni BB3_142;
BB3_141:
mul.f32 %f1038, %f494, %f494;
fma.rn.f32 %f1039, %f493, %f493, %f1038;
fma.rn.f32 %f1040, %f495, %f495, %f1039;
sqrt.rn.f32 %f1041, %f1040;
mul.f32 %f1042, %f492, %f492;
neg.f32 %f1043, %f496;
fma.rn.f32 %f1044, %f1043, %f496, %f1042;
sqrt.rn.f32 %f1045, %f1044;
sub.f32 %f1273, %f1041, %f1045;
mov.pred %p346, -1;
BB3_142:
setp.geu.f32 %p294, %f1273, %f488;
setp.lt.f32 %p295, %f1273, %f488;
and.pred %p347, %p346, %p295;
not.pred %p296, %p346;
selp.u64 %rl336, 1, 0, %p347;
xor.b64 %rl337, %rl336, 1;
add.s64 %rl399, %rl337, %rl399;
or.pred %p297, %p296, %p294;
setp.lt.s64 %p298, %rl399, %rl156;
and.pred %p299, %p298, %p297;
@%p299 bra BB3_139;
BB3_143:
setp.lt.s64 %p301, %rl163, 1;
@%p301 bra BB3_149;
mov.u64 %rl400, 0;
BB3_145:
shl.b64 %rl339, %rl400, 2;
add.s64 %rl340, %rl160, %rl339;
ld.f32 %f499, [%rl340];
add.s64 %rl341, %rl161, %rl339;
ld.f32 %f500, [%rl341];
add.s64 %rl342, %rl162, %rl339;
ld.f32 %f501, [%rl342];
mul.f32 %f1047, %f490, %f500;
fma.rn.f32 %f1048, %f489, %f499, %f1047;
fma.rn.f32 %f502, %f491, %f501, %f1048;
setp.ge.f32 %p303, %f502, 0f00000000;
@%p303 bra BB3_146;
add.s64 %rl344, %rl159, %rl339;
add.s64 %rl345, %rl158, %rl339;
add.s64 %rl346, %rl157, %rl339;
ld.f32 %f1049, [%rl344];
ld.f32 %f1050, [%rl345];
ld.f32 %f1051, [%rl346];
sub.f32 %f1052, %f1051, %f1269;
sub.f32 %f1053, %f1050, %f1268;
sub.f32 %f1054, %f1049, %f1267;
mul.f32 %f1055, %f499, %f1052;
fma.rn.f32 %f1056, %f500, %f1053, %f1055;
fma.rn.f32 %f1057, %f501, %f1054, %f1056;
div.rn.f32 %f1274, %f1057, %f502;
mov.pred %p348, -1;
bra.uni BB3_148;
BB3_146:
mov.pred %p348, 0;
mov.f32 %f1274, 0f7F7FFFFF;
BB3_148:
setp.geu.f32 %p305, %f1274, %f488;
setp.lt.f32 %p306, %f1274, %f488;
and.pred %p349, %p348, %p306;
not.pred %p307, %p348;
selp.u64 %rl347, 1, 0, %p349;
xor.b64 %rl348, %rl347, 1;
add.s64 %rl400, %rl348, %rl400;
or.pred %p308, %p307, %p305;
setp.lt.s64 %p309, %rl400, %rl163;
and.pred %p310, %p309, %p308;
@%p310 bra BB3_145;
BB3_149:
add.s64 %rl398, %rl398, 1;
or.pred %p311, %p347, %p349;
@%p311 bra BB3_150;
bra.uni BB3_151;
BB3_150:
mov.f32 %f1275, 0f00000000;
mov.f32 %f1276, %f1275;
mov.f32 %f1277, %f1275;
bra.uni BB3_152;
BB3_151:
mul.f32 %f1059, %f1239, %f490;
fma.rn.f32 %f1060, %f1240, %f489, %f1059;
fma.rn.f32 %f1061, %f1238, %f491, %f1060;
mul.f32 %f1062, %f488, %f488;
div.rn.f32 %f1063, %f1061, %f1062;
mul.f32 %f1277, %f485, %f1063;
mul.f32 %f1276, %f486, %f1063;
mul.f32 %f1275, %f487, %f1063;
BB3_152:
add.f32 %f1272, %f1272, %f1277;
add.f32 %f1271, %f1271, %f1276;
add.f32 %f1270, %f1270, %f1275;
setp.ne.s64 %p312, %rl398, %rl175;
@%p312 bra BB3_138;
add.f32 %f1280, %f1272, 0f3E99999A;
add.f32 %f1279, %f1271, 0f3E99999A;
add.f32 %f1278, %f1270, 0f3E99999A;
bra.uni BB3_154;
BB3_136:
mov.f32 %f1278, 0f3E99999A;
mov.f32 %f1279, %f1278;
mov.f32 %f1280, %f1278;
BB3_154:
mul.f32 %f1064, %f481, %f1280;
mul.f32 %f1065, %f481, %f1279;
mul.f32 %f1066, %f481, %f1278;
mul.f32 %f1067, %f1255, %f1064;
mul.f32 %f1068, %f1254, %f1065;
mul.f32 %f1069, %f1253, %f1066;
// Callseq Start 0
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1005;
.param .b32 param1;
st.param.f32 [param1+0], %f1067;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1283, [retval0+0];
//{
}// Callseq End 0
// Callseq Start 1
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1005;
.param .b32 param1;
st.param.f32 [param1+0], %f1068;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1282, [retval0+0];
//{
}// Callseq End 1
// Callseq Start 2
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1005;
.param .b32 param1;
st.param.f32 [param1+0], %f1069;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1281, [retval0+0];
//{
}// Callseq End 2
BB3_155:
mul.f32 %f395, %f356, %f1236;
mul.f32 %f396, %f356, %f1235;
mul.f32 %f397, %f356, %f1234;
fma.rn.f32 %f1071, %f1193, %f1283, %f395;
fma.rn.f32 %f1072, %f1193, %f1282, %f396;
fma.rn.f32 %f1073, %f1193, %f1281, %f397;
mul.f32 %f1074, %f1211, %f1071;
mul.f32 %f1075, %f1210, %f1072;
mul.f32 %f1076, %f1209, %f1073;
mov.f32 %f1077, 0f3F800000;
// Callseq Start 3
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1077;
.param .b32 param1;
st.param.f32 [param1+0], %f1074;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1286, [retval0+0];
//{
}// Callseq End 3
// Callseq Start 4
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1077;
.param .b32 param1;
st.param.f32 [param1+0], %f1075;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1285, [retval0+0];
//{
}// Callseq End 4
// Callseq Start 5
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1077;
.param .b32 param1;
st.param.f32 [param1+0], %f1076;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1284, [retval0+0];
//{
}// Callseq End 5
BB3_156:
mul.f32 %f270, %f231, %f1192;
mul.f32 %f271, %f231, %f1191;
mul.f32 %f272, %f231, %f1190;
fma.rn.f32 %f1078, %f1149, %f1286, %f270;
fma.rn.f32 %f1079, %f1149, %f1285, %f271;
fma.rn.f32 %f1080, %f1149, %f1284, %f272;
mul.f32 %f1081, %f1167, %f1078;
mul.f32 %f1082, %f1166, %f1079;
mul.f32 %f1083, %f1165, %f1080;
mov.f32 %f1084, 0f3F800000;
// Callseq Start 6
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1084;
.param .b32 param1;
st.param.f32 [param1+0], %f1081;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1289, [retval0+0];
//{
}// Callseq End 6
// Callseq Start 7
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1084;
.param .b32 param1;
st.param.f32 [param1+0], %f1082;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1288, [retval0+0];
//{
}// Callseq End 7
// Callseq Start 8
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1084;
.param .b32 param1;
st.param.f32 [param1+0], %f1083;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1287, [retval0+0];
//{
}// Callseq End 8
BB3_157:
sub.f32 %f84, %f604, %f1098;
add.f32 %f695, %f1148, 0f3E99999A;
add.f32 %f696, %f1147, 0f3E99999A;
add.f32 %f697, %f1146, 0f3E99999A;
mul.f32 %f145, %f84, %f695;
mul.f32 %f146, %f84, %f696;
mul.f32 %f147, %f84, %f697;
fma.rn.f32 %f1085, %f1098, %f1289, %f145;
fma.rn.f32 %f1086, %f1098, %f1288, %f146;
fma.rn.f32 %f1087, %f1098, %f1287, %f147;
mul.f32 %f1088, %f1116, %f1085;
mul.f32 %f1089, %f1115, %f1086;
mul.f32 %f1090, %f1114, %f1087;
mov.f32 %f1091, 0f3F800000;
// Callseq Start 9
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1091;
.param .b32 param1;
st.param.f32 [param1+0], %f1088;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1092, [retval0+0];
//{
}// Callseq End 9
// Callseq Start 10
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1091;
.param .b32 param1;
st.param.f32 [param1+0], %f1089;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1093, [retval0+0];
//{
}// Callseq End 10
// Callseq Start 11
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1091;
.param .b32 param1;
st.param.f32 [param1+0], %f1090;
.param .b32 retval0;
call.uni (retval0),
fminf,
(
param0,
param1
);
ld.param.f32 %f1094, [retval0+0];
//{
}// Callseq End 11
mul.f32 %f1095, %f1094, 0f437F0000;
cvt.rzi.u32.f32 %r94, %f1095;
shl.b32 %r95, %r94, 16;
or.b32 %r108, %r95, -16777216;
mul.f32 %f1096, %f1093, 0f437F0000;
cvt.rzi.u32.f32 %r96, %f1096;
shl.b32 %r109, %r96, 8;
mul.f32 %f1097, %f1092, 0f437F0000;
cvt.rzi.u32.f32 %r110, %f1097;
BB3_158:
or.b32 %r97, %r109, %r108;
or.b32 %r98, %r97, %r110;
mul.wide.s32 %rl349, %r99, 4;
add.s64 %rl350, %rl102, %rl349;
st.u32 [%rl350], %r98;
add.s32 %r99, %r99, %r2;
setp.lt.s32 %p313, %r99, %r1;
@%p313 bra BB3_2;
BB3_159:
ret;
}
// .globl fminf
.visible .func (.param .b32 func_retval0) fminf(
.param .b32 fminf_param_0,
.param .b32 fminf_param_1
)
{
.reg .f32 %f<4>;
ld.param.f32 %f1, [fminf_param_0];
ld.param.f32 %f2, [fminf_param_1];
// Callseq Start 12
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1;
.param .b32 param1;
st.param.f32 [param1+0], %f2;
.param .b32 retval0;
call.uni (retval0),
__nv_fminf,
(
param0,
param1
);
ld.param.f32 %f3, [retval0+0];
//{
}// Callseq End 12
st.param.f32 [func_retval0+0], %f3;
ret;
}
// .globl sqrtf
.visible .func (.param .b32 func_retval0) sqrtf(
.param .b32 sqrtf_param_0
)
{
.reg .f32 %f<3>;
ld.param.f32 %f1, [sqrtf_param_0];
// Callseq Start 13
{
.reg .b32 temp_param_reg;
// <end>}
.param .b32 param0;
st.param.f32 [param0+0], %f1;
.param .b32 retval0;
call.uni (retval0),
__nv_sqrtf,
(
param0
);
ld.param.f32 %f2, [retval0+0];
//{
}// Callseq End 13
st.param.f32 [func_retval0+0], %f2;
ret;
}
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment