windows-server-2003/base/crts/crtw32/string/ia64/memcpy.s


								        .section .text

								        .proc   memcpy#

								        .global memcpy#

								        .align  64


								        .prologue


								memcpy:


								 {   .mmi

								        add         r10 = 0x80, r33

								        add         r11 = 0x80, r32

								        and         r3 = 7, r33

								 } { .mmi

								        cmp.gt      p9, p7 = r34, r0

								        mov         r8 = r32

								        and         r2 = 7, r32

										;;

								 } { .mmi

								  (p9)  lfetch      [r10], 0x40

								        cmp.gt      p14 = 0x40, r34

								        cmp.le		p15 = 0x80, r34

								 } { .mmb

								        or          r9 = r2, r3

								  (p9)  cmp.eq		p7 = r32, r33

								  (p7)  br.ret.spnt b0

										;;

								 } { .mmi

										lfetch      [r10], 0x40

										lfetch.excl.nt1	[r11], 0x80

								        cmp.le      p10, p11 = 8, r34

								 } {

									 .mbb

								  (p14) cmp.eq.unc  p9 = 0, r9

								  (p11) br.cond.spnt ByteMoveUp    	 // len < 8

								  (p9)  br.cond.spnt QwordMoveUpLoop // len < 64 and both src and dst 8-byte aligned

								        ;;

								 } { .mmi

								  (p15)	lfetch      [r10], 0x40

								  (p15)	lfetch.excl.nt1	[r11], 0x80

								        sub         r31 = 8, r2		// for AlignedMove

								 } { .mmi

								  (p10) cmp.eq.unc  p9 = 0, r9

								  (p10) cmp.eq.unc  p11 = r2, r3

								        cmp.le      p8 = 0x18, r34

										;;

								 } { .mmi

								  (p15)	lfetch		[r10], 0x40

								(p15)	lfetch.excl.nt1  [r11], 0x80

								        sub         r3 = 0x10, r3		// for UnalignedMove

								 } { .bbb

								  (p9)  br.cond.sptk QwordMoveUp	// len >= 8  and src and dst are 8-byte aligned

								  (p11) br.cond.spnt AlignedMove	// len >= 8 and src and dst have same alignment

								  (p8)  br.cond.sptk UnalignedMove	// len > 24

								        ;;

								 }


								// len <=7

								ByteMoveUp:

								 {   .mmi

								        add         r20 = 1, r33

								        add         r21 = 1, r32

								        cmp.le      p6 = 2, r34

										;;

								 }

								ByteMoveUpLoop:

								 {   .mmi

								        ld1         r2 = [r33], 2

								  (p6)  ld1         r3 = [r20], 2

								        nop.i		0

								 } { .mmi

								        cmp.le      p7,p10 = 3, r34

								        cmp.le      p8 = 4, r34

										nop.i		0

										;;

								 } { .mmi

								  (p7)  ld1         r28 = [r33], 2

								  (p8)  ld1         r29 = [r20], 2

								  (p8)  cmp.lt.unc  p9 = 4, r34

								 } { .mmb

								        st1         [r32] = r2, 2

								  (p6)  st1         [r21] = r3, 2

								  (p10) br.ret.dptk b0

										;;

								 } { .mmi

								  (p7)  st1         [r32] = r28, 2

								  (p8)  st1         [r21] = r29, 2

								  		cmp.le		p6 = 6, r34

								 } { .mbb

								add         r34 = -4, r34

								  (p9)  br.cond.dpnt ByteMoveUpLoop

								        br.ret.dptk b0

								        ;;

								 }


								//

								// src & dest have same alignment

								//


								AlignedMove:


								AlignedMoveByteLoop:

								 {   .mmi

								        ld1         r19 = [r33], 1

								        add         r31 = -1, r31

								        add         r34 = -1, r34

								        ;;


								 } { .mmb

								        st1         [r32] = r19, 1

								        cmp.ne      p7 = r0, r31

								  (p7)  br.cond.sptk AlignedMoveByteLoop

								 } { .mmi

								        cmp.eq.unc  p6 = r0, r34

								        cmp.gt      p8 = 8, r34

								        cmp.le      p15 = 0x80, r34

								 } { .mbb

										nop.m		0

								  (p6)  br.ret.spnt b0

								  (p8)  br.cond.sptk ByteMoveUp

								        ;;

								 }


								// both src & dest are 8-byte aligned


								QwordMoveUp:


								 {   .mmi

								(p15)	lfetch		[r10], 0x40

										;;

								(p15)	lfetch      [r10], 0x40

								        cmp.le      p0, p14 = 0x80, r34


								 } { .mmb

								        add			r22 = 8, r32

								        add         r25 = 8, r33

								  (p14) br.cond.spnt QwordMoveUpLoop

										;;

								 }


								        .align  32

								UnrolledQwordMoveUpLoop:

								 {   .mmi

								        ld8         r20 = [r25], 0x10

								        ld8         r30 = [r33], 0x10

								        add         r34 = -0x40, r34

										;;

								 } { .mmi

								        ld8         r21 = [r25], 0x10

								        ld8         r31 = [r33], 0x10

								        cmp.le      p9 = 0x40, r34

								 } { .mmi

								        st8			[r22] = r20, 0x10

								        st8			[r32] = r30, 0x10

								        cmp.gt      p8 = 8, r34

										;;

								 } { .mmi

								        ld8         r20 = [r25], 0x10

								        ld8         r30 = [r33], 0x10

										tbit.z		p15 = r10, 6


								 } { .mmi

								        st8         [r22] = r21, 0x10

								        st8         [r32] = r31, 0x10

										nop.i		0

										;;

								 } { .mmi

								        ld8         r21 = [r25], 0x10

								        ld8         r31 = [r33], 0x10

										nop.i		0


								 } { .mmi

								        st8			[r22] = r20, 0x10

								        st8			[r32] = r30, 0x10

								        nop.i       0

										;;

								 } { .mmi

								    	lfetch      [r10], 0x40

								 (p15)	lfetch.excl.nt1  [r11], 0x80

										nop.i		0

								 } { .mmb

								        st8         [r22] = r21, 0x10

								        st8         [r32] = r31, 0x10

								 (p9)   br.cond.sptk UnrolledQwordMoveUpLoop

										;;

								 } { .mbb

										cmp.eq      p6 = r0, r34

								 (p6)   br.ret.spnt b0

								 (p8)   br.cond.spnt ByteMoveUp

								        ;;

								 }


								QwordMoveUpLoop:

								 {   .mii

								        ld8         r19 = [r33], 8

								        add         r34 = -8, r34

								        nop.i       0

								        ;;

								 } { .mmi

								        st8         [r32] = r19, 8

								        cmp.leu     p7 = 8, r34

								        cmp.ne      p6 = r0, r34

								 } { .bbb

								  (p7)  br.cond.sptk QwordMoveUpLoop

								  (p6)  br.cond.spnt ByteMoveUp

								        br.ret.sptk b0

								        ;;

								 }


								//

								// Copy long unaligned region

								//

										NUMBER_OF_ROTATING_REGISTERS = 24 //40

										RP1 = p39 //p55

										RP2 = p40 //p56

										RR1 = r54 //r70

										RR2 = r55 //r71

								UnalignedMove:

								 {   .mmi

								        .regstk     3, NUMBER_OF_ROTATING_REGISTERS - 3, 0, NUMBER_OF_ROTATING_REGISTERS

								        alloc       r26 = ar.pfs, 3, NUMBER_OF_ROTATING_REGISTERS - 3, 0, NUMBER_OF_ROTATING_REGISTERS

								(p13)	lfetch		[r10], 0x40

										.save       pr, r18

								        mov         r18 = pr

										;;

								 } { .mmi

								(p13)	lfetch		[r10], 0x40

								(p13)	lfetch.excl.nt1	[r11], 0x80

								        .save       ar.lc, r27

								        mov.i       r27 = ar.lc

								} {	.mmi

										mov			r28 = r0

										;;

								 }


								        .body


								UnalignedMoveByteLoop:

								 {   .mmi

								        ld1         r19 = [r33], 1

								        cmp.ne      p6 = 1, r3

								        mov         pr.rot = 3<<0x10

								        ;;

								 } { .mib

								        add         r3 = -1, r3

								        shrp        r28 = r19, r28, 8

								        nop.b       0

								 } { .mib

								        st1         [r32] = r19, 1

								        add         r34 = -1, r34

								  (p6)  br.cond.sptk UnalignedMoveByteLoop

								        ;;

								 } { .mmi

								        mov         r3 = r33

								        and         r2 = 7, r32

								        mov         r33 = r28

								        ;;

								 } { .mmi

								        add         r9 = r34, r2

								        sub         r29 = r32, r2

								        cmp.eq      p6 = 2, r2

								        ;;

								 } { .mii

								        cmp.eq      p9 = 4, r2

								        shr         r19 = r9, 3

								        cmp.eq      p11 = 6, r2

								        ;;

								 } { .mii

								        add         r19 = -1, r19

								        and         r9 = 7, r9

								        mov.i       ar.ec = NUMBER_OF_ROTATING_REGISTERS

								        ;;

								 } { .mmi

										lfetch		[r10], 0x40

										lfetch.excl.nt1	[r11], 0x40

								        mov.i       ar.lc = r19

								 } { .bbb

								  (p6)  br.cond.spnt SpecialLoop2

								  (p9)  br.cond.spnt SpecialLoop4

								  (p11) br.cond.spnt SpecialLoop6

								        ;;

								 } { .mii

								        cmp.eq      p7 = 3, r2

								        cmp.eq      p10 = 5, r2

								        cmp.eq      p12 = 7, r2

								 } { .bbb

								  (p7)  br.cond.spnt SpecialLoop3

								  (p10) br.cond.spnt SpecialLoop5

								  (p12) br.cond.spnt SpecialLoop7

								        ;;

								 }


								        .align  32


								SpecialLoop1:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x38

								 } { .mib

								        br.ctop.sptk.many SpecialLoop1

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop2:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x30

								 } { .mib

								        br.ctop.sptk.many SpecialLoop2

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop3:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x28

								 } { .mib

								        br.ctop.sptk.many SpecialLoop3

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop4:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x20

								 } { .mib

								        br.ctop.sptk.many SpecialLoop4

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop5:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x18

								 } { .mib

								        br.ctop.sptk.many SpecialLoop5

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop6:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x10

								 } { .mib

								        br.ctop.sptk.many SpecialLoop6

								        ;;

								 } { .mib

								        sub         r3 = r3, r2

								        mov         pr = r18

								        br          UnalignedByteDone

								        ;;

								 }


								        .align  32


								SpecialLoop7:

								 {   .mmi

								  (p16) ld8         r32 = [r3], 8

								  (RP2) st8         [r29] = r28, 8

								  (RP1) shrp        r28 = RR1, RR2, 0x8

								 } { .mib

								        br.ctop.sptk.many SpecialLoop7

								        ;;

								 } { .mii

								        sub         r3 = r3, r2

								        mov         pr = r18

								        nop.i       0

								        ;;

								 }


								UnalignedByteDone:

								 {   .mib

								        cmp.eq      p6 = r0, r9

								        mov.i       ar.lc = r27

								  (p6)  br.ret.spnt b0

								        ;;

								 }


								UnAlignedByteDoneLoop:

								 {   .mii

								        ld1         r19 = [r3], 1

								        add         r9 = -1, r9

								        ;;

								        cmp.ne      p7 = r0, r9

								 } { .mbb

								        st1         [r29] = r19, 1

								  (p7)  br.cond.sptk UnAlignedByteDoneLoop

								        br.ret.spnt b0

								        ;;

								 }


								        .endp  memcpy#