csgo/cstrike15_src/studiorender/r_studiodraw_computeflexedv...

//========= Copyright c 1996-2008, Valve Corporation, All rights reserved. ============//
#include "studiorender.h"
#include "studio.h"
#include "materialsystem/imesh.h"
#include "materialsystem/imaterialsystemhardwareconfig.h"
#include "materialsystem/imaterialvar.h"
#include "materialsystem/imorph.h"
#include "materialsystem/itexture.h"
#include "materialsystem/imaterial.h"
#include "optimize.h"
#include "mathlib/mathlib.h"
#include "mathlib/vector.h"
#include "mathlib/vmatrix.h"
#include "studiorendercontext.h"
#include "tier2/tier2.h"
#include "tier0/vprof.h"
#include "tier0/miniprofiler.h"
#include <algorithm>
#include "filesystem.h"

#define PROFILE_THIS_FILE 0


DLL_IMPORT CLinkedMiniProfiler *g_pOtherMiniProfilers;
#if PROFILE_THIS_FILE

#if !ENABLE_HARDWARE_PROFILER
#error "can't profile without profiler enabled"
#endif

CLinkedMiniProfiler g_mp_morph_Vx("morph_Vx", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_Vw("morph_Vw", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_lower_bound("morph_lower_bound", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph("morph", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V1("morph_V1", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V2("morph_V2", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V3("morph_V3", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V4("morph_V4", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V5("morph_V5", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V6("morph_V6", &g_pOtherMiniProfilers);
CLinkedMiniProfiler g_mp_morph_V7("morph_V7", &g_pOtherMiniProfilers);

CLinkedMiniProfiler* g_mp_ComputeFlexedVertex_StreamOffset[8] = 
{
	NULL,
	&g_mp_morph_V1,
	&g_mp_morph_V2,
	&g_mp_morph_V3,
	&g_mp_morph_V4,
	&g_mp_morph_V5,
	&g_mp_morph_V6,
	&g_mp_morph_V7
};
#else
uint32 g_mp_morph_Vx[2];
uint32 g_mp_morph_Vw[2];
#endif

ConVar g_cv_morph_path("morph_path", "7");
ConVar g_cv_morph_debug("morph_debug", "0");


#ifdef _X360
const ALIGN16 int32 g_perm_speed_side[4] = {0x12, 0x13, 0x12, 0x13};
const ALIGN16 int32 g_perm_delta[4] = {0x14150000, 0x16170000, 0x18190000, 0};
const ALIGN16 int32 g_perm_delta_wrinkle[4] = {0x14150000, 0x16170000, 0x18190000, 0x10110000}; // includes the f3PreDelta's W that's in the X component
const ALIGN16 int32 g_perm_ndelta[4] = {0x1A1B0000, 0x1C1D0000, 0x1E1F0000, 0};
//const ALIGN16 int32 g_perm_w0[4]     = {0x00010203,0x08090A0B,0x00010203,0x08090A0B};
const ALIGN16 int32 g_perm_w1[4]     = {0x0C0D0E0F,0x0C0D0E0F,0x04050607,0x04050607};
const fltx4 g_sc256_255_special = {256.0f/255.0f,256.0f/255.0f,-256.0f/255.0f,-256.0f/255.0f};
const fltx4 g_f40011 = {0,0,1,1};
fltx4 g_dummy2[2];

int g_nStreamOffset_prefetch = 256;


//
// V4 rolled - latency of x4, manually scheduled for nearly optimal dual-issue and no automatic stalls
// the ~15 nops mean 1 instruction is issued at that cycle, instead of theoretically possible 2 per cycle
//
__declspec(naked) int ComputeFlexedVertex_StreamOffset_V7(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_t * pVert,		//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
		std	r14, -0x08(r1)
		std r15, -0x10(r1)
		std r16, -0x18(r1)
		std r17, -0x20(r1)
		std r18, -0x28(r1)
		std r19, -0x30(r1)
		std r20, -0x38(r1)
		std r21, -0x40(r1)
		std r22, -0x48(r1)
		std r23, -0x50(r1)
		std r24, -0x58(r1)
		std r25, -0x60(r1)

		// let the compiler schedule the instructions, just use several registers to avoid dependencies
		lau r14, g_sc256_255_special
		lal r14, r14, g_sc256_255_special
		lvx vr2, r0,r14

		lau r15, g_f40011
		lal r15, r15, g_f40011
		lvx vr3, r0,r15

		lau r16, g_perm_speed_side
		lal r16, r16, g_perm_speed_side
		lvx vr4, r0,r16

		lau r17, g_perm_delta
		lal r17, r17, g_perm_delta
		lvx vr5, r0,r17

		lau r18, g_perm_ndelta
		lal r18, r18, g_perm_ndelta
		lvx vr6, r0,r18

		lau r20, g_dummy2
		lal r20,r20, g_dummy2
		mr r21, r20
		mr r22, r21
		mr r23, r22

		li r10, -1
		rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
		rldicl r10,r10,0,48 // r10 = 0x0000FFFF

		vxor vr8,vr8,vr8

		li r15, 16
		
		li r11,0x100
		li r24, MAXSTUDIOFLEXVERTS - 4

		mtctr r8
		mftb r25
		vxor vr19,vr19,vr19
		vxor vr20,vr20,vr20
		nop	// align!
		nop
		nop

label_start_V7: // 52 instructions run in 45 cycles, although compiler predicts 38 cycles
		////////////////
		// IMPORTANT: DO NOT REMOVE NOPS UNLESS YOU KNOW WHAT YOU ARE DOING AND WHY!
		// nops are essential here, removing them will make the code about 2% slower because dual-issue will be broken
		////////////////
		lhz r14, 0(r6) // int n = pVert->index;	
		addi r16, r3, 2	
		dcbt r11,r6
		cmpw r3, r24     // compare nThinFlexVertexCount to MAXSTUDIOFLEXVERTS - 2
		lvlx vr9,r0,r6	
		rldicl r14, r14, 2, 0 // r14 = n*4	
		lvrx vr10,r15,r6	
		rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts	
		vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)	
			addi r31,r31,0//vpermwi128 vr40,vr40,0x1B //mr r31,r31
		add r16, r16, r4	
			vpermwi128 vr40,vr40,0x1B //mr r30,r30
		addi r6, r6, 0x10 // pVert++	
			vpermwi128 vr41,vr41,0x1B//nop
		lwzx r17, r14, r5    // r17 = oldCache	
			//addi r30,r30,0//nop
		vperm vr10, vr8, vr9, vr4	
			//addi r29,r29,0//nop
		xor r18, r17, r7     // cacheVertexIndex = oldCache^nCurrentTag	
		vperm vr11, vr8, vr9, vr5	
		stvx vr8, r0,r16	
		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32	
		/*S:1*/	vpermwi128 vr25, vr20, 0x22 // depends on vmadd vr20 = f4sb
		stvx vr8, r15,r16	
		/*S:1*/	vpermwi128 vr26, vr20, 0xF5		
		vcsxwfp vr10,vr10,8		
		or r19,r3,r7		
		vperm vr12, vr8, vr9, vr6		
		sradi r18,r18,32     // r18 = isCacheInvalid : form mask		
		/*S:3*/			stvx vr30, r0,r23
			//nop
		/*S:3*/			stvx vr31, r15,r23
			//nop
		andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid		
			//nop
		subf r3, r18, r3  // nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);	
			//nop
		and r19,r19,r18      // r19 = newCache & isCacheInvalid		
			//nop
		/*S:2*/mr r23,r22
			//nop
		or r19, r19, r17     // r19 = updateCache		
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
			//nop
		rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32		
			//nop
		/*S:1*/	vmulfp128 vr19, vr25, vr26		
		/*S:1*/mr r22, r21
		vmaddfp vr20, vr10, vr2, vr3 // vr20 = f4sb	
		add r21, r17, r4      // r21 = pFlexedVertex, goes to Stage:1
		/*S:2*/	vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		stwx r19, r14, r5
		/*S:2*/	vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
		/*S:1*/	vpermwi128 vr21, vr32, 0x1B
		/*S:1*/	vpermwi128 vr22, vr33, 0x1B
		vcsxwfp128 vr32, vr11, 28
			//nop
		vcsxwfp128 vr33, vr12, 28
		bgt label_end_V7
		dcbt r11, r21
		bdnz label_start_V7
label_end_V7:
		
		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		/*S:1*/	vpermwi128 vr25, vr20, 0x22 // depends on vmadd vr20 = f4sb
		/*S:1*/	vpermwi128 vr26, vr20, 0xF5		
		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23
		/*S:2*/mr r23,r22
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
		/*S:1*/	vmulfp128 vr19, vr25, vr26		
		/*S:1*/mr r22, r21
		/*S:2*/		vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		/*S:2*/		vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
		/*S:1*/	vpermwi128 vr21, vr32, 0x1B
		/*S:1*/	vpermwi128 vr22, vr33, 0x1B


		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23
		/*S:2*/mr r23,r22
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
		/*S:2*/		vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		/*S:2*/		vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)

		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23

		mftb r17
		subf r17, r25, r17
		lau r18, g_mp_morph_Vx
		lal r18, r18, g_mp_morph_Vx
		lwz r23, 0(r18)
		add r23,r23,r17
		stw r23, 0(r18)
		lwz r23, 4(r18)
		add r23,r23,r8
		stw r23, 4(r18)

		ld r14, -0x08(r1)
		ld r15, -0x10(r1)
		ld r16, -0x18(r1)
		ld r17, -0x20(r1)
		ld r18, -0x28(r1)
		ld r19, -0x30(r1)
		ld r20, -0x38(r1)
		ld r21, -0x40(r1)
		ld r22, -0x48(r1)
		ld r23, -0x50(r1)
		ld r24, -0x58(r1)
		ld r25, -0x60(r1)

		blr
	}
}


__declspec(naked) int ComputeFlexedVertexWrinkle_StreamOffset_V7(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_wrinkle_t * pVert,		//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
		std	r14, -0x08(r1)
		std r15, -0x10(r1)
		std r16, -0x18(r1)
		std r17, -0x20(r1)
		std r18, -0x28(r1)
		std r19, -0x30(r1)
		std r20, -0x38(r1)
		std r21, -0x40(r1)
		std r22, -0x48(r1)
		std r23, -0x50(r1)
		std r24, -0x58(r1)
		std r25, -0x60(r1)

		// let the compiler schedule the instructions, just use several registers to avoid dependencies
		lau r14, g_sc256_255_special
		lal r14, r14, g_sc256_255_special
		lvx vr2, r0,r14

		lau r15, g_f40011
		lal r15, r15, g_f40011
		lvx vr3, r0,r15

		lau r16, g_perm_speed_side
		lal r16, r16, g_perm_speed_side
		lvx vr4, r0,r16

		lau r17, g_perm_delta_wrinkle
		lal r17, r17, g_perm_delta_wrinkle
		lvx vr5, r0,r17

		lau r18, g_perm_ndelta
		lal r18, r18, g_perm_ndelta
		lvx vr6, r0,r18

		lau r20, g_dummy2
		lal r20,r20, g_dummy2
		mr r21, r20
		mr r22, r21
		mr r23, r22

		li r10, -1
		rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
		rldicl r10,r10,0,48 // r10 = 0x0000FFFF

		vxor vr8,vr8,vr8

		li r15, 16
		
		li r11,0x100
		li r24, MAXSTUDIOFLEXVERTS - 4

		mtctr r8
		mftb r25
		vxor vr19,vr19,vr19
		vxor vr20,vr20,vr20
		nop	// align!
		nop
		nop

label_start_V7: // 52 instructions run in 45 cycles, although compiler predicts 38 cycles
		////////////////
		// IMPORTANT: DO NOT REMOVE NOPS UNLESS YOU KNOW WHAT YOU ARE DOING AND WHY!
		// nops are essential here, removing them will make the code about 2% slower because dual-issue will be broken
		////////////////
		lhz r14, 0(r6) // int n = pVert->index;	
		addi r16, r3, 2	
		dcbt r11,r6
		cmpw r3, r24     // compare nThinFlexVertexCount to MAXSTUDIOFLEXVERTS - 2
		lvlx vr9,r0,r6	
		rldicl r14, r14, 2, 0 // r14 = n*4	
		lvrx vr10,r15,r6	
		rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts	
		lvlx vr27,r15,r6  // f3PreDelta
		vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)	
			addi r31,r31,0//vpermwi128 vr40,vr40,0x1B //mr r31,r31
		add r16, r16, r4	
			vpermwi128 vr40,vr40,0x1B //mr r30,r30
		addi r6, r6, 0x12 // pVert++	
			vpermwi128 vr41,vr41,0x1B//nop
		lwzx r17, r14, r5    // r17 = oldCache	
			//addi r30,r30,0//nop
		vperm vr10, vr8, vr9, vr4 //__vperm(f4Zero, packedVert, permuteSpeedSide)	
		vrlimi128 vr27,vr9,7,0// f3PreDelta
		xor r18, r17, r7     // cacheVertexIndex = oldCache^nCurrentTag	
		vperm vr12, vr8, vr9, vr6 //f3NDelta = __vperm(f4Zero, packedVert, permuteNDelta)
		stvx vr8, r0,r16	
		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32	
		/*S:1*/	vpermwi128 vr25, vr20, 0x22 // depends on vmadd vr20 = f4sb
		stvx vr8, r15,r16	
		/*S:1*/	vpermwi128 vr26, vr20, 0xF5		
		vcsxwfp vr10,vr10,8		
		or r19,r3,r7		
		vperm vr11, vr8, vr27, vr5 //f3Delta = __vperm(f4Zero, f3PreDelta, permuteDelta)	
		sradi r18,r18,32     // r18 = isCacheInvalid : form mask		
		/*S:3*/			stvx vr30, r0,r23
			//nop
		/*S:3*/			stvx vr31, r15,r23
			//nop
		andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid		
			//nop
		subf r3, r18, r3  // nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);	
			//nop
		and r19,r19,r18      // r19 = newCache & isCacheInvalid		
			//nop
		/*S:2*/mr r23,r22
			//nop
		or r19, r19, r17     // r19 = updateCache		
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
			//nop
		rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32		
			//nop
		/*S:1*/	vmulfp128 vr19, vr25, vr26		
		/*S:1*/mr r22, r21
		vmaddfp vr20, vr10, vr2, vr3 // vr20 = f4sb	
		add r21, r17, r4      // r21 = pFlexedVertex, goes to Stage:1
		/*S:2*/	vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		stwx r19, r14, r5
		/*S:2*/	vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
		/*S:1*/	vpermwi128 vr21, vr32, 0x1B
		/*S:1*/	vpermwi128 vr22, vr33, 0x1B
		vcsxwfp128 vr32, vr11, 28
			//nop
		vcsxwfp128 vr33, vr12, 28
		bgt label_end_V7
		dcbt r11, r21
		bdnz label_start_V7
label_end_V7:
		
		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		/*S:1*/	vpermwi128 vr25, vr20, 0x22 // depends on vmadd vr20 = f4sb
		/*S:1*/	vpermwi128 vr26, vr20, 0xF5		
		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23
		/*S:2*/mr r23,r22
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
		/*S:1*/	vmulfp128 vr19, vr25, vr26		
		/*S:1*/mr r22, r21
		/*S:2*/		vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		/*S:2*/		vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
		/*S:1*/	vpermwi128 vr21, vr32, 0x1B
		/*S:1*/	vpermwi128 vr22, vr33, 0x1B


		/*S:2*/		vmsum4fp128 vr29,vr19, vr1  // vr29 = scWeight 
		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23
		/*S:2*/mr r23,r22
		/*S:2*/	lvx vr13, r0,r22    // vr13 = vfPosition	
		/*S:2*/	lvx vr14, r15,r22    // vr14 = vfNormal	
		/*S:2*/		vmaddfp vr30, vr29, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
		/*S:2*/		vmaddfp vr31, vr29, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)

		/*S:3*/			stvx vr30, r0,r23
		/*S:3*/			stvx vr31, r15,r23

		mftb r17
		subf r17, r25, r17
		lau r18, g_mp_morph_Vw
		lal r18, r18, g_mp_morph_Vw
		lwz r23, 0(r18)
		add r23,r23,r17
		stw r23, 0(r18)
		lwz r23, 4(r18)
		add r23,r23,r8
		stw r23, 4(r18)

		ld r14, -0x08(r1)
		ld r15, -0x10(r1)
		ld r16, -0x18(r1)
		ld r17, -0x20(r1)
		ld r18, -0x28(r1)
		ld r19, -0x30(r1)
		ld r20, -0x38(r1)
		ld r21, -0x40(r1)
		ld r22, -0x48(r1)
		ld r23, -0x50(r1)
		ld r24, -0x58(r1)
		ld r25, -0x60(r1)

		blr
	}
}


// V4 rolled - latency of x3
__declspec(naked) int ComputeFlexedVertex_StreamOffset_V6(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_t * pVert,		//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
			std	r14, -0x08(r1)
			std r15, -0x10(r1)
			std r16, -0x18(r1)
			std r17, -0x20(r1)
			std r18, -0x28(r1)
			std r19, -0x30(r1)
			std r20, -0x38(r1)
			std r21, -0x40(r1)
			std r22, -0x48(r1)
			std r23, -0x50(r1)
			std r24, -0x58(r1)

			// let the compiler schedule the instructions, just use several registers to avoid dependencies
			lau r14, g_sc256_255_special
			lal r14, r14, g_sc256_255_special
			lvx vr2, r0,r14

			lau r15, g_f40011
			lal r15, r15, g_f40011
			lvx vr3, r0,r15

			lau r16, g_perm_speed_side
			lal r16, r16, g_perm_speed_side
			lvx vr4, r0,r16

			lau r17, g_perm_delta
			lal r17, r17, g_perm_delta
			lvx vr5, r0,r17

			lau r18, g_perm_ndelta
			lal r18, r18, g_perm_ndelta
			lvx vr6, r0,r18

			lau r20, g_dummy2
			lal r20,r20, g_dummy2
			mr r21, r20
			mr r22, r21

			li r10, -1
			rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
			rldicl r10,r10,0,48 // r10 = 0x0000FFFF

			vxor vr8,vr8,vr8

			li r15, 16
			
			lau r14,g_nStreamOffset_prefetch
			lal r14,r14,g_nStreamOffset_prefetch
			lwz r11,0(r14)

			li r24, MAXSTUDIOFLEXVERTS - 2

			mtctr r8
			mftb r23

label_start:
			lhz r14, 0(r6) // int n = pVert->index;	
			dcbt r11,r6
			addi r16, r3, 2	
			cmpw r3, r24     // compare nThinFlexVertexCount to MAXSTUDIOFLEXVERTS - 2
			lvlx vr9,r0,r6	
			lvrx vr10,r15,r6	
			rldicl r14, r14, 2, 0 // r14 = n*4	
			rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts	
			add r16, r16, r4	
			vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)	
			stvx vr8, r0,r16	
			lwzx r17, r14, r5    // r17 = oldCache	
			stvx vr8, r15,r16	
				vmsum4fp128 vr19,vr19, vr1   // vr15 = scWeight 
			vperm vr10, vr8, vr9, vr4	
			xor r18, r17, r7     // cacheVertexIndex = oldCache^nCurrentTag	
			vperm vr11, vr8, vr9, vr5	
			subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32	
			vcsxwfp vr10,vr10,8		
			vperm vr12, vr8, vr9, vr6		
					stvx vr23, r0,r22
			sradi r18,r18,32     // r18 = isCacheInvalid : form mask		
			vmaddfp vr10, vr10, vr2, vr3 // vr10 = f4sb		
					stvx vr24, r15,r22
			or r19,r3,r7		
			andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid		
			and r19,r19,r18      // r19 = newCache & isCacheInvalid		
			vpermwi128 vr15, vr10, 0x22		
			or r19, r19, r17     // r19 = updateCache		
			vpermwi128 vr16, vr10, 0xF5		
			rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32		
				vmaddfp vr24, vr19, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
				vmaddfp vr23, vr19, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
			vmulfp128 vr19, vr15, vr16		
			add r17, r17, r4      // r17 = pFlexedVertex		
			stwx r19, r14, r5		
			subf r3, r18, r3// nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);	
			lvx vr13, r0,r17       // vr13 = vfPosition	
			addi r6, r6, 0x10 // pVert++	
			lvx vr14, r15,r17     // vr14 = vfNormal	
			vcsxwfp vr21, vr11, 28	
			mr r22,r21
			vcsxwfp vr22, vr12, 28	
			mr r21,r17
			bgt label_end
			dcbt r11, r17

			bdnz label_start
label_end:
			
			mftb r17
			subf r17, r23, r17
			lau r18, g_mp_morph_Vx
			lal r18, r18, g_mp_morph_Vx
			lwz r23, 0(r18)
			add r23,r23,r17
			stw r23, 0(r18)
			lwz r23, 4(r18)
			add r23,r23,r8
			stw r23, 4(r18)


			vmsum4fp128 vr19,vr19, vr1   // vr15 = scWeight 
			stvx vr23, r0,r22
			stvx vr24, r15,r22
			vmaddfp vr24, vr19, vr22, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
			vmaddfp vr23, vr19, vr21, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)
			stvx vr23, r0,r21
			stvx vr24, r15,r21

			ld r14, -0x08(r1)
			ld r15, -0x10(r1)
			ld r16, -0x18(r1)
			ld r17, -0x20(r1)
			ld r18, -0x28(r1)
			ld r19, -0x30(r1)
			ld r20, -0x38(r1)
			ld r21, -0x40(r1)
			ld r22, -0x48(r1)
			ld r23, -0x50(r1)
			ld r24, -0x58(r1)

			blr
	}
}


// 2-stages
__declspec(naked) int ComputeFlexedVertex_StreamOffset_V5(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_t * pVert,		//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
		std	r14, -0x08(r1)
			std r15, -0x10(r1)
			std r16, -0x18(r1)
			std r17, -0x20(r1)
			std r18, -0x28(r1)
			std r19, -0x30(r1)
			std r20, -0x38(r1)

			// let the compiler schedule the instructions, just use several registers to avoid dependencies
			lau r14, g_sc256_255_special
			lal r14, r14, g_sc256_255_special
			lvx vr2, r0,r14

			lau r15, g_f40011
			lal r15, r15, g_f40011
			lvx vr3, r0,r15

			lau r16, g_perm_speed_side
			lal r16, r16, g_perm_speed_side
			lvx vr4, r0,r16

			lau r17, g_perm_delta
			lal r17, r17, g_perm_delta
			lvx vr5, r0,r17

			lau r18, g_perm_ndelta
			lal r18, r18, g_perm_ndelta
			lvx vr6, r0,r18

			lau r20, g_dummy2
			lal r20,r20, g_dummy2

			vxor vr8,vr8,vr8
			li r10, -1
			rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
			rldicl r10,r10,0,48 // r10 = 0x0000FFFF
			mtctr r8

			li r15, 16

label_start_schlp:
		lhz r14, 0(r6) // int n = pVert->index;
			addi r16, r3, 2       // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts
			lvlx vr9,r0,r6
			rldicl r14, r14, 2, 0 // r14 = n*4
			lvrx vr10,r15,r6
			rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts

			vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)

			add r16, r16, r4

			vperm vr10, vr8, vr9, vr4	//__vperm(f4Zero, packedVert, permuteSpeedSide)
			addi r6, r6, 0x10 // pVert++
			vcsxwfp vr10,vr10,8

			vmaddfp vr17, vr15, vr11, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition) - stage 1
			vmaddfp vr18, vr15, vr12, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)  - stage 1

			vperm vr11, vr8, vr9, vr5	//f3Delta = __vperm(f4Zero, packedVert, permuteDelta)
			vcsxwfp vr11, vr11, 28
			vperm vr12, vr8, vr9, vr6	//f3NDelta = __vperm(f4Zero, packedVert, permuteNDelta)
			vcsxwfp vr12, vr12, 28

			vmaddfp vr10, vr10, vr2, vr3 // vr10 = f4sb

			lwzx r17, r14, r5      // r17 = oldCache
			xor r18, r17, r7      // cacheVertexIndex = oldCache^nCurrentTag
			subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32

			or r19,r3,r7		 // newCache = nCurrentTag | nThinFlexVertexCount
			sradi r18,r18,32     // r18 = isCacheInvalid : form mask
			vpermwi128 vr15, vr10, 0x22
			and r19,r19,r18      // r19 = newCache & isCacheInvalid
			vpermwi128 vr16, vr10, 0xF5
			andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid
			stvx vr8, r0, r16
			or r19, r19, r17     // r19 = updateCache
			stvx vr8, r15, r16

			rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32
			add r17, r17, r4      // r17 = pFlexedVertex
			vmulfp128 vr15, vr15, vr16
			lvx vr13, r0,r17       // vr13 = vfPosition
			lvx vr14, r15,r17     // vr14 = vfNormal

			vmsum4fp128 vr15,vr15, vr1   // vr15 = scWeight 

			stwx r19, r14, r5	  // pFirstThinFlexIndex[n] = updateCache
			subf r3, r18, r3// nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);

			stvx vr17, r0,r20     // stage 1
			stvx vr18, r15,r20    // stage 1

			mr r20, r17

			bdnz label_start_schlp

			vmaddfp vr17, vr15, vr11, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition) - stage 1
			vmaddfp vr18, vr15, vr12, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)  - stage 1
			stvx vr17, r0,r20	 // stage 1; deferred storing saves 15 cycles (10%!)
			stvx vr18, r15,r20

			ld r14, -0x08(r1) 
			ld r15, -0x10(r1)
			ld r16, -0x18(r1)
			ld r17, -0x20(r1)
			ld r18, -0x28(r1)
			ld r19, -0x30(r1)
			ld r20, -0x38(r1)

			blr
	}
}

// V3 in asm
__declspec(naked) int ComputeFlexedVertex_StreamOffset_V4(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_t * pVert,		//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
		std	r14, -0x08(r1)
			std r15, -0x10(r1)
			std r16, -0x18(r1)
			std r17, -0x20(r1)
			std r18, -0x28(r1)
			std r19, -0x30(r1)

			// let the compiler schedule the instructions, just use several registers to avoid dependencies
			lau r14, g_sc256_255_special
			lal r14, r14, g_sc256_255_special
			lvx vr2, r0,r14

			lau r15, g_f40011
			lal r15, r15, g_f40011
			lvx vr3, r0,r15

			lau r16, g_perm_speed_side
			lal r16, r16, g_perm_speed_side
			lvx vr4, r0,r16

			lau r17, g_perm_delta
			lal r17, r17, g_perm_delta
			lvx vr5, r0,r17

			lau r18, g_perm_ndelta
			lal r18, r18, g_perm_ndelta
			lvx vr6, r0,r18

			li r10, -1
			rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
			rldicl r10,r10,0,48 // r10 = 0x0000FFFF

			lau r14,g_nStreamOffset_prefetch
			lal r14,r14,g_nStreamOffset_prefetch
			lwz r11,0(r14)

			vxor vr8,vr8,vr8

			li r15, 16
			li r24, MAXSTUDIOFLEXVERTS - 3 // critical number at which to stop processing 

			mtctr r8
label_start:
		lhz r14, 0(r6) // int n = pVert->index;
			dcbt r11,r16
			rldicl r14, r14, 2, 0 // r14 = n*4
			

			addi r16, r3, 2
			rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts
			add r16, r16, r4
			stvx vr8, r0,r16
			stvx vr8, r15,r16

			lvlx vr9,r0,r6
			lvrx vr10,r15,r6
			vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)

			vperm vr10, vr8, vr9, vr4    //__vperm(f4Zero, packedVert, permuteSpeedSide)
			vcsxwfp vr10,vr10,8
			vmaddfp vr10, vr10, vr2, vr3 // vr10 = f4sb

			vperm vr11, vr8, vr9, vr5 //f3Delta = __vperm(f4Zero, packedVert, permuteDelta)
			vcsxwfp vr11, vr11, 28
			vperm vr12, vr8, vr9, vr6 //f3NDelta = __vperm(f4Zero, packedVert, permuteNDelta)
			vcsxwfp vr12, vr12, 28

			lwzx r17, r14, r5    // r17 = oldCache
			xor r18, r17, r7     // cacheVertexIndex = oldCache^nCurrentTag
			subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32
			sradi r18,r18,32     // r18 = isCacheInvalid : form mask

			or r19,r3,r7          // newCache = nCurrentTag | nThinFlexVertexCount
			and r19,r19,r18      // r19 = newCache & isCacheInvalid
			andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid
			or r19, r19, r17     // r19 = updateCache

			rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32
			add r17, r17, r4      // r17 = pFlexedVertex
			lvx vr13, r0,r17      // vr13 = vfPosition
			lvx vr14, r15,r17     // vr14 = vfNormal
			dcbt r11,r17

			vpermwi128 vr15, vr10, 0x22
			vpermwi128 vr16, vr10, 0xF5
			vmulfp128 vr15, vr15, vr16
			vmsum4fp128 vr15,vr15, vr1   // vr15 = scWeight 

			stwx r19, r14, r5     // pFirstThinFlexIndex[n] = updateCache
			subf r3, r18, r3      // nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);

			vmaddfp vr14, vr15, vr12, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
			vmaddfp vr13, vr15, vr11, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)

			stvx vr13, r0,r17
			stvx vr14, r15,r17

			cmpw r3, r24
			bgt label_end

			addi r6, r6, 0x10     // pVert++
			bdnz label_start
label_end:

			ld r14, -0x08(r1)
			ld r15, -0x10(r1)
			ld r16, -0x18(r1)
			ld r17, -0x20(r1)
			ld r18, -0x28(r1)
			ld r19, -0x30(r1)

			blr
	}
}


// V3 in asm
__declspec(naked) int ComputeFlexedVertexWrinkle_StreamOffset_V4(
	int nThinFlexVertexCount,		//r3
	CachedPosNorm_t *pThinFlexVerts,//r4
	int32 *pFirstThinFlexIndex,		//r5
	mstudiovertanim_wrinkle_t * pVert,//r6
	uint32 nCurrentTag,				//r7
	uint32 numVertsToProcess,		//r8
	fltx4 w1234						//vr1
	)
{
	__asm
	{
		std	r14, -0x08(r1)
		std r15, -0x10(r1)
		std r16, -0x18(r1)
		std r17, -0x20(r1)
		std r18, -0x28(r1)
		std r19, -0x30(r1)

		// let the compiler schedule the instructions, just use several registers to avoid dependencies
		lau r14, g_sc256_255_special
		lal r14, r14, g_sc256_255_special
		lvx vr2, r0,r14

		lau r15, g_f40011
		lal r15, r15, g_f40011
		lvx vr3, r0,r15

		lau r16, g_perm_speed_side
		lal r16, r16, g_perm_speed_side
		lvx vr4, r0,r16

		lau r17, g_perm_delta_wrinkle
		lal r17, r17, g_perm_delta_wrinkle
		lvx vr5, r0,r17

		lau r18, g_perm_ndelta
		lal r18, r18, g_perm_ndelta
		lvx vr6, r0,r18

		li r10, -1
		rldicl r7,r7,0,32   // currentTag &= 0xFFFFFFFF ; just to make sure we don't mess up isCacheInvalid computation
		rldicl r10,r10,0,48 // r10 = 0x0000FFFF

		lau r14,g_nStreamOffset_prefetch
		lal r14,r14,g_nStreamOffset_prefetch
		lwz r11,0(r14)

		vxor vr8,vr8,vr8

		li r15, 16
		li r24, MAXSTUDIOFLEXVERTS - 3 // critical number at which to stop processing 

		mtctr r8
	label_start:
		lhz r14, 0(r6) // int n = pVert->index;
		dcbt r11,r16
		rldicl r14, r14, 2, 0 // r14 = n*4


		addi r16, r3, 2
		rldicl r16, r16, 5, 0 // r16 = (nThinFlexVertexCount+2) * 32 + pThinFlexVerts
		add r16, r16, r4
		stvx vr8, r0,r16
		stvx vr8, r15,r16

		lvlx vr27,r15,r6  // f3PreDelta
		lvlx vr9,r0,r6
		lvrx vr10,r15,r6
		vor vr9,vr9,vr10  // vr9 = packedVert = LoadUnalignedSIMD(pVert)
		vrlimi128 vr27,vr9,7,0// f3PreDelta

		vperm vr10, vr8, vr9, vr4    //__vperm(f4Zero, packedVert, permuteSpeedSide)
		vcsxwfp vr10,vr10,8
		vmaddfp vr10, vr10, vr2, vr3 // vr10 = f4sb

		vperm vr11, vr8, vr27, vr5 //f3Delta = __vperm(f4Zero, f3PreDelta, permuteDelta)
		vcsxwfp vr11, vr11, 28
		vperm vr12, vr8, vr9, vr6 //f3NDelta = __vperm(f4Zero, packedVert, permuteNDelta)
		vcsxwfp vr12, vr12, 28

		lwzx r17, r14, r5    // r17 = oldCache
		xor r18, r17, r7     // cacheVertexIndex = oldCache^nCurrentTag
		subf r18,r18,r10     // (0xFFFF-cacheVertexIndex) >> 32
		sradi r18,r18,32     // r18 = isCacheInvalid : form mask

		or r19,r3,r7          // newCache = nCurrentTag | nThinFlexVertexCount
		and r19,r19,r18      // r19 = newCache & isCacheInvalid
		andc r17, r17, r18   // r17 = oldCache & ~isCacheInvalid
		or r19, r19, r17     // r19 = updateCache

		rldicl r17, r19, 5,43 // r17 = (updateCache & 0xFFFF) * 32   = nVertexIndex * 32
		add r17, r17, r4      // r17 = pFlexedVertex
		lvx vr13, r0,r17      // vr13 = vfPosition
		lvx vr14, r15,r17     // vr14 = vfNormal
		dcbt r11,r17

		vpermwi128 vr15, vr10, 0x22
		vpermwi128 vr16, vr10, 0xF5
		vmulfp128 vr15, vr15, vr16
		vmsum4fp128 vr15,vr15, vr1   // vr15 = scWeight 

		stwx r19, r14, r5     // pFirstThinFlexIndex[n] = updateCache
		subf r3, r18, r3      // nThinFlexVertexCount = nThinFlexVertexCount + (isCacheInvalid&1);

		vmaddfp vr14, vr15, vr12, vr14 // MaddSIMD(scWeight,f3NDelta, vfNormal)
		vmaddfp vr13, vr15, vr11, vr13 // MaddSIMD(scWeight,f3Delta, vfPosition)

		stvx vr13, r0,r17
		stvx vr14, r15,r17

		cmpw r3, r24
		bgt label_end

		addi r6, r6, 0x12     // pVert++
		bdnz label_start
	label_end:

		ld r14, -0x08(r1)
		ld r15, -0x10(r1)
		ld r16, -0x18(r1)
		ld r17, -0x20(r1)
		ld r18, -0x28(r1)
		ld r19, -0x30(r1)

		blr
	}
}


// base for asm
int ComputeFlexedVertex_StreamOffset_V3(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234)
{
	fltx4 sc256_255_special = g_sc256_255_special;
	fltx4 f40011 = g_f40011;
	fltx4 permuteSpeedSide = LoadAlignedSIMD((const float*)g_perm_speed_side);
	fltx4 permuteDelta  = LoadAlignedSIMD((const float*)g_perm_delta);
	fltx4 permuteNDelta = LoadAlignedSIMD((const float*)g_perm_ndelta);
	//fltx4 permuteW0     = LoadAlignedSIMD((const float*)g_perm_w0);
	//fltx4 permuteW1     = LoadAlignedSIMD((const float*)g_perm_w1);
	fltx4 f4Zero = Four_Zeros;

	do
	{
		int n = pVert->index;
		pThinFlexVerts[nThinFlexVertexCount+2].m_Position.InitZero();
		pThinFlexVerts[nThinFlexVertexCount+2].m_Normal.InitZero();
		fltx4 packedVert = LoadUnalignedSIMD((const float*)pVert);
		fltx4 f4sb = MaddSIMD(__vcfsx(__vperm(f4Zero, packedVert, permuteSpeedSide), 8), sc256_255_special, f40011);
		// f4sb = {s,b,1-s,1-b}

		fltx4 f3Delta = __vcfsx(__vperm(f4Zero, packedVert, permuteDelta), 12+16);
		fltx4 f3NDelta = __vcfsx(__vperm(f4Zero, packedVert, permuteNDelta), 12+16);
		uint64 oldCache = uint32(pFirstThinFlexIndex[n]);
		uint64 cacheVertexIndex = oldCache^nCurrentTag; // if there is trash in high (2^16) bits, we need to update the cache
		int64 isCacheInvalid = int64(0xFFFF-cacheVertexIndex)>>32; // the second shift must be arithmetic to form a valid mask
		int64 isCacheValid = ~isCacheInvalid;

		int64 newCache = nCurrentTag | nThinFlexVertexCount;
		int64 updateCache = (newCache & isCacheInvalid) | (oldCache & isCacheValid);
		nThinFlexVertexCount = nThinFlexVertexCount - isCacheInvalid;

		int nVertexIndex = updateCache & 0xFFFF;

		CachedPosNorm_t *pFlexedVertex = pThinFlexVerts + nVertexIndex; // will be overridden
		fltx4 vfNormal = LoadAlignedSIMD((float*)&pFlexedVertex->m_Normal);
		fltx4 vfPosition = LoadAlignedSIMD((float*)&pFlexedVertex->m_Position);

		// here we need to form the following vector to compute final w:
		// {s(1-b), (1-s)(1-b), sb, (1-s)b}
		//fltx4 f4sbProd = MulSIMD(__vperm(f4sb,f4sb,permuteW0), __vperm(f4sb,f4sb,permuteW1));
		fltx4 f4sbProd = MulSIMD(__vpermwi(f4sb,0x22), __vpermwi(f4sb,0xF5));
		fltx4 scWeight = __vmsum4fp(f4sbProd,w1234);

		pFirstThinFlexIndex[n] = updateCache;
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Normal, MaddSIMD(scWeight,f3NDelta, vfNormal));
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Position, MaddSIMD(scWeight,f3Delta, vfPosition));

		pVert ++;
	}
	while(--numVertsToProcess); // why doesn't this use bdnz??

	return nThinFlexVertexCount;
}


// base for asm
int ComputeFlexedVertexWrinkle_StreamOffset_V3(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_wrinkle_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234)
{
	fltx4 sc256_255_special = g_sc256_255_special;
	fltx4 f40011 = g_f40011;
	fltx4 permuteSpeedSide = LoadAlignedSIMD((const float*)g_perm_speed_side);
	fltx4 permuteDelta  = LoadAlignedSIMD((const float*)g_perm_delta_wrinkle);
	fltx4 permuteNDelta = LoadAlignedSIMD((const float*)g_perm_ndelta);
	//fltx4 permuteW0     = LoadAlignedSIMD((const float*)g_perm_w0);
	//fltx4 permuteW1     = LoadAlignedSIMD((const float*)g_perm_w1);
	fltx4 f4Zero = Four_Zeros;

	do
	{
		int n = pVert->index;
		pThinFlexVerts[nThinFlexVertexCount+2].m_Position.InitZero();
		pThinFlexVerts[nThinFlexVertexCount+2].m_Normal.InitZero();
		fltx4 packedVert = LoadUnalignedSIMD((const float*)pVert);
		fltx4 f3PreDelta = __lvlx(pVert, 16); // f3Delta now contains only packed W component in high X halfword...
		fltx4 f4sb = MaddSIMD(__vcfsx(__vperm(f4Zero, packedVert, permuteSpeedSide), 8), sc256_255_special, f40011);
		// f4sb = {s,b,1-s,1-b}


		f3PreDelta = __vrlimi(f3PreDelta, packedVert, 7, 0); // don't rotate and move bytes 4..15 from packed vert to f3PreDelta
		fltx4 f3NDelta = __vcfsx(__vperm(f4Zero, packedVert, permuteNDelta), 12+16);
		fltx4 f3Delta = __vcfsx(__vperm(f4Zero, f3PreDelta, permuteDelta), 12+16);
		uint64 oldCache = uint32(pFirstThinFlexIndex[n]);
		uint64 cacheVertexIndex = oldCache^nCurrentTag; // if there is trash in high (2^16) bits, we need to update the cache
		int64 isCacheInvalid = int64(0xFFFF-cacheVertexIndex)>>32; // the second shift must be arithmetic to form a valid mask
		int64 isCacheValid = ~isCacheInvalid;

		int64 newCache = nCurrentTag | nThinFlexVertexCount;
		int64 updateCache = (newCache & isCacheInvalid) | (oldCache & isCacheValid);
		nThinFlexVertexCount = nThinFlexVertexCount - isCacheInvalid;

		int nVertexIndex = updateCache & 0xFFFF;

		CachedPosNorm_t *pFlexedVertex = pThinFlexVerts + nVertexIndex; // will be overridden
		fltx4 vfNormal = LoadAlignedSIMD((float*)&pFlexedVertex->m_Normal);
		fltx4 vfPosition = LoadAlignedSIMD((float*)&pFlexedVertex->m_Position);

		// here we need to form the following vector to compute final w:
		// {s(1-b), (1-s)(1-b), sb, (1-s)b}
		//fltx4 f4sbProd = MulSIMD(__vperm(f4sb,f4sb,permuteW0), __vperm(f4sb,f4sb,permuteW1));
		fltx4 f4sbProd = MulSIMD(__vpermwi(f4sb,0x22), __vpermwi(f4sb,0xF5));
		fltx4 scWeight = __vmsum4fp(f4sbProd,w1234);

		pFirstThinFlexIndex[n] = updateCache;
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Normal, MaddSIMD(scWeight,f3NDelta, vfNormal));
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Position, MaddSIMD(scWeight,f3Delta, vfPosition));

		pVert ++;
	}
	while(--numVertsToProcess); // why doesn't this use bdnz??

	return nThinFlexVertexCount;
}

// tried to pipeline in C++
int ComputeFlexedVertex_StreamOffset_V2(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234)
{
	Assert(0 == (uint32(pVert) & 0xF));
	fltx4 sc256_255_special = g_sc256_255_special;
	fltx4 f40011 = g_f40011;
	fltx4 permuteSpeedSide = LoadAlignedSIMD((const float*)g_perm_speed_side);
	fltx4 permuteDelta  = LoadAlignedSIMD((const float*)g_perm_delta);
	fltx4 permuteNDelta = LoadAlignedSIMD((const float*)g_perm_ndelta);
	//fltx4 permuteW0     = LoadAlignedSIMD((const float*)g_perm_w0);
	//fltx4 permuteW1     = LoadAlignedSIMD((const float*)g_perm_w1);
	fltx4 f4Zero = Four_Zeros;

	fltx4 f4sb_st1, f3Delta_st1, f3NDelta_st1;
	int32 updateCache_st1;
	mstudiovertanim_t *pVertEnd = pVert + numVertsToProcess;
	{
		// stage 0
		int n = pVert->index;
		pThinFlexVerts[nThinFlexVertexCount+2].m_Position.InitZero();
		pThinFlexVerts[nThinFlexVertexCount+2].m_Normal.InitZero();
		fltx4 packedVert = LoadUnalignedSIMD((const float*)pVert);
		fltx4 f4sb = MaddSIMD(__vcfsx(__vperm(f4Zero, packedVert, permuteSpeedSide), 8), sc256_255_special, f40011); // to be completely correct, we'll ned to multiply this with 256/255
		// f4sb = {s,b,1-s,1-b}

		fltx4 f3Delta = __vcfsx(__vperm(f4Zero, packedVert, permuteDelta), 12+16);
		fltx4 f3NDelta = __vcfsx(__vperm(f4Zero, packedVert, permuteNDelta), 12+16);
		uint64 oldCache = uint32(pFirstThinFlexIndex[n]);
		uint64 cacheVertexIndex = oldCache^nCurrentTag; // if there is trash in high (2^16) bits, we need to update the cache
		int64 isCacheInvalid = int64(0xFFFF-cacheVertexIndex)>>32; // the second shift must be arithmetic to form a valid mask
		int64 isCacheValid = ~isCacheInvalid;

		int64 newCache = nCurrentTag | nThinFlexVertexCount;
		int64 updateCache = (newCache & isCacheInvalid) | (oldCache & isCacheValid);
		nThinFlexVertexCount = nThinFlexVertexCount - isCacheInvalid;

		pFirstThinFlexIndex[n] = updateCache;

		// prime next stage 1
		f4sb_st1 = f4sb;
		f3Delta_st1 = f3Delta;
		f3NDelta_st1 = f3NDelta;
		updateCache_st1 = updateCache;

		pVert ++;
	}

	while(pVert < pVertEnd)
	{
		// stage 1
		{
			int nVertexIndex = updateCache_st1 & 0xFFFF;

			CachedPosNorm_t *pFlexedVertex = pThinFlexVerts + nVertexIndex; // will be overridden

			fltx4 vfNormal = LoadAlignedSIMD((float*)&pFlexedVertex->m_Normal);
			fltx4 vfPosition = LoadAlignedSIMD((float*)&pFlexedVertex->m_Position);

			// here we need to form the following vector to compute final w:
			// {s(1-b), (1-s)(1-b), sb, (1-s)b}
			//fltx4 f4sbProd = MulSIMD(__vperm(f4sb_st1,f4sb_st1,permuteW0), __vperm(f4sb_st1,f4sb_st1,permuteW1));
			fltx4 f4sbProd = MulSIMD(__vpermwi(f4sb_st1,0x22), __vpermwi(f4sb_st1,0xF5));
			fltx4 scWeight = __vmsum4fp(f4sbProd,w1234);

			StoreAlignedSIMD((float*)&pFlexedVertex->m_Normal, MaddSIMD(scWeight,f3NDelta_st1, vfNormal));
			StoreAlignedSIMD((float*)&pFlexedVertex->m_Position, MaddSIMD(scWeight,f3Delta_st1, vfPosition));
		}

		// stage 0
		{
			int n = pVert->index;
			pThinFlexVerts[nThinFlexVertexCount+2].m_Position.InitZero();
			pThinFlexVerts[nThinFlexVertexCount+2].m_Normal.InitZero();
			fltx4 packedVert = LoadUnalignedSIMD((const float*)pVert);
			fltx4 f4sb = MaddSIMD(__vcfsx(__vperm(f4Zero, packedVert, permuteSpeedSide), 8), sc256_255_special, f40011); // to be completely correct, we'll ned to multiply this with 256/255
			// f4sb = {s,b,1-s,1-b}

			fltx4 f3Delta = __vcfsx(__vperm(f4Zero, packedVert, permuteDelta), 12+16);
			fltx4 f3NDelta = __vcfsx(__vperm(f4Zero, packedVert, permuteNDelta), 12+16);
			uint64 oldCache = uint32(pFirstThinFlexIndex[n]);
			uint64 cacheVertexIndex = oldCache^nCurrentTag; // if there is trash in high (2^16) bits, we need to update the cache
			int64 isCacheInvalid = int64(0xFFFF-cacheVertexIndex)>>32; // the second shift must be arithmetic to form a valid mask
			int64 isCacheValid = ~isCacheInvalid;

			int64 newCache = nCurrentTag | nThinFlexVertexCount;
			int64 updateCache = (newCache & isCacheInvalid) | (oldCache & isCacheValid);
			nThinFlexVertexCount = nThinFlexVertexCount - isCacheInvalid;

			pFirstThinFlexIndex[n] = updateCache; // this may be put wherever it doesn't mess up the other stores

			// prime next stage 1
			f4sb_st1 = f4sb;
			updateCache_st1 = updateCache;
			f3Delta_st1 = f3Delta;
			f3NDelta_st1 = f3NDelta;
		}

		pVert ++;
	}

	// stage 1
	{
		int nVertexIndex = updateCache_st1 & 0xFFFF;

		CachedPosNorm_t *pFlexedVertex = pThinFlexVerts + nVertexIndex; // will be overridden

		fltx4 vfNormal = LoadAlignedSIMD((float*)&pFlexedVertex->m_Normal);
		fltx4 vfPosition = LoadAlignedSIMD((float*)&pFlexedVertex->m_Position);

		// here we need to form the following vector to compute final w:
		// {s(1-b), (1-s)(1-b), sb, (1-s)b}
		//fltx4 f4sbProd = MulSIMD(__vperm(f4sb_st1,f4sb_st1,permuteW0), __vperm(f4sb_st1,f4sb_st1,permuteW1));
		fltx4 f4sbProd = MulSIMD(__vpermwi(f4sb_st1,0x22), __vpermwi(f4sb_st1,0xF5));
		fltx4 scWeight = __vmsum4fp(f4sbProd,w1234);

		StoreAlignedSIMD((float*)&pFlexedVertex->m_Normal, MaddSIMD(scWeight,f3NDelta_st1, vfNormal));
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Position, MaddSIMD(scWeight,f3Delta_st1, vfPosition));
	}
	return nThinFlexVertexCount;
}

// branchless
int ComputeFlexedVertex_StreamOffset_V1(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234)
{
	Assert(0 == (uint32(pVert) & 0xF));
	fltx4 sc256_255_special = g_sc256_255_special;
	fltx4 f40011 = g_f40011;
	fltx4 permuteSpeedSide = LoadAlignedSIMD((const float*)g_perm_speed_side);
	fltx4 permuteDelta  = LoadAlignedSIMD((const float*)g_perm_delta);
	fltx4 permuteNDelta = LoadAlignedSIMD((const float*)g_perm_ndelta);
	//fltx4 permuteW0     = LoadAlignedSIMD((const float*)g_perm_w0);
	//fltx4 permuteW1     = LoadAlignedSIMD((const float*)g_perm_w1);
	fltx4 f4Zero = Four_Zeros;
	mstudiovertanim_t *pVertEnd = pVert + numVertsToProcess;
	do
	{
		int n = pVert->index;
		pThinFlexVerts[nThinFlexVertexCount].m_Position.InitZero();
		pThinFlexVerts[nThinFlexVertexCount].m_Normal.InitZero();
		fltx4 packedVert = LoadUnalignedSIMD((const float*)pVert);
		fltx4 f4sb = MaddSIMD(__vcfsx(__vperm(f4Zero, packedVert, permuteSpeedSide), 8), sc256_255_special, f40011);
		// f4sb = {s,b,1-s,1-b}

		fltx4 f3Delta = __vcfsx(__vperm(f4Zero, packedVert, permuteDelta), 12+16);
		fltx4 f3NDelta = __vcfsx(__vperm(f4Zero, packedVert, permuteNDelta), 12+16);
		uint64 oldCache = uint32(pFirstThinFlexIndex[n]);
		uint64 cacheVertexIndex = oldCache^nCurrentTag; // if there is trash in high (2^16) bits, we need to update the cache
		int64 isCacheInvalid = int64(0xFFFF-cacheVertexIndex)>>32; // the second shift must be arithmetic to form a valid mask
		int32 isCacheValid = ~isCacheInvalid;

		int32 newCache = nCurrentTag | nThinFlexVertexCount;
		int32 updateCache = (newCache & isCacheInvalid) | (oldCache & isCacheValid);
		nThinFlexVertexCount = nThinFlexVertexCount - isCacheInvalid;

		int nVertexIndex = updateCache & 0xFFFF;

		CachedPosNorm_t *pFlexedVertex = pThinFlexVerts + nVertexIndex; // will be overridden
		fltx4 vfNormal = LoadAlignedSIMD((float*)&pFlexedVertex->m_Normal);
		fltx4 vfPosition = LoadAlignedSIMD((float*)&pFlexedVertex->m_Position);

		// here we need to form the following vector to compute final w:
		// {s(1-b), (1-s)(1-b), sb, (1-s)b}
		//fltx4 f4sbProd = MulSIMD(__vperm(f4sb,f4sb,permuteW0), __vperm(f4sb,f4sb,permuteW1));
		fltx4 f4sbProd = MulSIMD(__vpermwi(f4sb,0x22), __vpermwi(f4sb,0xF5));
		fltx4 scWeight = __vmsum4fp(f4sbProd,w1234);

		pFirstThinFlexIndex[n] = updateCache;
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Normal, MaddSIMD(scWeight,f3NDelta, vfNormal));
		StoreAlignedSIMD((float*)&pFlexedVertex->m_Position, MaddSIMD(scWeight,f3Delta, vfPosition));

		pVert ++;
	}
	while(pVert < pVertEnd); // why doesn't this use CTR??

	return nThinFlexVertexCount;
}


typedef int (*Fn_ComputeFlexedVertex_StreamOffset)(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234);
Fn_ComputeFlexedVertex_StreamOffset g_fn_ComputeFlexedVertex_StreamOffset[8] = 
{
	NULL,
	ComputeFlexedVertex_StreamOffset_V1,
	ComputeFlexedVertex_StreamOffset_V2,
	ComputeFlexedVertex_StreamOffset_V3,
	ComputeFlexedVertex_StreamOffset_V4,
	ComputeFlexedVertex_StreamOffset_V5,
	ComputeFlexedVertex_StreamOffset_V6,
	ComputeFlexedVertex_StreamOffset_V7
};

typedef int (*Fn_ComputeFlexedVertexWrinkle_StreamOffset)(int nThinFlexVertexCount, CachedPosNorm_t *pThinFlexVerts, int32 *pFirstThinFlexIndex, mstudiovertanim_wrinkle_t * pVert, uint32 nCurrentTag, uint32 numVertsToProcess, fltx4 w1234);
Fn_ComputeFlexedVertexWrinkle_StreamOffset g_fn_ComputeFlexedVertexWrinkle_StreamOffset[8] = 
{
	NULL,
	ComputeFlexedVertexWrinkle_StreamOffset_V3,
	ComputeFlexedVertexWrinkle_StreamOffset_V3,
	ComputeFlexedVertexWrinkle_StreamOffset_V3,
	ComputeFlexedVertexWrinkle_StreamOffset_V4,
	ComputeFlexedVertexWrinkle_StreamOffset_V4,
	ComputeFlexedVertexWrinkle_StreamOffset_V4,
	ComputeFlexedVertexWrinkle_StreamOffset_V7
};


inline float Diff(const CachedPosNorm_t&a, const CachedPosNorm_t&b)
{
	return a.m_Position.DistTo(b.m_Position) + a.m_Normal.DistTo(b.m_Normal);
}

bool g_bBreakOnAssert = true;
void AlwaysAssert(bool mustBeTrue)
{
	if(!mustBeTrue)
	{
		Plat_DebugString("AlwaysAssert\n");
		if(g_bBreakOnAssert)
			DebugBreak();
	}
}

#endif

template
void CCachedRenderData::ComputeFlexedVertex_StreamOffset<mstudiovertanim_t>( studiohdr_t *pStudioHdr, mstudioflex_t *pflex, 
														 mstudiovertanim_t *pvanim, int vertCount, float w1, float w2, float w3, float w4 );
template
void CCachedRenderData::ComputeFlexedVertex_StreamOffset<mstudiovertanim_wrinkle_t>( studiohdr_t *pStudioHdr, mstudioflex_t *pflex, 
														 mstudiovertanim_wrinkle_t *pvanim, int vertCount, float w1, float w2, float w3, float w4 );

// vectorized
void CCachedRenderData::ComputeFlexedVertex_StreamOffset_Optimized( studiohdr_t *pStudioHdr, mstudioflex_t *pflex, mstudiovertanim_t *pvanim, int vertCount, float w1, float w2, float w3, float w4 )
{
#if PROFILE_THIS_FILE
	CMiniProfilerGuard mpguard(&g_mp_morph);
#endif
#ifdef _X360
	int nMorphPath = g_cv_morph_path.GetInt();
	if(nMorphPath)
	{
		mstudiovertanim_t vertCountStruct;
		vertCountStruct.index = vertCount;
		/*for(uint32 i = 1; i< pflex->numverts; ++i)
		if(pvanim[i-1].index > pvanim[i].index)
		DebugBreak();*/

		mstudiovertanim_t * pVertEnd;
		{
#if PROFILE_THIS_FILE
			CMiniProfilerGuard mpguard_lower_bound(&g_mp_morph_lower_bound);
#endif
			pVertEnd = std::lower_bound(pvanim, pvanim + pflex->numverts, vertCountStruct, mstudiovertanim_t::CSortByIndex());
		}

		if(pvanim < pVertEnd)
		{
			union
			{
				fltx4 f4;
				float f1[4];
			} weights;
			weights.f1[0] = w1;
			weights.f1[1] = w2;
			weights.f1[2] = w3;
			weights.f1[3] = w4;
			uint32 nCurrentTag = uint32(m_CurrentTag)<<16;
			int nThinFlexVertexCount =  m_ThinFlexVertexCount;
			int32 *pFirstThinFlexIndex = (int32*)m_pFirstThinFlexIndex;
			CachedPosNorm_t *pThinFlexVerts = m_pThinFlexVerts;
			uint64 numVertsToProcess = pVertEnd - pvanim;
			nMorphPath = MIN(7,nMorphPath);

			/*static int maxVertsSaved = 0;
			if(numVertsToProcess > maxVertsSaved)
			{
				maxVertsSaved = numVertsToProcess;
				
				FileHandle_t fh = g_pFullFileSystem->Open( "vertices.bin", "wb" );
				if(fh != FILESYSTEM_INVALID_HANDLE)
				{
					g_pFullFileSystem->Write(pvanim, sizeof(*pvanim) * numVertsToProcess, fh);
					g_pFullFileSystem->Close(fh);
				}
			}*/


#ifdef _DEBUG
			if(0 == g_cv_morph_debug.GetInt())
#endif
			{
				for(uint32 i = 0; i < 2; ++i) // reset the first 2 positions here as it's required by the algorithm..
				{
					pThinFlexVerts[nThinFlexVertexCount+i].m_Position.InitZero();
					pThinFlexVerts[nThinFlexVertexCount+i].m_Normal.InitZero();
				}
				nThinFlexVertexCount = g_fn_ComputeFlexedVertex_StreamOffset[nMorphPath](nThinFlexVertexCount,pThinFlexVerts,pFirstThinFlexIndex,pvanim,nCurrentTag, numVertsToProcess, weights.f4);
			}
#ifdef _DEBUG
			else // Validation path inactive in release, since these static arrays consume 1MB
			{
				bool repeat = false;
				static CachedPosNorm_t backupThinFlexVerts[MAXSTUDIOFLEXVERTS+1], checkThinFlexVerts[MAXSTUDIOFLEXVERTS+1];
				static CacheIndex_t	backupFirstThinFlexIndex[MAXSTUDIOVERTS+1],checkFirstThinFlexIndex[MAXSTUDIOVERTS+1];
				int newThinFlexVertexCount ;
				static int numRuns = 0;
				++numRuns;
				memcpy(backupThinFlexVerts, m_pThinFlexVerts, sizeof(m_pThinFlexVerts));
				memcpy(backupFirstThinFlexIndex, m_pThinFlexIndex, sizeof(m_pThinFlexIndex));
				do
				{
					for(uint32 i = 0; i < 2; ++i) // reset the first 2 positions here as it's required by the algorithm..
					{
						pThinFlexVerts[nThinFlexVertexCount+i].m_Position.InitZero();
						pThinFlexVerts[nThinFlexVertexCount+i].m_Normal.InitZero();
					}

					newThinFlexVertexCount = g_fn_ComputeFlexedVertex_StreamOffset[nMorphPath](nThinFlexVertexCount,pThinFlexVerts,pFirstThinFlexIndex,pvanim,nCurrentTag, numVertsToProcess, weights.f4);
					memcpy(checkThinFlexVerts, m_pThinFlexVerts, sizeof(m_pThinFlexVerts));
					memcpy(checkFirstThinFlexIndex, m_pThinFlexIndex, sizeof(m_pThinFlexIndex));
					memcpy(m_pThinFlexVerts, backupThinFlexVerts, sizeof(m_pThinFlexVerts));
					memcpy(m_pThinFlexIndex, backupFirstThinFlexIndex, sizeof(m_pThinFlexIndex));

					ComputeFlexedVertex_StreamOffset( pStudioHdr, pflex, pvanim, vertCount, w1, w2, w3, w4);
					AlwaysAssert(m_ThinFlexVertexCount == newThinFlexVertexCount);
					for(int i = 0; i < newThinFlexVertexCount; ++i)
						AlwaysAssert(Diff(checkThinFlexVerts[i], m_pThinFlexVerts[i]) < 1e-5f);
					int indexOffset = m_pFirstThinFlexIndex - m_pThinFlexIndex;
					for(int i = 0; i < numVertsToProcess; ++i)
						AlwaysAssert(*(int*)&checkFirstThinFlexIndex[indexOffset + pvanim[i].index]  == *(int*)&m_pThinFlexIndex[indexOffset + pvanim[i].index]);

					if(repeat)
					{
						m_ThinFlexVertexCount = nThinFlexVertexCount;
						memcpy(m_pThinFlexVerts, backupThinFlexVerts, sizeof(m_pThinFlexVerts));
						memcpy(m_pThinFlexIndex, backupFirstThinFlexIndex, sizeof(m_pThinFlexIndex));
					}
				}
				while(repeat);
				nThinFlexVertexCount = newThinFlexVertexCount;
			}
#endif
			m_ThinFlexVertexCount = nThinFlexVertexCount;
		}
	}
	else
#endif
	{
		ComputeFlexedVertex_StreamOffset( pStudioHdr, pflex, pvanim, vertCount, w1, w2, w3, w4);
	}
}


void CCachedRenderData::ComputeFlexedVertexWrinkle_StreamOffset_Optimized( studiohdr_t *pStudioHdr, mstudioflex_t *pflex, mstudiovertanim_wrinkle_t *pvanim, int vertCount, float w1, float w2, float w3, float w4)
{
#if PROFILE_THIS_FILE
	CMiniProfilerGuard mpguard(&g_mp_morph);
#endif

#ifdef _X360
	int nMorphPath = g_cv_morph_path.GetInt();
	if(nMorphPath)
	{
		mstudiovertanim_wrinkle_t vertCountStruct;
		vertCountStruct.index = vertCount;

		mstudiovertanim_wrinkle_t * pVertEnd;
		{
#if PROFILE_THIS_FILE
			CMiniProfilerGuard mpguard_lower_bound(&g_mp_morph_lower_bound);
#endif
			pVertEnd = std::lower_bound(pvanim, pvanim + pflex->numverts, vertCountStruct, mstudiovertanim_wrinkle_t::CSortByIndex());
		}

		if(pvanim < pVertEnd)
		{
			union
			{
				fltx4 f4;
				float f1[4];
			} weights;
			weights.f1[0] = w1;
			weights.f1[1] = w2;
			weights.f1[2] = w3;
			weights.f1[3] = w4;
			uint32 nCurrentTag = uint32(m_CurrentTag)<<16;
			int nThinFlexVertexCount =  m_ThinFlexVertexCount;
			int32 *pFirstThinFlexIndex = (int32*)m_pFirstThinFlexIndex;
			CachedPosNorm_t *pThinFlexVerts = m_pThinFlexVerts;
			uint64 numVertsToProcess = pVertEnd - pvanim;
			nMorphPath = MIN(7,nMorphPath);

#ifdef _DEBUG
			if(0 == g_cv_morph_debug.GetInt())
#endif
			{
				for(uint32 i = 0; i < 2; ++i) // reset the first 2 positions here as it's required by the algorithm..
				{
					pThinFlexVerts[nThinFlexVertexCount+i].m_Position.InitZero();
					pThinFlexVerts[nThinFlexVertexCount+i].m_Normal.InitZero();
				}
				nThinFlexVertexCount = g_fn_ComputeFlexedVertexWrinkle_StreamOffset[nMorphPath](nThinFlexVertexCount,pThinFlexVerts,pFirstThinFlexIndex,pvanim,nCurrentTag, numVertsToProcess, weights.f4);
			}
#ifdef _DEBUG
			else // Validation path inactive in release, since these static arrays consume 1MB
			{
				bool repeat = false;
				static CachedPosNorm_t backupThinFlexVerts[MAXSTUDIOFLEXVERTS+1], checkThinFlexVerts[MAXSTUDIOFLEXVERTS+1];
				static CacheIndex_t	backupFirstThinFlexIndex[MAXSTUDIOVERTS+1],checkFirstThinFlexIndex[MAXSTUDIOVERTS+1];
				int newThinFlexVertexCount ;
				static int numRuns = 0;
				++numRuns;
				memcpy(backupThinFlexVerts, m_pThinFlexVerts, sizeof(m_pThinFlexVerts));
				memcpy(backupFirstThinFlexIndex, m_pThinFlexIndex, sizeof(m_pThinFlexIndex));
				do
				{
					for(uint32 i = 0; i < 2; ++i) // reset the first 2 positions here as it's required by the algorithm..
					{
						pThinFlexVerts[nThinFlexVertexCount+i].m_Position.InitZero();
						pThinFlexVerts[nThinFlexVertexCount+i].m_Normal.InitZero();
					}

					newThinFlexVertexCount = g_fn_ComputeFlexedVertexWrinkle_StreamOffset[nMorphPath](nThinFlexVertexCount,pThinFlexVerts,pFirstThinFlexIndex,pvanim,nCurrentTag, numVertsToProcess, weights.f4);
					memcpy(checkThinFlexVerts, m_pThinFlexVerts, sizeof(m_pThinFlexVerts));
					memcpy(checkFirstThinFlexIndex, m_pThinFlexIndex, sizeof(m_pThinFlexIndex));
					memcpy(m_pThinFlexVerts, backupThinFlexVerts, sizeof(m_pThinFlexVerts));
					memcpy(m_pThinFlexIndex, backupFirstThinFlexIndex, sizeof(m_pThinFlexIndex));

					ComputeFlexedVertex_StreamOffset( pStudioHdr, pflex, pvanim, vertCount, w1, w2, w3, w4);
					AlwaysAssert(m_ThinFlexVertexCount == newThinFlexVertexCount);
					for(int i = 0; i < newThinFlexVertexCount; ++i)
						AlwaysAssert(Diff(checkThinFlexVerts[i], m_pThinFlexVerts[i]) < 1e-5f);
					int indexOffset = m_pFirstThinFlexIndex - m_pThinFlexIndex;
					for(int i = 0; i < numVertsToProcess; ++i)
						AlwaysAssert(*(int*)&checkFirstThinFlexIndex[indexOffset + pvanim[i].index]  == *(int*)&m_pThinFlexIndex[indexOffset + pvanim[i].index]);

					if(repeat)
					{
						m_ThinFlexVertexCount = nThinFlexVertexCount;
						memcpy(m_pThinFlexVerts, backupThinFlexVerts, sizeof(m_pThinFlexVerts));
						memcpy(m_pThinFlexIndex, backupFirstThinFlexIndex, sizeof(m_pThinFlexIndex));
					}
				}
				while(repeat);
				nThinFlexVertexCount = newThinFlexVertexCount;
			}
#endif
			m_ThinFlexVertexCount = nThinFlexVertexCount;
		}
	}
	else
#endif
	{
		ComputeFlexedVertex_StreamOffset( pStudioHdr, pflex, pvanim, vertCount, w1, w2, w3, w4);
	}
}