windows-xp/Source/XPSP1/NT/shell/shell32/tngen/mffst.cpp


								#include "stdafx.h"

								#pragma  hdrstop


								/***************************************************************************

								*

								*                INTEL Corporation Proprietary Information

								*

								*

								*                  Copyright (c) 1996 Intel Corporation.

								*                         All rights reserved.

								*

								***************************************************************************

								*/

								/*

								 * jfdctfst.c

								 *

								 * Copyright (C) 1994-1996, Thomas G. Lane.

								 * This file is part of the Independent JPEG Group's software.

								 * For conditions of distribution and use, see the accompanying README file.

								 *

								 * This file contains a fast, not so accurate integer implementation of the

								 * forward DCT (Discrete Cosine Transform).

								 *

								 * A 2-D DCT can be done by 1-D DCT on each row followed by 1-D DCT

								 * on each column.  Direct algorithms are also available, but they are

								 * much more complex and seem not to be any faster when reduced to code.

								 *

								 * This implementation is based on Arai, Agui, and Nakajima's algorithm for

								 * scaled DCT.  Their original paper (Trans. IEICE E-71(11):1095) is in

								 * Japanese, but the algorithm is described in the Pennebaker & Mitchell

								 * JPEG textbook (see REFERENCES section in file README).  The following code

								 * is based directly on figure 4-8 in P&M.

								 * While an 8-point DCT cannot be done in less than 11 multiplies, it is

								 * possible to arrange the computation so that many of the multiplies are

								 * simple scalings of the final outputs.  These multiplies can then be

								 * folded into the multiplications or divisions by the JPEG quantization

								 * table entries.  The AA&N method leaves only 5 multiplies and 29 adds

								 * to be done in the DCT itself.

								 * The primary disadvantage of this method is that with fixed-point math,

								 * accuracy is lost due to imprecise representation of the scaled

								 * quantization values.  The smaller the quantization table entry, the less

								 * precise the scaled value, so this implementation does worse with high-

								 * quality-setting files than with low-quality ones.

								 */


								#define JPEG_INTERNALS

								#include "jinclude.h"

								#include "jpeglib.h"

								#include "jdct.h"		/* Private declarations for DCT subsystem */


								#ifdef DCT_IFAST_SUPPORTED


								/*

								 * This module is specialized to the case DCTSIZE = 8.

								 */


								#if DCTSIZE != 8

								  Sorry, this code only copes with 8x8 DCTs. /* deliberate syntax err */

								#endif


								/* Scaling decisions are generally the same as in the LL&M algorithm;

								 * see jfdctint.c for more details.  However, we choose to descale

								 * (right shift) multiplication products as soon as they are formed,

								 * rather than carrying additional fractional bits into subsequent additions.

								 * This compromises accuracy slightly, but it lets us save a few shifts.

								 * More importantly, 16-bit arithmetic is then adequate (for 8-bit samples)

								 * everywhere except in the multiplications proper; this saves a good deal

								 * of work on 16-bit-int machines.

								 *

								 * Again to save a few shifts, the intermediate results between pass 1 and

								 * pass 2 are not upscaled, but are represented only to integral precision.

								 *

								 * A final compromise is to represent the multiplicative constants to only

								 * 8 fractional bits, rather than 13.  This saves some shifting work on some

								 * machines, and may also reduce the cost of multiplication (since there

								 * are fewer one-bits in the constants).

								 */


								#define CONST_BITS  8


								/* Some C compilers fail to reduce "FIX(constant)" at compile time, thus

								 * causing a lot of useless floating-point operations at run time.

								 * To get around this we use the following pre-calculated constants.

								 * If you change CONST_BITS you may want to add appropriate values.

								 * (With a reasonable C compiler, you can just rely on the FIX() macro...)

								 */


								#if CONST_BITS == 8

								#define FIX_0_382683433				 98		/* FIX(0.382683433) */

								#define FIX_0_541196100				139		/* FIX(0.541196100) */

								#define FIX_0_707106781				181		/* FIX(0.707106781) */

								#define FIX_1_306562965				334		/* FIX(1.306562965) */

								#else

								#define FIX_0_382683433  FIX(0.382683433)

								#define FIX_0_541196100  FIX(0.541196100)

								#define FIX_0_707106781  FIX(0.707106781)

								#define FIX_1_306562965  FIX(1.306562965)

								#endif


								//The following constant is shifted left 8 for the pmulhw instruction

								const __int64 Const_FIX_0_382683433	=	0x6200620062006200;


								  //The following constants are shifted left 7 for the pmulhw instruction

								const __int64 Const_FIX_0_541196100	=	0x4580458045804580;

								const __int64 Const_FIX_0_707106781	=	0x5a805a805a805a80;


								//The following constant is shifted left 6 for the pmulhw instruction

								const __int64 Const_FIX_1_306562965	=	0x5380538053805380;


								/* We can gain a little more speed, with a further compromise in accuracy,

								 * by omitting the addition in a descaling shift.  This yields an incorrectly

								 * rounded result half the time...

								 */


								// The assembly version makes this compromise.


								//#ifndef USE_ACCURATE_ROUNDING

								//#undef DESCALE

								//#define DESCALE(x,n)  RIGHT_SHIFT(x, n)

								//#endif


								#define	DATASIZE	32


								/* Multiply a DCTELEM variable by an INT32 constant, and immediately

								 * descale to yield a DCTELEM result.

								 */


								#define MULTIPLY(var,const)  ((DCTELEM) DESCALE((var) * (const), CONST_BITS))


								/*

								 * Perform the forward DCT on one block of samples.

								 */


								GLOBAL(void)

								mfdct8x8aan (DCTELEM * data)

								{


								__asm{


										mov		edi, [data]


									// transpose the bottom right quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------

									// Get the 32-bit quantities and pack into 16 bits


										movq	mm5, [edi][DATASIZE*4+16]		//| w41 | w40 |


										movq	mm3, [edi][DATASIZE*4+24]		//| w43 | w42 |


										movq	mm6, [edi][DATASIZE*5+16]

										packssdw mm5, mm3				//|w43|w42|w41|w40|


										movq	mm7, [edi][DATASIZE*5+24]

										movq		mm4, mm5			// copy w4---0,1,3,5,6


										movq	mm3, [edi][DATASIZE*6+16]

										packssdw mm6, mm7


										movq	mm2, [edi][DATASIZE*6+24]

										punpcklwd	mm5, mm6			//mm6 = w5


										movq	mm1, [edi][DATASIZE*7+16]

										packssdw mm3, mm2


										movq	mm0, [edi][DATASIZE*7+24]

										punpckhwd	mm4, mm6			//---0,1,3,5,6


										packssdw mm1, mm0

										movq		mm7, mm3			//---0,1,2,3,5,6 w6


										punpcklwd	mm3, mm1			//mm1 = w7

										movq		mm0, mm5			//---0,2,3,4,5,6,7


										movq	mm2, [edi][DATASIZE*4]	//| w01 | w00 |

										punpckhdq	mm0, mm3			// transposed w5---0,2,4,6,7


										punpckhwd	mm7, mm1			//---0,2,3,5,6,7


										movq	mm1, [edi][DATASIZE*5+8]

										movq		mm6, mm4			//---0,2,3,4,6,7


										movq	[edi][DATASIZE*5+16], mm0  // store w5

										punpckldq	mm5, mm3			// transposed w4


										movq	mm3, [edi][DATASIZE*5]

										punpckldq	mm4, mm7			// transposed w6


										movq	mm0, [edi][DATASIZE*4+8]  //| w03 | w02 |

										punpckhdq	mm6, mm7			// transposed w7---0,3,6,7


									// transpose the bottom left quadrant(4X4) of the matrix and place

									// in the top right quadrant while doing the same for the top

									// right quadrant

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


										movq	[edi][DATASIZE*4+16], mm5  // store w4

										packssdw mm2, mm0				//|w03|w02|w01|w00|


										movq	mm5, [edi][DATASIZE*7]

										packssdw mm3, mm1


										movq	mm0, [edi][DATASIZE*7+8]


										movq	[edi][DATASIZE*7+16], mm6  // store w7---5,6,7

										packssdw mm5, mm0


										movq	mm6, [edi][DATASIZE*6]

										movq		mm0, mm2			// copy w0---0,1,3,5,6


										movq	mm7, [edi][DATASIZE*6+8]

										punpcklwd	mm2, mm3			//mm6 = w1


										movq	[edi][DATASIZE*6+16], mm4  // store w6---3,5,6,7

										packssdw mm6, mm7


										movq		mm1, [edi][DATASIZE*0+24]

										punpckhwd	mm0, mm3			//---0,1,3,5,6


										movq		mm7, mm6			//---0,1,2,3,5,6 w2

										punpcklwd	mm6, mm5			//mm1 = w3


										movq		mm3, [edi][DATASIZE*0+16]

										punpckhwd	mm7, mm5			//---0,2,3,5,6,7


										movq		mm4, [edi][DATASIZE*2+24]

										packssdw	mm3, mm1


										movq		mm1, mm2			//---0,2,3,4,5,6,7

										punpckldq	mm2, mm6			// transposed w4


										movq		mm5, [edi][DATASIZE*2+16]

										punpckhdq	mm1, mm6			// transposed w5---0,2,4,6,7


										movq	[edi][DATASIZE*0+16], mm2  // store w4

								 		packssdw	mm5, mm4


										movq		mm4, [edi][DATASIZE*1+16]

										movq		mm6, mm0			//---0,2,3,4,6,7


										movq		mm2, [edi][DATASIZE*1+24]

										punpckldq	mm0, mm7			// transposed w6


										movq	[edi][DATASIZE*1+16], mm1  // store w5

										punpckhdq	mm6, mm7			// transposed w7---0,3,6,7


										movq		mm7, [edi][DATASIZE*3+24]

										packssdw	mm4, mm2


										movq	[edi][DATASIZE*2+16], mm0  // store w6---3,5,6,7

										movq		mm1, mm3			// copy w4---0,1,3,5,6


										movq		mm2, [edi][DATASIZE*3+16]

										punpcklwd	mm3, mm4			//mm6 = w5


										movq	[edi][DATASIZE*3+16], mm6  // store w7---5,6,7

										packssdw	mm2, mm7


									// transpose the bottom left quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


								   		movq	mm6, [edi][DATASIZE*0]	//| w01 | w00 |

										punpckhwd	mm1, mm4			//---0,1,3,5,6


										movq		mm7, mm5			//---0,1,2,3,5,6 w6

										punpcklwd	mm5, mm2			//mm1 = w7


										movq	mm4, [edi][DATASIZE*0+8]		//| w03 | w02 |

										punpckhwd	mm7, mm2			//---0,2,3,5,6,7


										movq		mm0, mm3			//---0,2,3,4,5,6,7

										packssdw mm6, mm4				//|w03|w02|w01|w00|


										movq	mm2, [edi][DATASIZE*2+8]

										punpckldq	mm3, mm5			// transposed w4


										movq	mm4, [edi][DATASIZE*1]

										punpckhdq	mm0, mm5			// transposed w5---0,2,4,6,7


										movq	[edi][DATASIZE*4], mm3  // store w4

										movq		mm5, mm1			//---0,2,3,4,6,7


										movq	mm3, [edi][DATASIZE*2]

										punpckldq	mm1, mm7			// transposed w6


										movq	[edi][DATASIZE*5], mm0  // store w5

										punpckhdq	mm5, mm7			// transposed w7---0,3,6,7


										movq	mm7, [edi][DATASIZE*1+8]

										packssdw mm3, mm2


										movq	[edi][DATASIZE*7], mm5  // store w7---5,6,7

										movq		mm5, mm6			// copy w0---0,1,3,5,6


										movq	[edi][DATASIZE*6], mm1  // store w6---3,5,6,7

										packssdw mm4, mm7


									// transpose the top left quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


									// Get the 32-bit quantities and pack into 16 bits

										movq	mm1, [edi][DATASIZE*3]

										punpcklwd	mm6, mm4			//mm6 = w1


										movq	mm0, [edi][DATASIZE*3+8]

										punpckhwd	mm5, mm4			//---0,1,3,5,6


										packssdw mm1, mm0

										movq		mm2, mm3			//---0,1,2,3,5,6 w2


										punpcklwd	mm3, mm1			//mm1 = w3

										movq		mm0, mm6			//---0,2,3,4,5,6,7


										movq		mm4, [edi][DATASIZE*7]

										punpckhwd	mm2, mm1			//---0,2,3,5,6,7


										movq		mm1, [edi][DATASIZE*4]

										punpckldq	mm6, mm3			// transposed w4


										punpckhdq	mm0, mm3			// transposed w5---0,2,4,6,7

										movq		mm3, mm5			//---0,2,3,4,6,7


										movq	[edi][DATASIZE*0], mm6  // store w4

										punpckldq	mm5, mm2			// transposed w6


										movq	[edi][DATASIZE*1], mm0  // store w5

										punpckhdq	mm3, mm2			// transposed w7---0,3,6,7


										movq	[edi][DATASIZE*2], mm5  // store w6---3,5,6,7

										paddw	mm6, mm4				// tmp0


										movq	[edi][DATASIZE*3], mm3  // store w7---5,6,7

										movq	mm7, mm6


									//******************************************************************************

									// End of transpose.  Begin row dct.

									//******************************************************************************


								//	tmp0 = dataptr[0] + dataptr[7];

								//	tmp7 = dataptr[0] - dataptr[7];

								//	tmp1 = dataptr[1] + dataptr[6];

								//	tmp6 = dataptr[1] - dataptr[6];

								//	tmp2 = dataptr[2] + dataptr[5];

								//	tmp5 = dataptr[2] - dataptr[5];

								//	tmp3 = dataptr[3] + dataptr[4];

								//	tmp4 = dataptr[3] - dataptr[4];


										paddw	mm0, [edi][DATASIZE*6]	// tmp1

										paddw	mm3, mm1				// tmp3


										paddw	mm5, [edi][DATASIZE*5]	// tmp2

										movq	mm1, mm0


								//    tmp10 = tmp0 + tmp3;

								//    tmp13 = tmp0 - tmp3;

								//    tmp11 = tmp1 + tmp2;

								//    tmp12 = tmp1 - tmp2;


										psubw	mm7, mm3				//tmp13

										psubw	mm0, mm5				//tmp12


										paddw	mm0, mm7	//tmp12 + tmp13

										paddw	mm6, mm3				//tmp10


								//    dataptr[0] = tmp10 + tmp11; /* phase 3 */

								//    dataptr[4] = tmp10 - tmp11;

								//    z1 = MULTIPLY(tmp12 + tmp13, FIX_0_707106781); /* c4 */

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										paddw	mm1, mm5				//tmp11

								 		psllw	mm0, 1


										pmulhw	mm0, Const_FIX_0_707106781	// z1

										movq	mm3, mm6


								//    dataptr[2] = tmp13 + z1; /* phase 5 */

								//    dataptr[6] = tmp13 - z1;

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	mm5, [edi][DATASIZE*3]

										paddw	mm6, mm1	//tmp10 + tmp11


									//		tmp4 = dataptr[3] - dataptr[4]//

										psubw	mm5, [edi][DATASIZE*4]	//tmp4

										movq	mm4, mm7


										movq	mm2, [edi][DATASIZE*2]

										psubw	mm3, mm1	//tmp10 - tmp11


										psubw	mm2, [edi][DATASIZE*5]	//tmp5

										paddw	mm7, mm0	//tmp13 + z1


										movq	mm1, [edi][DATASIZE*1]

										psubw	mm4, mm0	//tmp13 - z1


								//    tmp10 = tmp4 + tmp5;	/* phase 2 */

								//    tmp11 = tmp5 + tmp6;

								//    tmp12 = tmp6 + tmp7;


										psubw	mm1, [edi][DATASIZE*6]	//tmp6

										paddw	mm5, mm2	//tmp10


										movq	mm0, [edi][DATASIZE*0]

										paddw	mm2, mm1	//tmp11


								//    z3 = MULTIPLY(tmp11, FIX_0_707106781); /* c4 */

								//    z11 = tmp7 + z3;		/* phase 5 */

								//    z13 = tmp7 - z3;


										psubw	mm0, [edi][DATASIZE*7]	//tmp7

								 		psllw	mm2, 1


										movq	[edi][DATASIZE*0], mm6

										movq	mm6, mm0


										movq	[edi][DATASIZE*2], mm7

										movq	mm7, mm5


										pmulhw	mm2, Const_FIX_0_707106781	//z3

										paddw	mm1, mm0	//tmp12


										movq	[edi][DATASIZE*4], mm3

										psubw	mm5, mm1	//tmp10 - tmp12


										pmulhw	mm5, Const_FIX_0_382683433	//z5

										psllw	mm7, 1


								    /* The rotator is modified from fig 4-8 to avoid extra negations. */

								//    z5 = MULTIPLY(tmp10 - tmp12, FIX_0_382683433); /* c6 */

								//    z2 = MULTIPLY(tmp10, FIX_0_541196100) + z5; /* c2-c6 */

								//    z4 = MULTIPLY(tmp12, FIX_1_306562965) + z5; /* c2+c6 */


										pmulhw	mm7, Const_FIX_0_541196100

										psllw	mm1, 2


										pmulhw	mm1, Const_FIX_1_306562965

										psubw	mm6, mm2	//z13


										movq	[edi][DATASIZE*6], mm4

										paddw	mm0, mm2	//z11


										movq	mm2, [edi][DATASIZE*3+16]

										paddw	mm7, mm5	//z2


										paddw	mm2, [edi][DATASIZE*4+16]	// tmp3

										paddw	mm1, mm5	//z4


								//    dataptr[5] = z13 + z2;	/* phase 6 */

								//    dataptr[3] = z13 - z2;

								//    dataptr[1] = z11 + z4;

								//    dataptr[7] = z11 - z4;


										movq	mm5, [edi][DATASIZE*0+16]

										movq	mm3, mm6


										paddw	mm5, [edi][DATASIZE*7+16]	//tmp0

										paddw	mm6, mm7	//z13 + z2


										psubw	mm3, mm7	//z13 - z2

										movq	mm7, mm5


										movq	[edi][DATASIZE*5], mm6	//store

										movq	mm4, mm0


										movq	[edi][DATASIZE*3], mm3	//store

										paddw	mm0, mm1	//z11 + z4


										movq	mm3, [edi][DATASIZE*1+16]

										psubw	mm4, mm1	//z11 - z4


									//******************************************************************************

									// This completes 4x8 dct locations.  Copy to do other 4x8.

									//******************************************************************************

								//	tmp0 = dataptr[0] + dataptr[7];

								//	tmp7 = dataptr[0] - dataptr[7];

								//	tmp1 = dataptr[1] + dataptr[6];

								//	tmp6 = dataptr[1] - dataptr[6];

								//	tmp2 = dataptr[2] + dataptr[5];

								//	tmp5 = dataptr[2] - dataptr[5];

								//	tmp3 = dataptr[3] + dataptr[4];

								//	tmp4 = dataptr[3] - dataptr[4];


										paddw	mm3, [edi][DATASIZE*6+16]	// tmp1

										paddw	mm5, mm2				//tmp10


										movq	mm1, [edi][DATASIZE*2+16]

										psubw	mm7, mm2				//tmp13


										paddw	mm1, [edi][DATASIZE*5+16]	// tmp2

										movq	mm6, mm3


								//    tmp10 = tmp0 + tmp3;

								//    tmp13 = tmp0 - tmp3;

								//    tmp11 = tmp1 + tmp2;

								//    tmp12 = tmp1 - tmp2;


										paddw	mm3, mm1				//tmp11

										psubw	mm6, mm1				//tmp12


								//    dataptr[0] = tmp10 + tmp11; /* phase 3 */

								//    dataptr[4] = tmp10 - tmp11;

								//    z1 = MULTIPLY(tmp12 + tmp13, FIX_0_707106781); /* c4 */

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	[edi][DATASIZE*1], mm0	//store

										paddw	mm6, mm7	//tmp12 + tmp13


										movq	[edi][DATASIZE*7], mm4	//store

								 		psllw	mm6, 1


								 		pmulhw	mm6, Const_FIX_0_707106781	// z1

										movq	mm1, mm5


								//    dataptr[2] = tmp13 + z1; /* phase 5 */

								//    dataptr[6] = tmp13 - z1;

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	mm2, [edi][DATASIZE*3+16]

										paddw	mm5, mm3	//tmp10 + tmp11


									//		tmp4 = dataptr[3] - dataptr[4]//

										psubw	mm2, [edi][DATASIZE*4+16]	//tmp4

										movq	mm4, mm7


										movq	mm0, [edi][DATASIZE*2+16]

										psubw	mm1, mm3	//tmp10 - tmp11


										psubw	mm0, [edi][DATASIZE*5+16]	//tmp5

										paddw	mm7, mm6	//tmp13 + z1


										movq	mm3, [edi][DATASIZE*1+16]

										psubw	mm4, mm6	//tmp13 - z1


								//    tmp10 = tmp4 + tmp5;	/* phase 2 */

								//    tmp11 = tmp5 + tmp6;

								//    tmp12 = tmp6 + tmp7;


										psubw	mm3, [edi][DATASIZE*6+16]	//tmp6

										paddw	mm2, mm0	//tmp10


										movq	mm6, [edi][DATASIZE*0+16]

										paddw	mm0, mm3	//tmp11


								//    z3 = MULTIPLY(tmp11, FIX_0_707106781); /* c4 */

								//    z11 = tmp7 + z3;		/* phase 5 */

								//    z13 = tmp7 - z3;


										psubw	mm6, [edi][DATASIZE*7+16]	//tmp7

								 		psllw	mm0, 1


										movq	[edi][DATASIZE*0+16], mm5

										movq	mm5, mm6


										movq	[edi][DATASIZE*2+16], mm7

										movq	mm7, mm2


										pmulhw	mm0, Const_FIX_0_707106781	//z3

										paddw	mm3, mm6	//tmp12


										movq	[edi][DATASIZE*4+16], mm1

										psubw	mm2, mm3	//tmp10 - tmp12


										pmulhw	mm2, Const_FIX_0_382683433	//z5

										psllw	mm7, 1


										pmulhw	mm7, Const_FIX_0_541196100

										paddw	mm6, mm0	//z11


								    /* The rotator is modified from fig 4-8 to avoid extra negations. */

								//    z5 = MULTIPLY(tmp10 - tmp12, FIX_0_382683433); /* c6 */

								//    z2 = MULTIPLY(tmp10, FIX_0_541196100) + z5; /* c2-c6 */

								//    z4 = MULTIPLY(tmp12, FIX_1_306562965) + z5; /* c2+c6 */


										movq	[edi][DATASIZE*6+16], mm4

										psllw	mm3, 2


										pmulhw	mm3, Const_FIX_1_306562965

										psubw	mm5, mm0	//z13


										paddw	mm7, mm2	//z2

										movq	mm1, mm5


										paddw	mm5, mm7	//z13 + z2

										psubw	mm1, mm7	//z13 - z2


										movq	mm7, [edi][DATASIZE*4]

										paddw	mm3, mm2	//z4


								//    dataptr[5] = z13 + z2;	/* phase 6 */

								//    dataptr[3] = z13 - z2;

								//    dataptr[1] = z11 + z4;

								//    dataptr[7] = z11 - z4;


										movq	[edi][DATASIZE*5+16], mm5	//store

										movq	mm4, mm6


										movq	mm2, [edi][DATASIZE*7]

										paddw	mm6, mm3	//z11 + z4


										movq	mm5, [edi][DATASIZE*5]

										psubw	mm4, mm3	//z11 - z4


									//******************************************************************************


									//******************************************************************************

									// This completes all 8x8 dct locations for the row case.

									// Now transpose the data for the columns.

									//******************************************************************************

									// transpose the bottom left quadrant(4X4) of the matrix and place

									// in the top right quadrant while doing the same for the top

									// right quadrant

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


										movq		mm0, mm7			// copy w0---0,1,3,5,6

										punpcklwd	mm7, mm5			//mm6 = w1


										movq	mm3, [edi][DATASIZE*6]

										punpckhwd	mm0, mm5			//---0,1,3,5,6


										movq		mm5, mm3			//---0,1,2,3,5,6 w2

										punpcklwd	mm3, mm2			//mm1 = w3


										movq	[edi][DATASIZE*7+16], mm4	//store

										punpckhwd	mm5, mm2			//---0,2,3,5,6,7


										movq		mm4, mm7			//---0,2,3,4,5,6,7

										punpckldq	mm7, mm3			// transposed w4


										movq		mm2, [edi][DATASIZE*0+16]

										punpckhdq	mm4, mm3			// transposed w5---0,2,4,6,7


										movq	[edi][DATASIZE*0+16], mm7  // store w4

										movq		mm3, mm0			//---0,2,3,4,6,7


										movq	[edi][DATASIZE*1+16], mm4  // store w5

										punpckldq	mm0, mm5			// transposed w6


										movq		mm7, [edi][DATASIZE*2+16]

										punpckhdq	mm3, mm5			// transposed w7---0,3,6,7


										movq		mm5, mm2			// copy w4---0,1,3,5,6

										punpcklwd	mm2, mm6			//mm6 = w5


									// transpose the top right quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


										movq	[edi][DATASIZE*2+16], mm0  // store w6---3,5,6,7

										punpckhwd	mm5, mm6			//---0,1,3,5,6


										movq		mm4, mm7			//---0,1,2,3,5,6 w6

										punpckhwd	mm7, mm1			//---0,2,3,5,6,7


										movq	[edi][DATASIZE*3+16], mm3  // store w7---5,6,7

										movq		mm0, mm2			//---0,2,3,4,5,6,7


										movq	mm6, [edi][DATASIZE*5+16]

										punpcklwd	mm4, mm1			//mm1 = w7


										movq	mm1, [edi][DATASIZE*4+16]

										punpckldq	mm0, mm4			// transposed w4


										movq	mm3, [edi][DATASIZE*6+16]

										punpckhdq	mm2, mm4			// transposed w5---0,2,4,6,7


									// transpose the bottom right quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


										movq	[edi][DATASIZE*4], mm0  // store w4

										movq		mm4, mm5			//---0,2,3,4,6,7


										movq	[edi][DATASIZE*5], mm2  // store w5

										punpckldq	mm5, mm7			// transposed w6


										movq	mm2, [edi][DATASIZE*7+16]

										punpckhdq	mm4, mm7			// transposed w7---0,3,6,7


										movq		mm7, mm1			// copy w4---0,1,3,5,6

										punpcklwd	mm1, mm6			//mm6 = w5


										movq	[edi][DATASIZE*6], mm5  // store w6---3,5,6,7

										punpckhwd	mm7, mm6			//---0,1,3,5,6


										movq		mm5, mm3			//---0,1,2,3,5,6 w6

										punpcklwd	mm3, mm2			//mm1 = w7


										movq	[edi][DATASIZE*7], mm4  // store w7---5,6,7

										punpckhwd	mm5, mm2			//---0,2,3,5,6,7


										movq	mm0, [edi][DATASIZE*0]

										movq		mm4, mm1			//---0,2,3,4,5,6,7


										movq	mm6, [edi][DATASIZE*1]

										punpckldq	mm1, mm3			// transposed w4


										punpckhdq	mm4, mm3			// transposed w5---0,2,4,6,7

										movq		mm3, mm7			//---0,2,3,4,6,7


										movq	[edi][DATASIZE*4+16], mm1  // store w4

										punpckldq	mm7, mm5			// transposed w6


										movq	[edi][DATASIZE*5+16], mm4  // store w5

										punpckhdq	mm3, mm5			// transposed w7---0,3,6,7


									// transpose the top left quadrant(4X4) of the matrix

									//  ---------       ---------

									// | M1 | M2 |     | M1'| M3'|

									//  ---------  -->  ---------

									// | M3 | M4 |     | M2'| M4'|

									//  ---------       ---------


										movq	mm1, [edi][DATASIZE*3]

										movq		mm2, mm0			// copy w0---0,1,3,5,6


										movq	[edi][DATASIZE*7+16], mm3  // store w7---5,6,7

										punpcklwd	mm0, mm6			//mm6 = w1


										movq	mm3, [edi][DATASIZE*2]

										punpckhwd	mm2, mm6			//---0,1,3,5,6


										movq		mm5, mm3			//---0,1,2,3,5,6 w2

										punpcklwd	mm3, mm1			//mm1 = w3


										movq	[edi][DATASIZE*6+16], mm7  // store w6---3,5,6,7

										punpckhwd	mm5, mm1			//---0,2,3,5,6,7


										movq		mm1, mm0			//---0,2,3,4,5,6,7

										punpckldq	mm0, mm3			// transposed w4


										movq		mm6, [edi][DATASIZE*4]

										punpckhdq	mm1, mm3			// transposed w5---0,2,4,6,7


								 		movq	[edi][DATASIZE*0], mm0  // store w4

										movq		mm3, mm2			//---0,2,3,4,6,7


										paddw	mm0, [edi][DATASIZE*7]	// tmp0

										punpckhdq	mm3, mm5			// transposed w7---0,3,6,7


										movq	[edi][DATASIZE*1], mm1  // store w5

										punpckldq	mm2, mm5			// transposed w6


									//******************************************************************************

									// This begins the column dct

									//******************************************************************************


								//	tmp0 = dataptr[0] + dataptr[7];

								//	tmp7 = dataptr[0] - dataptr[7];

								//	tmp1 = dataptr[1] + dataptr[6];

								//	tmp6 = dataptr[1] - dataptr[6];

								//	tmp2 = dataptr[2] + dataptr[5];

								//	tmp5 = dataptr[2] - dataptr[5];

								//	tmp3 = dataptr[3] + dataptr[4];

								//	tmp4 = dataptr[3] - dataptr[4];


										movq	[edi][DATASIZE*3], mm3  // store w7---5,6,7

										movq	mm7, mm0


										paddw	mm1, [edi][DATASIZE*6]	// tmp1

										paddw	mm3, mm6	// tmp3


										movq	[edi][DATASIZE*2], mm2  // store w6---3,5,6,7

										paddw	mm0, mm3				//tmp10


										paddw	mm2, [edi][DATASIZE*5]	// tmp2

										movq	mm6, mm1


								//    tmp10 = tmp0 + tmp3;

								//    tmp13 = tmp0 - tmp3;

								//    tmp11 = tmp1 + tmp2;

								//    tmp12 = tmp1 - tmp2;


										psubw	mm7, mm3				//tmp13

										movq	mm3, mm0


										movq	mm5, [edi][DATASIZE*2]

										paddw	mm1, mm2				//tmp11


										psubw	mm3, mm1	//tmp10 - tmp11

										paddw	mm0, mm1	//tmp10 + tmp11


								//    dataptr[0] = tmp10 + tmp11; /* phase 3 */

								//    dataptr[4] = tmp10 - tmp11;

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	mm1, mm3

										punpcklwd mm3, mm3


										psubw	mm6, mm2				//tmp12

										punpckhwd mm1, mm1


										movq	mm2, [edi][DATASIZE*3]

										psrad	mm3, 16


									//		tmp4 = dataptr[3] - dataptr[4]//

										psubw	mm2, [edi][DATASIZE*4]	//tmp4

										psrad	mm1, 16


										movq	[edi][DATASIZE*4], mm3

										movq	mm3, mm0


										movq	[edi][DATASIZE*4+8], mm1

										punpcklwd mm0, mm0


										paddw	mm6, mm7	//tmp12 + tmp13

										punpckhwd mm3, mm3


										movq	mm1, [edi][DATASIZE*1]

										psllw	mm6, 1


								 		pmulhw	mm6, Const_FIX_0_707106781	// z1

								 		psrad	mm3, 16


										psubw	mm5, [edi][DATASIZE*5]	//tmp5

										psrad	mm0, 16


								//    z1 = MULTIPLY(tmp12 + tmp13, FIX_0_707106781); /* c4 */

								//    dataptr[2] = tmp13 + z1; /* phase 5 */

								//    dataptr[6] = tmp13 - z1;

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	[edi][DATASIZE*0+8], mm3

										movq	mm4, mm7


										movq	mm3, [edi][DATASIZE*0]

										paddw	mm7, mm6	//tmp13 + z1


										movq	[edi][DATASIZE*0], mm0

										psubw	mm4, mm6	//tmp13 - z1


										movq	mm0, mm7

										punpcklwd mm7, mm7


										psubw	mm1, [edi][DATASIZE*6]	//tmp6

										punpckhwd mm0, mm0


								//    tmp10 = tmp4 + tmp5;	/* phase 2 */

								//    tmp11 = tmp5 + tmp6;

								//    tmp12 = tmp6 + tmp7;


										psrad	mm7, 16

										paddw	mm2, mm5	//tmp10


										psrad	mm0, 16

										paddw	mm5, mm1	//tmp11


										movq	mm6, mm4

										punpcklwd mm4, mm4


										movq	[edi][DATASIZE*2], mm7

										punpckhwd mm6, mm6


										psubw	mm3, [edi][DATASIZE*7]	//tmp7

										movq	mm7, mm2


								//    z3 = MULTIPLY(tmp11, FIX_0_707106781); /* c4 */

								//    z11 = tmp7 + z3;		/* phase 5 */

								//    z13 = tmp7 - z3;


										movq	[edi][DATASIZE*2+8], mm0

										movq	mm0, mm3


								 		psllw	mm5, 1

										paddw	mm1, mm3	//tmp12


										pmulhw	mm5, Const_FIX_0_707106781	//z3

										psrad	mm4, 16


										psubw	mm2, mm1	//tmp10 - tmp12

										psrad	mm6, 16


								    /* The rotator is modified from fig 4-8 to avoid extra negations. */

								//    z5 = MULTIPLY(tmp10 - tmp12, FIX_0_382683433); /* c6 */

								//    z2 = MULTIPLY(tmp10, FIX_0_541196100) + z5; /* c2-c6 */

								//    z4 = MULTIPLY(tmp12, FIX_1_306562965) + z5; /* c2+c6 */


										pmulhw	mm2, Const_FIX_0_382683433	//z5

										psllw	mm7, 1


										pmulhw	mm7, Const_FIX_0_541196100

										psllw	mm1, 2


										pmulhw	mm1, Const_FIX_1_306562965

										psubw	mm0, mm5	//z13


										movq	[edi][DATASIZE*6+8], mm6

										movq	mm6, mm0


										movq	[edi][DATASIZE*6], mm4

										paddw	mm7, mm2	//z2


								//    dataptr[5] = z13 + z2;	/* phase 6 */

								//    dataptr[3] = z13 - z2;

								//    dataptr[1] = z11 + z4;

								//    dataptr[7] = z11 - z4;


										paddw	mm0, mm7	//z13 + z2

										psubw	mm6, mm7	//z13 - z2


										movq	mm7, mm6

										punpcklwd mm6, mm6


										punpckhwd mm7, mm7

										paddw	mm3, mm5	//z11


										movq	mm5, mm0

										punpcklwd mm0, mm0


										psrad	mm6, 16

										movq	mm4, mm3


										psrad	mm7, 16

										paddw	mm1, mm2	//z4


										punpckhwd mm5, mm5

										paddw	mm3, mm1	//z11 + z4


										psrad	mm0, 16

										psubw	mm4, mm1	//z11 - z4


										movq	[edi][DATASIZE*3], mm6	//store

										psrad	mm5, 16


										movq	mm6, [edi][DATASIZE*1+16]

										movq	mm1, mm3


										paddw	mm6, [edi][DATASIZE*6+16]	// tmp1

										punpcklwd mm3, mm3


										movq	[edi][DATASIZE*3+8], mm7

										punpckhwd mm1, mm1


										movq	[edi][DATASIZE*5], mm0	//store

										psrad	mm3, 16


										movq	[edi][DATASIZE*5+8], mm5

										psrad	mm1, 16


										movq	mm0, [edi][DATASIZE*0+16]

										movq	mm7, mm4


										paddw	mm0, [edi][DATASIZE*7+16]	//tmp0

										punpcklwd mm4, mm4


										movq	[edi][DATASIZE*1], mm3	//store

										punpckhwd mm7, mm7


										movq	[edi][DATASIZE*1+8], mm1

										psrad	mm4, 16


										movq	mm3, [edi][DATASIZE*3+16]

										psrad	mm7, 16


									//******************************************************************************

									// This completes 4x8 dct locations.  Copy to do other 4x8.

									//******************************************************************************

								//	tmp0 = dataptr[0] + dataptr[7];

								//	tmp7 = dataptr[0] - dataptr[7];

								//	tmp1 = dataptr[1] + dataptr[6];

								//	tmp6 = dataptr[1] - dataptr[6];

								//	tmp2 = dataptr[2] + dataptr[5];

								//	tmp5 = dataptr[2] - dataptr[5];

								//	tmp3 = dataptr[3] + dataptr[4];

								//	tmp4 = dataptr[3] - dataptr[4];


										paddw	mm3, [edi][DATASIZE*4+16]	// tmp3

										movq	mm1, mm6


										movq	[edi][DATASIZE*7+8], mm7

										movq	mm7, mm0


										movq	mm2, [edi][DATASIZE*2+16]

										paddw	mm0, mm3				//tmp10


										paddw	mm2, [edi][DATASIZE*5+16]	// tmp2

										psubw	mm7, mm3				//tmp13


										movq	mm3, mm0

										paddw	mm1, mm2				//tmp11


								//    tmp10 = tmp0 + tmp3;

								//    tmp13 = tmp0 - tmp3;

								//    tmp11 = tmp1 + tmp2;

								//    tmp12 = tmp1 - tmp2;


										paddw	mm0, mm1	//tmp10 + tmp11

										psubw	mm3, mm1	//tmp10 - tmp11


								//    dataptr[0] = tmp10 + tmp11; /* phase 3 */

								//    dataptr[4] = tmp10 - tmp11;

								//    z1 = MULTIPLY(tmp12 + tmp13, FIX_0_707106781); /* c4 */

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										movq	mm1, mm3

										punpcklwd mm3, mm3


										punpckhwd mm1, mm1

										psubw	mm6, mm2				//tmp12


										movq	[edi][DATASIZE*7], mm4	//store

										psrad	mm3, 16


										psrad	mm1, 16

										paddw	mm6, mm7	//tmp12 + tmp13


										movq	mm2, [edi][DATASIZE*3+16]

								 		psllw	mm6, 1


										movq	mm4, mm0

										punpcklwd mm0, mm0


								 		pmulhw	mm6, Const_FIX_0_707106781	// z1

										punpckhwd mm4, mm4


									//		tmp4 = dataptr[3] - dataptr[4]//

										psubw	mm2, [edi][DATASIZE*4+16]	//tmp4

										psrad	mm4, 16


										movq	mm5, [edi][DATASIZE*2+16]

										psrad	mm0, 16


										movq	[edi][DATASIZE*0+24], mm4

										movq	mm4, mm7


								//    dataptr[2] = tmp13 + z1; /* phase 5 */

								//    dataptr[6] = tmp13 - z1;

								//NOTE: We can't write these values out immediately.  Values for tmp4 - tmp7

								//haven't been calculated yet!


										psubw	mm5, [edi][DATASIZE*5+16]	//tmp5

										paddw	mm7, mm6	//tmp13 + z1


										movq	[edi][DATASIZE*4+16], mm3

										psubw	mm4, mm6	//tmp13 - z1


										movq	mm3, mm7

										punpcklwd mm7, mm7


										movq	mm6, [edi][DATASIZE*0+16]

										punpckhwd mm3, mm3


										movq	[edi][DATASIZE*4+24], mm1

										psrad	mm7, 16


										movq	[edi][DATASIZE*0+16], mm0

										psrad	mm3, 16


										movq	mm1, [edi][DATASIZE*1+16]

										movq	mm0, mm4


										psubw	mm1, [edi][DATASIZE*6+16]	//tmp6

										punpcklwd mm4, mm4


										movq	[edi][DATASIZE*2+16], mm7

										paddw	mm2, mm5	//tmp10


								//    tmp10 = tmp4 + tmp5;	/* phase 2 */

								//    tmp11 = tmp5 + tmp6;

								//    tmp12 = tmp6 + tmp7;


										movq	mm7, mm2

										paddw	mm5, mm1	//tmp11


										psubw	mm6, [edi][DATASIZE*7+16]	//tmp7

								 		punpckhwd mm0, mm0


										movq	[edi][DATASIZE*2+24], mm3

										psllw	mm5, 1


										pmulhw	mm5, Const_FIX_0_707106781	//z3

										psrad	mm0, 16


										psrad	mm4, 16

										paddw	mm1, mm6	//tmp12


								//    z3 = MULTIPLY(tmp11, FIX_0_707106781); /* c4 */

								//    z11 = tmp7 + z3;		/* phase 5 */

								//    z13 = tmp7 - z3;


										movq	[edi][DATASIZE*6+24], mm0

										psubw	mm2, mm1	//tmp10 - tmp12


								    /* The rotator is modified from fig 4-8 to avoid extra negations. */

								//    z5 = MULTIPLY(tmp10 - tmp12, FIX_0_382683433); /* c6 */

								//    z2 = MULTIPLY(tmp10, FIX_0_541196100) + z5; /* c2-c6 */

								//    z4 = MULTIPLY(tmp12, FIX_1_306562965) + z5; /* c2+c6 */


										pmulhw	mm2, Const_FIX_0_382683433	//z5

										psllw	mm7, 1


										pmulhw	mm7, Const_FIX_0_541196100

										psllw	mm1, 2


										movq	[edi][DATASIZE*6+16], mm4

										movq	mm0, mm6


										pmulhw	mm1, Const_FIX_1_306562965

										psubw	mm0, mm5	//z13


										paddw	mm7, mm2	//z2

										movq	mm3, mm0


								//    dataptr[5] = z13 + z2;	/* phase 6 */

								//    dataptr[3] = z13 - z2;

								//    dataptr[1] = z11 + z4;

								//    dataptr[7] = z11 - z4;


										paddw	mm0, mm7	//z13 + z2

										psubw	mm3, mm7	//z13 - z2


										movq	mm7, mm3

										punpcklwd mm3, mm3


										punpckhwd mm7, mm7

										paddw	mm6, mm5	//z11


										psrad	mm3, 16

										paddw	mm1, mm2	//z4


										psrad	mm7, 16

										movq	mm4, mm6


										movq	mm5, mm0

										punpcklwd mm0, mm0


										punpckhwd mm5, mm5

										paddw	mm6, mm1	//z11 + z4


										psrad	mm0, 16

										psubw	mm4, mm1	//z11 - z4


										movq	[edi][DATASIZE*3+16], mm3	//store

										psrad	mm5, 16


										movq	mm1, mm6

										punpcklwd mm6, mm6


										movq	[edi][DATASIZE*3+24], mm7

										punpckhwd mm1, mm1


										movq	[edi][DATASIZE*5+16], mm0	//store

										psrad	mm6, 16


										movq	[edi][DATASIZE*5+24], mm5

										psrad	mm1, 16


										movq	mm7, mm4

										punpcklwd mm4, mm4


										movq	[edi][DATASIZE*1+16], mm6	//store

										punpckhwd mm7, mm7


										movq	[edi][DATASIZE*1+24], mm1

										psrad	mm4, 16


										psrad	mm7, 16

										movq	[edi][DATASIZE*7+16], mm4	//store

										movq	[edi][DATASIZE*7+24], mm7


									//******************************************************************************

									// This completes all 8x8 dct locations for the column case.

									//******************************************************************************


										emms

									}

								}


								#endif /* DCT_ISLOW_SUPPORTED */