windows-nt-4.0/private/windows/opengl/server/generic/alpha/_fpow.s



								#include "_Alphasm.h"

								#include "_Fpow.h"	/* Approximation table */


								/*

								 *

								 * NOTE:  the code to generate _Nfpow.h follows this routine (ifdefd-out C)

								 *

								 * _Nfpow() --- single precision pow() approx routine

								 *

								 * This is used in GL specular shading computation. GL conformance's l_se.c

								 *  steps the exponent from 0->128 in fractional increments, so we need

								 *  to deal with REAL exponents.  This routine gives just enough precision

								 *  to squeak by l_se.c (path 0 -- which is the most difficult).

								 *

								 * NOTE:  the base is clamped to 1.0, so base >= 1.0 yields exactly 1.0

								 *

								 * Here's the algorithm:

								 *

								 * Result = Base**Power

								 *        = 2**[log2(Base**Power)]

								 *	  = 2**[Power*log2(Base)]

								 * using

								 *  Base = mantissa(Base)*2**(exponent(Base))      (FP notation)

								 *

								 * Result = 2**(Power * log2( mantissa(Base) * 2**exponent(Base) ))

								 *        = 2**(Power * ( exponent(Base) + log2(mantissa(Base)) ))

								 *

								 * now let P' = (Power * ...)

								 *

								 * 1:  convert fp Power to fixed point

								 * 2:  use _Nlog2_table to lookup log2(mantissa(Base))

								 * 3:  add to extracted exponent(Base)

								 * 4:  mult by cvt'd Power

								 *

								 * We now have P' in fixed point format

								 *

								 * Result = 2**P'

								 *        = 2**[int(P') + frac(P')]

								 *        = 2**frac(P') * 2**int(P')

								 *

								 * Build Result using:

								 *

								 * mantissa(Result) = _Npow2_table[frac(P')]  (table lookup)

								 * exponent(Result) = int(P')

								 *

								 */


								/*

								 * Register Allocation

								 */

								#define	nResult		r0	/* result -- asm'd in int reg                */

								#define	nB		r1	/* base in int reg (gets munged)	     */

								#define	nP		r2	/* scaled power in int reg (gets munged)     */

								#define	nLog2		r3	/* value from log2 table (slope/intcpt)      */

								#define	pLog2Tab	r4	/* pointer to log2 table                     */

								#define	nIntcpt		r4	/* intercept extracted from nLog2            */

								#define	pPow2Tab	r5	/* pointer to pow2 table         	     */

								#define	nIndex		r6	/* index into log2,pow2 table                */

								#define nSlope          r6      /* slope extracted from nLog2 table          */

								#define	pEntry		r7	/* pointer into log2,pow2 table              */

								#define	nTmp		r7	/* temp reg                                  */

								#define	nPShifted	r8	/* result exponent, shifted into position    */

								#define nBfrac          r8	/* frac part of base, used to index into log2*/


								#define fResult		f0	/* OUTPUT: return value			     */

								#define	fOne		f0	/* 1.0 for testing                           */

								#define	fB		f16	/* INPUT: base			             */

								#define	fP		f17	/* INPUT: power			             */

								#define	fScaleP		f18	/* power scale factor (to get int&frac bits) */

								#define	fTest		f20	/* result of base==1 test                    */

								#define	fTest2		f21	/* result of power==1 test                   */

								#define	fP2		f22	/* scaled power           	             */


								#define FRAME_SIZE 4*8

								/*

								 * Stack offsets

								 */

								#define	stackQ0	1*8

								#define	stackQ1	2*8


								#define NBITS_LOG2 8	/* log2 of entries in _Nlog2_table */

								#define NBITS_POW2 12	/* log2 of entries in _Npow2_table */


									.extern		fpow


								#define IS_GP_USED 1

								#define FRAME_OFFSET 0


								/*

								 * Constants

								 */

									.rdata

									.align	5

								_scaleP:

									.float	65536.0	/* used to generate power in 8.16 fixed pt format */

								_f1_0:

									.float	1.0	/* for testing, also result of x**0 */


									.text

									.align	5

									.globl  fpow

									.ent  	fpow

								fpow:


									 lda	sp,-FRAME_SIZE(sp)	# grab some stack


									.frame	sp, FRAME_SIZE, ra, FRAME_OFFSET

									.prologue IS_GP_USED


								/*

								 * Setup stuff

								 *

								 *  Get pointers, constants loaded

								 *  Move base, scaled power to integer regs

								 */


									lds	fScaleP, _scaleP	/* get power scale factor            */

									lda	pLog2Tab, _Nlog2_table	/* get ptr to log2 table             */

									lda	pPow2Tab, _Npow2_table	/* get ptr to pow2 table             */

									sts	fB, stackQ0(sp)		/* move base to stack xfer to intreg */

									fbeq	fP, ZeroPow		/* test for x**0                     */

									muls	fP, fScaleP, fP2	/* scale power to incl hi16 mant bits*/

									fbeq	fB, ZeroBase		/* test for 0**x                     */

									lds	fOne, _f1_0		/* for base=1 check                  */

									ldl	nB, stackQ0(sp)		/* now have base in int reg          */

									cvttq	fP2, fP2		/* convert scaled power to int       */

									stt	fP2, stackQ1(sp)	/* move to stack for xfer to int reg */

									ldq	nP, stackQ1(sp)         /* now have 8.16 power in int reg    */


								/*

								 * For those of you who forget, here's the format of  IEEE single-prec FP:

								 * (but if you don't know this, you're probably barking up the wrong tree).

								 *

								 *  33222222 22221111 11111100 00000000

								 *  10987654 32109876 54321098 76543210

								 * +--------+--------+--------+--------+

								 * |seeeeeee efffffff ffffffff ffffffff|

								 * +--------+--------+--------+--------+

								 *  s = sign bit

								 *  e = 8-bit bias127 exponent

								 *  f = 23-bit fraction (aka mantissa in my book)

								 *

								 *  "Normalized" numbers represent values:  (-1)**s * (1.f) * 2**(e-127)

								 *

								 */


								/*

								 * Use hi bits of base mantissa to index into the _Nlog2_table

								 */

									sll	nB,1,nB			/* move left, lose sign bit  8.24    */

									zap	nB,HEX(F8),nBfrac        	/* lose exp for indexing into log2tab*/

									zap	nB,HEX(F7),nB            	/* keep only exponent in nB          */

									srl	nBfrac,(24-NBITS_LOG2),nIndex /* get hi bits as index        */

									s8addq	nIndex,pLog2Tab,pEntry 	/* form log2 table pointer           */

									ldq	nLog2,0(pEntry)        	/* get log2 table entry              */

									ldah	nB,-HEX(7F00)(nB)		/* Remove bias from base exponent    */

								/*

								 * Using slope & intercept from the log2 table,

								 *  compute log2(base frac) = slope * base frac + intercept

								 */

									sra	nLog2,32,nIntcpt	/* negative 8.24 intercept           */

									zap	nLog2,HEX(F0),nSlope	/* positive 16.16 slope              */

									mulq	nBfrac,nSlope,nBfrac	/* base frac * slope           16.40 */

									addq	nB,nIntcpt,nB		/* base exp + intercept        08.24 */

									sra	nBfrac,(40-24),nBfrac	/* base frac * slope           16.24 */

									addq	nB,nBfrac,nB	        /* basef*slope+intercept+bexp  17.24 */


								/*

								 *  Now multiply Power * Base exponent

								 *

								 * Result format:

								 *

								 *  66665555 55555544 44444444 33333333 33222222 22221111 11111100 00000000

								 *  32109876 54321098 76543210 98765432 10987654 32109876 54321098 76543210

								 * +--------+--------+--------+--------V--------+--------+--------+--------+

								 *  ssssssss EEEEEEEE EEEEEEEE.eeeeeeee eeeeeeee eeeeeeee eeeeeeee eeeeeeee

								 *

								 */

									mulq	nB, nP, nP		/* result exponent (16.40)           */


								/*

								 * While we're waiting for the int mult to complete...

								 *  let's test for some special cases?  Is this worth the cache?

								 */

									cmptle	fOne, fB, fTest		/* test for base >= 1.0              */

									cmpteq	fP, fOne, fTest2	/* test for power == 1.0             */

								//	fbne	fTest, ClampBase

									fbne	fTest2, OnePow


								/*

								 * Extract fractional part of result exponent

								 *  and use to index into pow2 table

								 */

									zap	nP, HEX(E0), nPShifted     /* remove int part for indexing      */

								                                        /* shift hi12 to low byte for index  */

									srl	nPShifted, (40-NBITS_POW2), nIndex

									s4addq	nIndex, pPow2Tab, pEntry

									ldl	nResult, 0(pEntry)	/* get normalized result             */


								/*

								 * Compose final result

								 */

									sra	nP, 40, nP		/* shift exp down to lose frac       */

									sll	nP, 23, nPShifted	/* shift exp up into position        */

									addl	nPShifted, nResult, nResult /* compose final answer          */

									stl	nResult, stackQ0(sp)	/* store result for transfer         */


									lda	nP, 64(nP)		/* add 64 to test for underflow      */

													/* assume 2**-64 is close enuf to 0 */

									blt	nP, Underflow

									lds	fResult, stackQ0(sp)	/* load result as float              */


								ExitHere:


									lda	sp, FRAME_SIZE(sp)	/* release stack                     */

									ret	rzero, (ra), 1


								ZeroPow:

								ClampBase:

									lds	fResult, _f1_0		/* x**0 = 1.0                        */

									br 	ExitHere


								ZeroBase:

								Underflow:

									fmov	fzero, fResult		/* 0**x = 0, (x!=0)                  */

									br 	ExitHere


								OnePow:

									fmov	fB, fResult		/* x**1 = x, yes?		     */

									br 	ExitHere


									ASM_END(fpow)