windows-xp/Source/XPSP1/NT/inetsrv/intlwb/enu/wordbreaker/spanishutils.cpp


								#include "base.h"

								#include "SpanishUtils.h"


								CAutoClassPointer<CSpanishUtil> g_apSpanishUtil = NULL;


								const CSuffixTerm g_rSpanishSuffix[] =

								{

								    {L"et"  ,2, 2, TYPE1},    // te

								    {L"es"  ,2, 2, TYPE1},	  // se

								    {L"em"  ,2, 2, TYPE1},	  // me

								    {L"son" ,3, 3, TYPE1},	  // nos

								    {L"sol" ,3, 3, TYPE1},	  // los

								    {L"sal" ,3, 3, TYPE1},	  // las

								    {L"sel" ,3, 3, TYPE1},	  // les

								    {L"ol"  ,2, 2, TYPE1},	  // lo

								    {L"el"  ,2, 2, TYPE1},	  // le

								    {L"al"  ,2, 2, TYPE1},    // la

								    {L"etes",4, 4, TYPE1},    // sete


								#ifdef DICT_GEN

								    {L"odn\x0e1"   ,4, 3, TYPE2},  // ándo

								#endif

								    {L"etodn\x0e1" ,6, 5, TYPE2},  // ándote

								    {L"esodn\x0e1" ,6, 5, TYPE2},  // ándose

								    {L"emodn\x0e1" ,6, 5, TYPE2},  // ándome

								    {L"olodn\x0e1" ,6, 5, TYPE2},  // ándolo

								    {L"elodn\x0e1" ,6, 5, TYPE2},  // ándole

								    {L"alodn\x0e1" ,6, 5, TYPE2},  // ándola

								    {L"sonodn\x0e1",7, 6, TYPE2},  // ándonos

								    {L"solodn\x0e1",7, 6, TYPE2},  // ándolos

								    {L"salodn\x0e1",7, 6, TYPE2},  // ándolas

								    {L"selodn\x0e1",7, 6, TYPE2},  // ándoles


								    {L"etne"  ,4, 3, TYPE3},   //ente

								    {L"esne"  ,4, 3, TYPE3},   //en	se

								    {L"emne"  ,4, 3, TYPE3},   //enme

								    {L"sonne" ,5, 4, TYPE3},   //ennos

								    {L"solne" ,5, 4, TYPE3},   //enlos

								    {L"salne" ,5, 4, TYPE3},   //enlas

								    {L"selne" ,5, 4, TYPE3},   //enles

								    {L"olne"  ,4, 3, TYPE3},   //enlo

								    {L"elne"  ,4, 3, TYPE3},   //enle

								    {L"alne"  ,4, 3, TYPE3},   //enla

								    {L"emetne",6, 5, TYPE3},   //enteme


								    {L"etsom"  ,5, 5, TYPE4},  //moste

								    {L"essom"  ,5, 5, TYPE4},  //mosse

								    {L"emsom"  ,5, 5, TYPE4},  //mosme

								    {L"sonsom" ,6, 6, TYPE4},  //mosnos

								    {L"solsom" ,6, 6, TYPE4},  //moslos

								    {L"salsom" ,6, 6, TYPE4},  //moslas

								    {L"selsom" ,6, 6, TYPE4},  //mosles

								    {L"olsom"  ,5, 5, TYPE4},  //moslo

								    {L"elsom"  ,5, 5, TYPE4},  //mosle

								    {L"alsom"  ,5, 5, TYPE4},  //mosla

								    {L"etessom",7, 7, TYPE4},  //mossete


								    {L"soetda",6, 5, TYPE5},   // adteos

								    {L"emetda",6, 5, TYPE5},   // adteme

								    {L"etda"  ,4, 3, TYPE5},   // adte

								    {L"esda"  ,4, 3, TYPE5},   // adse

								    {L"emda"  ,4, 3, TYPE5},   // adem

								    {L"sonda" ,5, 4, TYPE5},   // adnos

								    {L"solda" ,5, 4, TYPE5},   // adlos

								    {L"salda" ,5, 4, TYPE5},   // adlas

								    {L"selda" ,5, 4, TYPE5},   // adles

								    {L"olda"  ,4, 3, TYPE5},   // adlo

								    {L"elda"  ,4, 3, TYPE5},   // adle

								    {L"alda"  ,4, 3, TYPE5},   // adla


								    {L"etr\x0e1" ,4, 3, TYPE6}, // árte

								    {L"esr\x0e1" ,4, 3, TYPE6}, // árse

								    {L"emr\x0e1" ,4, 3, TYPE6}, // árme

								    {L"sonr\x0e1",5, 4, TYPE6}, // árnos

								    {L"solr\x0e1",5, 4, TYPE6}, // árlos

								    {L"salr\x0e1",5, 4, TYPE6}, // árlas

								    {L"selr\x0e1",5, 4, TYPE6}, // árles

								    {L"olr\x0e1" ,4, 3, TYPE6}, // árlo

								    {L"elr\x0e1" ,4, 3, TYPE6}, // árle

								    {L"alr\x0e1" ,4, 3, TYPE6}, // árla


								    {L"emes" ,4, 4, TYPE7},  // seme

								    {L"sones",5, 5, TYPE7},  // senos

								    {L"soles",5, 5, TYPE7},  // selos

								    {L"oles" ,4, 4, TYPE7},  // selo

								    {L"seles",5, 5, TYPE7},  // seles

								    {L"eles" ,4, 4, TYPE7},  // sele

								    {L"sales",5, 5, TYPE7},  // sesal

								    {L"ales" ,4, 4, TYPE7},  // sela


								    {L"emem", 4, 4, TYPE16}, // meme

								    {L"sonem",5, 5, TYPE16}, // menos


								    {L"solem",5, 5, TYPE8}, // melos

								    {L"olem" ,4, 4, TYPE8}, // melo

								    {L"selem",5, 5, TYPE8}, // meles

								    {L"elem" ,4, 4, TYPE8}, // mele

								    {L"salem",5, 5, TYPE8}, // mesal

								    {L"alem" ,4, 4, TYPE8}, // mela


								    {L"emet" ,4, 4, TYPE9}, // teme

								    {L"sonet",5, 5, TYPE9}, // tenos

								    {L"solet",5, 5, TYPE9}, // telos

								    {L"olet" ,4, 4, TYPE9}, // telo

								    {L"selet",5, 5, TYPE9}, // teles

								    {L"elet" ,4, 4, TYPE9}, // tele

								    {L"salet",5, 5, TYPE9}, // tesal

								    {L"alet" ,4, 4, TYPE9}, // tela


								    {L"etsoets\x0e9",8, 4, TYPE10},	  // ésteoste

								    {L"soets\x0e9"  ,6, 2, TYPE10},	  // ésteos


								    {L"sole",4, 0,TYPE11},  // elos

								    {L"ole" ,3, 0,TYPE11},  // elo

								    {L"eme" ,3, 0,TYPE11},  // eme

								    {L"sele",4, 0,TYPE11},  // eles

								    {L"ele" ,3, 0,TYPE11},  // ele

								    {L"sale",4, 0,TYPE11},  // elas

								    {L"ale" ,3, 0,TYPE11},  // ela


								    {L"sona",4, 0,TYPE12},  // anos


								    {L"ese",3, 0, TYPE13},  // ese

								    {L"esa",3, 0, TYPE13},  // ase


								    {L"sone",4, 0,TYPE14},  // enos


								    {L"olner",5, 5, TYPE15}, // renlo


								    {L"\0",0,0,0}

								};


								CSpanishUtil::CSpanishUtil()

								{

								    WCHAR wch;

								    for (wch = 0; wch < 256; wch++)

								    {

								        m_rCharConvert[wch] = towupper(wch);

								        m_rAccentConvert[wch] = 0;

								        m_rCharCompress[wch] = 0;

								    }


								    memset(m_rReverseAccentConvert, 0, sizeof(char) * 16);


								    m_rCharConvert[0xc0] = L'A';

								    m_rCharConvert[0xc1] = L'A';

								    m_rCharConvert[0xc2] = L'A';

								    m_rCharConvert[0xc3] = L'A';

								    m_rCharConvert[0xc4] = L'A';

								    m_rCharConvert[0xc5] = L'A';

								    m_rCharConvert[0xc8] = L'E';

								    m_rCharConvert[0xc9] = L'E';

								    m_rCharConvert[0xca] = L'E';

								    m_rCharConvert[0xcb] = L'E';

								    m_rCharConvert[0xcc] = L'I';

								    m_rCharConvert[0xcd] = L'I';

								    m_rCharConvert[0xce] = L'I';

								    m_rCharConvert[0xcf] = L'I';

								    m_rCharConvert[0xd2] = L'O';

								    m_rCharConvert[0xd3] = L'O';

								    m_rCharConvert[0xd4] = L'O';

								    m_rCharConvert[0xd5] = L'O';

								    m_rCharConvert[0xd6] = L'O';

								    m_rCharConvert[0xd9] = L'U';

								    m_rCharConvert[0xda] = L'U';

								    m_rCharConvert[0xdb] = L'U';

								    m_rCharConvert[0xdc] = L'U';


								    m_rCharConvert[0xe0] = L'A';

								    m_rCharConvert[0xe1] = L'A';

								    m_rCharConvert[0xe2] = L'A';

								    m_rCharConvert[0xe3] = L'A';

								    m_rCharConvert[0xe4] = L'A';

								    m_rCharConvert[0xe5] = L'A';

								    m_rCharConvert[0xe8] = L'E';

								    m_rCharConvert[0xe9] = L'E';

								    m_rCharConvert[0xea] = L'E';

								    m_rCharConvert[0xeb] = L'E';

								    m_rCharConvert[0xec] = L'I';

								    m_rCharConvert[0xed] = L'I';

								    m_rCharConvert[0xee] = L'I';

								    m_rCharConvert[0xef] = L'I';

								    m_rCharConvert[0xf2] = L'O';

								    m_rCharConvert[0xf3] = L'O';

								    m_rCharConvert[0xf4] = L'O';

								    m_rCharConvert[0xf5] = L'O';

								    m_rCharConvert[0xf6] = L'O';

								    m_rCharConvert[0xf9] = L'U';

								    m_rCharConvert[0xfa] = L'U';

								    m_rCharConvert[0xfb] = L'U';

								    m_rCharConvert[0xfc] = L'U';


								    for (wch = 0; wch < 256; wch++)

								    {

								        if (m_rCharConvert[wch] >= L'A' && m_rCharConvert[wch] <= L'Z')

								        {

								            m_rCharCompress[wch] = m_rCharConvert[wch] - L'A' + 1;

								        }

								    }


								    m_rCharCompress[0xD1] = 28;

								    m_rCharCompress[0xF1] = 28;


								    m_rAccentConvert[0xe1] = 1;

								    m_rAccentConvert[0xf3] = 2;

								    m_rAccentConvert[0xcd] = 3;

								    m_rAccentConvert[0xe9] = 4;

								    m_rAccentConvert[0xfa] = 5;

								    m_rAccentConvert[0xfc] = 6;

								    m_rAccentConvert[0x61] = 7;

								    m_rAccentConvert[0x6f] = 8;

								    m_rAccentConvert[0x69] = 9;

								    m_rAccentConvert[0x65] = 10;

								    m_rAccentConvert[0x75] = 11;


								    m_rReverseAccentConvert[1] = (WCHAR)0xe1;

								    m_rReverseAccentConvert[2] = (WCHAR)0xf3;

								    m_rReverseAccentConvert[3] = (WCHAR)0xcd;

								    m_rReverseAccentConvert[4] = (WCHAR)0xe9;

								    m_rReverseAccentConvert[5] = (WCHAR)0xfa;

								    m_rReverseAccentConvert[6] = (WCHAR)0xfc;

								    m_rReverseAccentConvert[7] = (WCHAR)0x61;

								    m_rReverseAccentConvert[8] = (WCHAR)0x6f;

								    m_rReverseAccentConvert[9] = (WCHAR)0x69;

								    m_rReverseAccentConvert[10] = (WCHAR)0x65;

								    m_rReverseAccentConvert[11] = (WCHAR)0x75;


								}


								int CSpanishUtil::aiWcscmp(const WCHAR* p, const WCHAR* t)

								{

								    while (*p && *t && (m_rCharConvert[*p] == m_rCharConvert[*t]))

								    {

								        p++;

								        t++;

								    }


								    if ((m_rCharConvert[*p] == m_rCharConvert[*t]))

								    {

								        return 0;

								    }

								    if ((m_rCharConvert[*p] > m_rCharConvert[*t]))

								    {

								        return 1;

								    }


								    return -1;

								}


								int CSpanishUtil::aiStrcmp(const unsigned char* p, const unsigned char* t)

								{

								    while (*p && *t && (m_rCharConvert[*p] == m_rCharConvert[*t]))

								    {

								        p++;

								        t++;

								    }


								    if (m_rCharConvert[*p] == m_rCharConvert[*t])

								    {

								        return 0;

								    }

								    if (m_rCharConvert[*p] > m_rCharConvert[*t])

								    {

								        return 1;

								    }


								    return -1;

								}


								int CSpanishUtil::aiWcsncmp(const WCHAR* p, const WCHAR* t, const int iLen)

								{

								    int i = 0;

								    while ((i < iLen) && *p && *t && (m_rCharConvert[*p] == m_rCharConvert[*t]))

								    {

								        p++;

								        t++;

								        i++;

								    }


								    if ((i == iLen) || (m_rCharConvert[*p] == m_rCharConvert[*t]))

								    {

								        return 0;

								    }

								    if (m_rCharConvert[*p] > m_rCharConvert[*t])

								    {

								        return 1;

								    }


								    return -1;

								}


								CSpanishSuffixDict::CSpanishSuffixDict()

								{

								    WCHAR* pwcsCur;

								    int i;

								    DictStatus status;


									for (i = 0, pwcsCur = g_rSpanishSuffix[i].pwcs;

										 *pwcsCur != L'\0';

										 i++, pwcsCur = g_rSpanishSuffix[i].pwcs)

									{

								        status = m_SuffixTrie.trie_Insert(

								                                        pwcsCur,

								                                        TRIE_IGNORECASE,

								                                        const_cast<CSuffixTerm*>(&g_rSpanishSuffix[i]),

								                                        NULL);


								        Assert (DICT_SUCCESS == status);


									}

								}