ஒருங்குறி X Unicode X யுனித்தமிழ்

ஒரு கூகுள் குழும நிருவாகியுடன் பேசிய போது…

நான்: உங்கள் குழுமத்தில் யுனித்தமிழ் என்ற சொல்லைக் கையாள்கிறீர்களே? யுனித்தமிழ் என்று சொன்னால், இசைத்தமிழ், நாடகத் தமிழ் போல் அதையும் ஒரு தமிழாகக் கருதிக் குழப்பிக் கொள்ள வாய்ப்பளிக்காதா? ஒருங்குறித் தமிழ் என்றால் இலகுவாகப் புரியுமே?

குழும நிர்வாகி: சுந்தரத் தமிழில் பாட்டிசைத்து….. என்று திருவிளையாடலில் சிவாஜி பேசும்
வசனம் ஞாபகம் வருகிறது. சுந்தரம் என்பது தமிழல்ல, அதனால் இது ஒன்றும் குறையாகியும் போகவில்லை.

நான்: தமிழ் வகைகளைப் பொறுத்து – இசைத்தமிழ், இயற்றமிழ், நாடகத் தமிழ் என்று அழைக்கிறோம். அதன் பண்புகளைக் குறித்து தீந்தமிழ், பைந்தமிழ், செந்தமிழ் என்கிறோம். இடத்தைப் பொறுத்து மதுரைத் தமிழ், சென்னைத் தமிழ் என்கிறோம். அது போல் சுந்தரத்தமிழ் என்பதில் சுந்தரம் தமிழ் இல்லாமல் போனால் கூட அது தமிழின் பண்பை விளம்ப உதவுகிறது. அதில் எனக்கு மறுப்பும் இல்லை. தனித்தமிழை வலிந்து திணிக்கும் எண்ணமும் இல்லை. கவிதைகளில் உச்சரிப்பு அழகுக்காக இப்படி வேற்றுமொழிச் சொல் புகுவது வழமை தான்.

குழும நிர்வாகி: பிறகென்ன? யுனித்தமிழ் போற்றுங்கள்!

குழும நிர்வாகி: மைல்கல் என்பதில் மைல் என்பது தமிழல்ல.

நான்: மைல் என்பதற்கு இணையான தமிழ்ச் சொல் இல்லை. தவிர, அடி போன்று தமிழில் இணைச்சொற்கள் இல்லாதபோது, அனைத்துலக அளவை அலகுகளை அப்படியே ஏற்றுக் கொள்ளும் வழக்கம் இருக்கிறது.

குழும நிர்வாகி: சிங்கைத்தமிழ், இலங்கைத்தமிழ், லண்டன் தமிழ் என்றெல்லாம்கூடச் சொல்லுகிறோம்.

நான்: ஊர்ப்பெயர்களை யாரும் மொழிபெயர்ப்பதில்லை.

குழும நிர்வாகி: யுனித்தமிழ் என்பது புதுப்பதம். இனிமையான பதம். கணினி யுகக்
கண்டுபிடுப்பு. இதில் தவறில்லை.

நான்: அப்படியானால், கணினி கூட நாம் உருவாக்கிய சொல். அதையும் விடுத்து computer, telephone, keyboard என்றே எல்லாவற்றையும் சொல்லிவிட்டுப் போகலாமே? uni என்பது இடுகுறிப் பெயர்ச்சொல் இல்லை. காரணப் பெயர். uni code என்பதை ஒரே குறிமுறை என்று இலகுவாகப் புரிந்து கொள்ள சொல்ல இயலும்போது எதற்கு uni என்ற சொல்லைக் கடன் வாங்க வேண்டும்? முதலில் மக்களுக்கு uni என்றால் என்ன என்று புரிந்து பிறகு unicode குறித்துத் தெரிந்து அதற்கான பொருள் விளங்குவதற்குள் ஒருங்குறித் தமிழ் என்றால் சட்டென்று புரியாதா?

குழும நிர்வாகி: யுனி என்பது யுனிகோடு என்பதன் அடையாளத்தை மட்டுமே காட்டுகிறது. எனவே
யுனி என்பது தமிழுக்குப் புதுச்சொல் வரவு. நாம் ஆங்கிலத்தை அப்படியே
எடுத்துக்கொள்ளவில்லை என்று ஆறுதல் கொள்ளலாம். தமிழுக்குக் கிடைத்த
புதுச் சொல் வரவால் ஆனந்தப்படலாம்!

நான்: உங்கள் கருத்துக்களுடன் மாறுபடுகிறேன். ஆனால், குழும நிர்வாகிகள் என்ற முறையில் உங்கள் முடிவுகளை மதிக்கிறேன். நன்றி.

குழும நிர்வாகி: யுனி என்பது தமிழ் என்று நான் கூறவில்லையே. ஒருங்குறித்தமிழ் என்பதைவிட யுனித்தமிழே அழகு என்று கூறுகிறேன். ஒருங்குறி என்பது Unicode என்பதற்குப் பொருள்கூறும் சொல். யுனித்தமிழ் என்பது பொருள்கூறும் வகையில் உருவானதல்ல. ரோஜா என்பதைப்போல தழுவி உருவானது.

நான்: ஒருங்குறித் தமிழ் என்று சொல்வதற்கான தேவையே கூட இருப்பதாக எனக்குத் தோன்றவில்லை. unicode என்பது ஒரு encoding வகை. அவ்வளவுதான். அதைத் தமிழோடு சேர்த்து சிறப்பித்துக் கூற ஒன்றும் இல்லை. unicodeலேயே utf-8, 7, 16 little endian, 16 big endian, 32 little endian, 32 -big endian முதல் இப்போது அடிபட்டுக் கொண்டிருக்கும் TUNE வரை இருக்கிறது. வாசகருக்கு ஒரு technical specification தருவது என்றால் அதை முழுமையாக இந்தத் தளம் unicode (utf-8) குறிமுறையில் அமைந்திருக்கிறது என்று சொல்லலாம. அல்லது என்கோடிங் என்றே சொல்வது புது சொல்லாகவும் அழகாகவும் இருக்குமா? . இல்லை, யுனித் தமிழ் என்று சொன்னால் போதும் என்றால் எத்தனையோ encodingகள் இருக்கின்றன. western encodingல் இருப்பது வெஸ்டர்ன் தமிழா? இப்படியே டிஸ்கி தமிழ், அஸ்கி தமிழ் என்று புதுப்பதங்கள் ஆக்கிக் கொண்டே போனால் வேடிக்கையாக இல்லையா?

குழும நிர்வாகி: நிச்சயமாக இல்லை. நீங்கள் இப்படிக் கேட்பதுதான் வேடிக்கையாக இருக்கிறது.

நான்: நாம் மட்டும் தான் இப்படி யுனித்தமிழ் போன்ற சொற்களை ஆக்கிக் கொண்டிருக்கிறோம் என்று நினைக்கிறேன். ஆங்கிலேயர்களோ சப்பானியர்களோ ஏன் unienglis, unijapanese போன்ற சொற்களை உருவாக்கவில்லை? ஏனெனில் இப்படி ஒரு சொல்லே தேவையில்லை…!!! கூகுளில் unichines, unijapanese என்று தேடிப்பாருங்கள். நாம் ஆக்க வேண்டிய சொற்களை விட்டுவிட்டு வேண்டாத சொற்களை ஆக்கிக் கொண்டிருக்கிறோம் என்பது தான் என் கருத்து.

குழும நிர்வாகி: தமிழன் எதையாவது புதிதாகச் செய்யவேண்டுமானால் அவன் ஆங்கிலேயனையோ ஜப்பானியனையோ நகலெடுத்துத்தான் செய்யவேண்டும் என்று நீங்கள் சொல்வது தமிழனுக்கு அவமானம்! உங்கள் கருத்து தவறானது என்பது என் கருத்து. இதோ ஒரு சொல்லை நான் உருவாக்கியே காட்டுவேன் என்று வலியச்சென்று ஆக்கிய சொல்லல்ல யுனித்தமிழ்! இயல்பாய், தேவையின் பயனாய் உருவான சொல் அது! உங்களுக்க்குப் பிடிக்கவில்லை என்றால் என்னால் ஒன்றும் செய்யமுடியாது.
நீங்கள்தான் பயன்படுத்தாமல் இருக்க வேண்டும். நான் அறிந்து மிகப் பலரும் விரும்பிப் பயன்படுத்துகிறார்கள்.

நான்: பேனா கொண்டு எழுதினால் பேனா தமிழா? பென்சில் கொண்டு எழுதினால் பென்சில் தமிழா? எதை வைத்து எழுதுகிறோம் என்பதற்கும் மொழிக்கும் தொடர்பே இல்லை. எதை வைத்து வேண்டுமானாலும் எந்த மொழியை வேண்டுமானாலும் எழுதலாம் என்கிற போது அதை மொழியோடு சேர்த்துச் சொல்ல அவசியமில்லை. அந்த வகையில் ஒருங்குறி என்பது எந்த மொழியையும் ஒருவர் எழுதி இன்னொருவர் படிக்க உதவும் குறிமுறை. அவ்வளவே. அதை மொழியோடு சேர்த்துச் சொல்லிப் புதுச்சொல் என நினைக்க ஒன்றுமே இல்லை என்பது தான் என் கருத்து.

குழும நிர்வாகி: தவறான கருத்து!

நாடகத்துல வந்தா நாடகத்தமிழா என்று கேலிசெய்வதாய் இருக்கிறது. பேச்சில் வந்தால் அது பேச்சுத்தமிழா என்று அறியாமையில் கேட்பதாய் இருக்கிறது. பேனா தமிழ் பென்சில் தமிழ் என்று உங்களை கேட்க வைப்பது உங்கள் அறியாமை. நான் அப்படிப் பெயர் சூட்டவில்லை. குறியீட்டின் முறையோடு இணைத்தே யுனித்தமிழ்
என்று கொண்டேன். கணித்தமிழ் என்ற பதம் தெரியுமா உங்களுக்கு? இணையத்தமிழ் என்ற பயன்பாடு தெரியுமா உங்களுக்கு? மேலும் மேலும் தவறான கருத்துக்களையே முன் வைக்காதீர்கள். விளக்கம் தர மட்டுமே நான் தயாராய் இருக்கிறேன். விவாதிக்க நான் தயாரில்லை. பணி இருக்கிறது நிறைய!

நான்: விளக்கங்களுக்கு நன்றி.

ஒருங்குறி குறியாக்கத்தில் தமிழில் தோன்றும் வழுக்கள்

இன்று ஒருங்குறி குறியாக்கத்தில் அமைந்த தமிழ்த் தளம் ஒன்றில் Firefox உலாவி கொண்டு தேடுகையில் பின்வரும் வழுவைக் கண்டேன்.

உண்ட என்று தேடினால் உண்டு, உண்டான் உண்ட் என்ற எல்லா உண்+டகர வரிசைச்சொற்களையும் காட்டுகிறது. ஒருங்குறி குறியாக்கத்துக்கு  டா, டு, டி இவையெல்லாம் வேறு வேறு எழுத்துக்கள் என்று தெரியவில்லை. 

ஒருங்குறி குறியாக்கம் கணினியில் தமிழைக் காட்ட உதவும் அளவு கணித்தல் வேலைகளைச் செய்ய உதவவில்லை. எடுத்துக்காட்டுக்கு, திருக்குறளில் எத்தனை இடங்களில் உண்ட என்று வருகிறது என்று கணிக்க வேண்டுமானால் ஒருங்குறி குறியாக்கம் உதவப் போவதில்லை. match whole word என்று சொன்னால் தான் கொஞ்சமாவது துல்லியமான முடிவு கிடைக்கும். அதுவும் செய்யுள்களில் உரைநடை போல் ஒவ்வொரு சொல்லும் தெளிவாக முடியாமல் அடுத்த சொல்லுடன் இணைந்து இருக்கும் என்பதால், match whole word பல இடங்களில் உதவாமல் போகலாம்.

ஒரு ஆவணத்தில் பல இடங்களில் உள்ள ஒரே பிழையைக் கண்டு replace all கொடுக்கும்போதும் சிக்கல் வரும். எடுத்துக்காட்டுக்கு,
உண்ட உண்டு உண்டா என்று எழுதி

உண்ட வரும் இடங்களில் எல்லாம் உண்டா என்று மாற்றச் சொன்னால்,

உண்டா உண்டாு உண்டாா என்று தான் மாற்றங்கள் வரும்.

இந்த இடத்தில் match whole word only என்று கொடுக்க மறக்காமல் இருந்தால் சரியான முடிவுகள் வரும். ஆனால், இதுவும் செய்யுளில் உதை வாங்கலாம்.

ஒருங்குறி் குறியாக்கத்தில் தமிழில் தோன்றும் வழுக்கள், போதாமைகள் குறித்த அதிகாரப்பூர்வ விளக்கங்கள் இங்கு.

இந்தப் போதாமைகளில் சிலவற்றை வேறு இடங்களிலும் பார்த்த நினைவு. ஆனால், ஒரு குறிப்புக்காக இங்கு பதிகிறேன்.

தொடர்புடைய சில இடுகைகள்:

* ஒருங்குறிச் செருப்பு.

* கீதா கயீதா ஆன கதை.

* தமிழ் ஒருங்குறி – தேட்டைச் சிக்கல்

* தமிழ் எழுத்துக்கள் வரிசைப்படுத்தல்.