கூகுள் தானியங்கித் தமிழாக்கக் கருவி

பிற மொழிகளில் இருந்து தமிழுக்கும் தமிழில் இருந்து பிற மொழிகளுக்கும் தானியக்கமாய் மொழிபெயர்க்கும் கருவி ஒன்றை கூகுள் வெளியிட்டுள்ளது.

தமிழ்க் கணிமையைப் பொறுத்தவரை இது ஒரு மிகப்பெரிய சாதனை என்பதில் ஐயம் இல்லை. அதிலும் ஆங்கிலம், தமிழ் இரண்டு மொழிகளுக்கு மட்டுமல்லாமால் பல மொழிகளுக்கும் இடையே இரு வழியாக மொழிபெயர்க்கலாம் என்பது சிறப்பு. செருமன், நெதர்லாந்து மொழிகளைச் சோதித்துப் பார்த்தேன்.

கூடவே தமிழ்ச் சொற்களை உச்சரித்துக் காட்டும் கருவி, தமிழ் உரையை உரோம எழுத்துகளில் எழுதிக் காட்டும் கருவியும் இணைக்கப்பட்டுள்ளது. தமிழ்ச் சொற்களை உச்சரிக்கும் கருவியின் திறன், சந்தையில் ஏற்கனவே உள்ள துவணி, MILE கருவிகளை ஒத்துள்ளது. தமிழ்ச் சொல் உச்சரிப்பு குறித்து கூகுள் தனியே ஏதேனும் ஆய்வு செய்துள்ளதா என்று அறிய வேண்டும்.

மிகச் சிறிய, நாம் நன்கு அறிந்த சில சொற்றொடர்களை நிறைவாகவே மொழிபெயர்க்கிறது. பெரிய பக்கங்களை அளிக்கும் போது அதன் திறன் மிகக் குறைவாக உள்ளதுடன், கிடைக்கும் தாறுமாறான மொழிபெயர்ப்பில் இருந்து நாமே தப்பும் தவறுமாக ஊகிக்க வேண்டியதாகவே உள்ளது. இது ஒரு alpha நிலை சோதனைக் கருவி என்பதால் இதற்கு மேல் எதிர்ப்பார்ப்பதும் திறனாய்வதும் பொருத்தமாக இருக்காது. இந்திய சந்தைத் தேவைகளுக்கான ஆய்வில் கூகுள் அவ்வளவாக பணம் செலவிடுவதாகத் தெரியாததால், அடுத்த நிலையான beta கருவி எப்போது வரும், இதன் தரம் மேம்படுமா என்று சொல்வதற்கு இல்லை.

எனினும், இந்தக் கருவியின் உருவாக்கத்துக்குப் பின்னணியில் இருந்த வழிமுறைகள் சர்ச்சைக்குரியவை.

இக்கருவியை உருவாக்க கூகுள் பின்பற்றிய ஆய்வு வழிமுறை statistical machine translation approach எனப்படும். அதாவது, ஒரே உரை இரண்டு மொழிகளில் மொழிபெயர்க்கப்பட்டிருந்தால், அது போல் இலட்சக்கணக்கான ஆவணங்களைப் படித்துப் பார்த்து, இரண்டு மொழிகளிலும் உள்ள ஈடான சொற்களைப் புரிந்து கொள்கிறது.

Fried rice, Vegetable rice, Egg rice

என்பது தமிழில்

வறுத்து சோறு, காய்கறிச் சோறு, முட்டைச் சோறு

என்று இருக்குமானால், rice = சோறு என்று குத்துமதிப்பாகப் புரிந்து கொள்ளும். இதற்கு, கணினிக்கு தமிழோ ஆங்கிலமோ தெரியவேண்டாம். ஆனால், தனித்தனிச் சொற்களைப் புரிந்து கொண்ட பிறகு, சரியான சொற்றொடர் அமைப்பை உருவாக்க அந்தந்த மொழிகளில் இலக்கண அமைப்புகளைப் புரிந்து கொள்ளவும், அதனைக் கணினிக்குப் புரிய வைப்பதற்கான கட்டளைத் தொடர்களை எழுதவும் குறிப்பிட்ட மொழி அறிவு தேவைப்படும்.

தமிழில் இவ்வாறான இரு மொழி ஆவணங்கள் பெருமளவில் கிடைக்காததால், கூகுளே இத்தகையை ஆவணங்களை உருவாக்க முனைந்தது. இதனை முன்னிட்டு, சில தொழில்முறை மொழிபெயர்ப்பாளர்களைப் பணியில் அமர்த்தி ஆங்கில விக்கிப்பீடியாவில் உள்ள கட்டுரைகளை மொழிபெயர்த்துத் தமிழ் விக்கிப்பீடியாவில் இடச் செய்தது. இதே போன்று இந்தி, தெலுங்கு, வங்காளம், கன்னடம் உள்ளிட்ட இந்திய மொழிகளிலும் செய்தது.

முதல் சில நூறு கட்டுரைகள் இவ்வாறு இடப்படும் வரை கூகுள் தான் இந்தப் பணியைச் செய்கிறது என்று புரியாமல் இருந்தது. பிறகு, தமிழ் விக்கிப்பீடியரான சுந்தர், எதேச்சையாக இப்பணியில் ஈடுபட்டுள்ள கூகுள்காரர் ஒருவரைச் சந்திக்க நேர்ந்ந பிறகே இது கூகுளின் பணி என்று தெரியவந்தது.

கூகுள் இவ்வாறு இட்ட கட்டுரைகள் நீளமாக, முழுமையாக இருந்தாலும் பல சிக்கல்கள் இருந்தன. இவ்வாறு எழுதப்பட்ட கட்டுரைகள் தமிழ் விக்கிப்பீடியாவின் தர எதிர்ப்பார்ப்பை நிறைவு செய்யவில்லை. எழுத்துப் பிழை, இலக்கணப் பிழை, சொற்றொடர் அமைப்புப் பிழை, தகவல் பிழை மலிந்து இருந்தன. கூகுள் கருவியை உருவாக்குவதற்கான தேவையை முன்னிட்டு மொழிபெயர்ப்புகள் ஏனோ தானோவென்று அமைந்திருந்தனவே தவிர, ஒருவர் அக்கட்டுரையைப் படித்துப் பயன் பெறுவாரா என்ற நோக்கில் அமையவில்லை.

எனினும், கூகுள் போன்ற பன்னாட்டு நிறுவனம் ஒன்று சரியான முறையில் விக்கிப்பீடியாவுக்குப் பங்களிப்பதற்கான பெரிய அளவிலான சாத்தியத்தை முன்னிட்டு, தமிழ் விக்கிப்பீடியா தானாக முன்வந்து கூகுளுடன் சேர்ந்து இத்திட்டத்தை ஒருங்கிணைக்கும் பணியை ஏற்றுக் கொண்டது. இந்த ஒருங்கிணைப்பின் படிப்பினைகளைப் பொருத்து திட்டத்தைப் பல்வேறு இந்திய மொழிகளிலும் திற்னபடச் செய்யலாம் என்று நினைத்தோம்.

எனினும் கூகுள், மொழிபெயர்ப்பு நிறுவனங்கள் இரண்டுமே ஓரளவுக்கு மேல் தத்தம் நலனையே முன்னிறுத்தினவே ஒழிய, தமிழ் விக்கிப்பீடியாவின் நலனைக் கருத்தில் கொள்ளவில்லை. கிட்டத்தட்ட ஓராண்டு கால ஒருங்கிணைப்பு, 20க்கும் மேற்பட்ட தமிழ் விக்கிப்பீடியர்களின் நூற்றுக்கணக்கான மணி நேரங்கள் செலவழிப்பு, பயிற்சிகள், நேரடிச் சந்திப்புகளுக்குப் பிறகு, சொல்லாமல் கொள்ளாமல் இத்திட்டத்தில் இருந்து கூகுள் விலகிக் கொண்டது. இத்திட்டத்தின் மூலம் 1,000+ கட்டுரைகள் தமிழ் விக்கிப்பீடியாவில் ஏற்றப்பட்டன. அவற்றின் தரம் நிறைவு அளிக்காததால், அதற்கு மேல் ஒரேயடியாக கட்டுரைகளை ஏற்ற மறுத்து, பல தரக்கட்டுப்பாடுகளை உருவாக்கியதால் தமிழ் விக்கிப்பீடியாவுக்கு ஏற்பட்ட சேதம் ஓரளவு கட்டுப்படுத்தப்பட்டது. இப்போதும், அவர்கள் விட்டுச்சென்ற கட்டுரைகளைச் சீர் செய்ய பல ஆயிரம் மணி நேரம் செலவு ஆகும். கூகுளின் போக்கு பிடிக்காமல், வங்காள விக்கிப்பீடியர்கள் தொடக்கத்திலேயே கூகுள் திட்டத்தைத் தடை செய்தார்கள். தமிழ் தவிர பிற இந்திய மொழி விக்கிப்பீடியாக்களில் இத்திட்டத்தை பெரிய அளவில் சீர்படுத்தவில்லை என்பதால், இவ்விக்கிப்பீடியாக்களின் தரம் வெகுவாகப் பாதிக்கப்பட்டுள்ளது.

விக்கிப்பீடியா என்றால் என்ன, அதன் சமூகத்தின் தன்மை என்ன, கொள்கை – செயல்பாடுகள் என்ன என்று ஏதும் புரிந்து கொள்ளாமல், கூகுள் சகட்டு மேனிக்குக் கட்டுரைகளை உருவாக்கியது தவறு. கூகுள் ஒரு தேடு பொறி என்பதால் அது தானே இணையத்தில் உருவாக்கும் உள்ளடக்கங்கள் தேடல் முடிவுகளில் வந்தால் அதன் முதன்மை நோக்கத்தோடு முரணாகும். இந்தக் காரணத்தாலேயே கூகுளின் இந்ந விக்கிப்பீடியா பணி பெரிதாக அறிவிக்கப்படவில்லை. தவிர, இந்திய மொழிகளை இணையத்தில் வளர்ப்பதற்கான முயற்சி போல் போலித்தனமாகச் செயல்பட்டார்களே ஒழிய, ஒரு போதும் இது தங்கள் கருவியை மேம்படுத்துவதற்கான ஆய்வு முயற்சி என்று வெளிப்படையாக ஒப்புக் கொள்ளவில்லை. இத்திட்டத்தின் போது கூகுளின் இணைந்து செயல்பட்டு நேரடியாக அவர்களின் பண்பை அறிந்ததன் மூலம், அந்நிறுவனத்தில் மேல் வைத்திருந்த மதிப்பு வெகுவாக குறைந்துள்ளது என்பதே உண்மை.

காண்க: சென்ற ஆண்டு விக்கிமேனியாவில், இத்திட்டத்தின் நிறை குறைகள் பற்றி நான் அளித்த கட்டுரை.


Comments

7 responses to “கூகுள் தானியங்கித் தமிழாக்கக் கருவி”

  1. தேங்க்ஸ்சு பா..

  2. நன்றி. கூகுள் மொழிபெயர்ப்புக் கருவியின் பின்னணியில் நடைபெற்றவற்றை நான் அறிந்திருக்கவில்லை.

    இந்தக் கட்டுரையை (இந்தத் தளத்திற்குச் சுட்டியுடன்) எனது வலைப்பதிவில் இட விழைகிறேன். இது க்ரியேடிவ் காமன்ஸ் உரிமத்துடன் இருக்குமென எதிர்பார்த்தேன். இல்லாததால் அனுமதி கோருகிறேன் 🙂

    1. ரவிசங்கர் Avatar
      ரவிசங்கர்

      vignesh, இக்கட்டுரை பற்றிய அறிமுகம் / சுருக்கத்தைத் தந்து முழுக்கட்டுரையைப் படிக்க இங்கு இணைப்பு தந்தால் நன்றாக இருக்கும். நன்றி.

  3. sadashivam Avatar
    sadashivam

    கூகுளின் மொழிபெயர்ப்பு சேவை மெருகு ஏறியிருக்கும் தகவலை உங்கள் வலைப்பதிவைப் பார்த்துத்தான் தெரிந்துகொண்டேன். நன்றி.

    தெளிவாகவும், எளிமையாகவும் விளக்கியிருந்தீர்கள்.

    வாழ்க்கை நடப்புக்கள், அறிவியல்-தொழில்நுட்பம், நகைச்சுவை, தமிழ் மொழி என்று பல துறை ஆர்வம் உள்ள உங்களுக்கு நன்றாக எழுதவும் வருகிறது. வாரம் ஒரு பதிவாவது போட்டால் நன்றாக இருக்கும். எதிர்பார்கிறேன்!

  4. பலே பிரபு Avatar
    பலே பிரபு

    வலைச்சரத்தில் உங்கள் பதிவை அறிமுகம் செய்துள்ளேன். நேரம் இருப்பின் வாருங்கள், இல்லாவிட்டாலும் வந்துடுங்க கவிதை பந்தலில் இளைப்பாறலாம்

  5. VENDHAN J FELIX Avatar
    VENDHAN J FELIX

    அய்யா தமிழ் text ஐ ஆங்கில வாக்கியமாக மாற்றும் கூகிள் translater சாப்ட்வேராக download செய்துகொள்ளும் வண்ணம் கிடைக்காதா ?

    1. ரவிசங்கர் Avatar
      ரவிசங்கர்

      பதிவிறக்க முடியாதுங்க. கூகுள் வழங்கியில் தான் மொழிபெயர்ப்பு நடைபெறுகிறது என்பதால் இணைய இணைப்பு இருந்தால் தான் முடியும்.