Google-இல் பொறியாளர் வேலை

உலகில் தலைசிறந்த பொறியாளர் ஆண்-பெண்கள் Google-இல் வேலை செய்வதாக கேள்வி. ஆமாம் நனும், நீங்களும் தினமும் கோடு, ரோடு எல்லம் தான் காலா காலமாக போடுகிரோமே அப்படி கூகிளில் என்ன புளியகரச்சு ஊத்திராங்க ?

படம்: கணினி பொறியாளர் வேலைக்கு தயாராக்கும் நேர்க்காணல் புத்தகங்கள்!

சரி.

இதுதாங்க – நம்ம திக்கி தினரி, Stack-Overflowவில் பார்த்து விடை காணுவதில்லாமல் அல்கோரிதங்களில் புலியாகவும் இருப்பது இவர்களின் முதன்மை சிறப்பு!

நீங்கள் இந்தவகை பன்னாட்டு நிறுவனங்களில் அல்லது, உயர்நிலை கணினி தொழிலில் நிரலாளராக வேலை பார்க்க சில படிகள் உண்டு.

  1. ஒரு கணினி பொறியியல் பட்டம் பெற்றும், அதில் கணினி நிரல்கள் வடிவமைப்பதில் வித்தகராக தேற்சி பெருங்கள். இது இல்லட்டியும் பரவாயில்லை.
  2. சில பிரசித்தி பெற்ற வலைப்பூ இருக்கிரது – அவற்றையும் படியுங்கள்; 1 இணைப்பு, 2 இணைப்பு
  3. சில நேர்காணல் புத்தகங்களைப் படியுங்கள்; இவை
    1. ‘Cracking the coding interview,’ – Gayle Laakman இங்கு
    2. ‘Programming interviews exposed’ – John Morgan, et-al இங்கு
  4. சில நல்ல கணினி செயல்முறை புத்தகங்கள் பற்றியும் படியுங்கள்; இவை பற்றி முதல், இரண்டாம் கட்டுரைகள் எற்கணவே இங்கும் [முதல்], இங்கும் [இரண்டு].

இவைகளை நீங்கள் படித்தும், இவற்றில் உள்ள பயிற்சி பாடங்களை கணக்கிட்டும், தீர்வு கண்டும் ஆறு மாதம் அல்லது ஒரு வருடம் முயன்றால் நல்ல விளைவுகள் கிட்டும். கண்டிப்பாக நீங்கள் ஒரு வளர்ச்சி பெற்ற பொறியாளர் ஆவீர்கள்!

Not Durian

It is easy to confuse Jackfruit and Durian. Jackfruit is one of the famous ‘muk kani’ [முக்கனி – மா, பலா, வாழை] trio of fruits from Tamilnadu – Mango, Jack and Banana. Durian is not quite native of Tamilnadu [AFAIK], but more popular in equatorial south east Asia. Not to be out done, Tamil people have gotten taste of this fruit as well; globally however Durian aficionados remain a minority – the fruit is more widely known for being banned from airlines, airports and public arenas for its somewhat off-putting smell to the people unfamiliar with its taste; those ignorant of such this finer thing have no proclivity to this fruit and continue to cast bad light on it.

One day last year during the Thanksgiving holiday here in California, I went out to a grocery store in Bay Area. Silicon Valley, Lyndon B. Johnson’s opening up gates of America to Asian immigrants, the Gold Rush, Spanish Missions in reverse chronological order has settled this area with several immigrant populations – and today we are thankful for bountiful Pan-Asian, European, Hispanic options in the area.

At this grocery store there was big sign : “NOT DURIAN”, and a 1lb pieces of fruit were marked $5. Fresh Jackfruit is pretty much unheard of in USA except when imported and sliced open by immigrant run grocery stores in diverse communities in the area. Definitely, Bay Area qualifies for such a place. While the sign was written with intent to invite Durian wary folk to try and taste the Jackfruit, it did leave a bad taste before trying out the fruit.

Jackfruit pieces – Not Durian! – https://en.wikipedia.org/wiki/Jackfruit

Maybe, just maybe our languages and heritage are having bad publicity and marketing and sometimes misrepresentation and misinformation to turn away new speakers, learners and teachers, adoption of language in newer markets and products. Maybe our languages are not Durian. We are the Jackfruit.

அடிக்கடி தமிழில் பலர் சொல்லி கேள்விப்பட்டிருக்கேன்: “தமிழ் பலாப்பழம் மாதிரி, வெளியிருந்து உள்ள வர முள்ளாத் தெரியும், ஆனால் சொழ சொழயா பழங்கள் இந்த முள்ளை தாண்டி வந்தால் காத்திருக்கு!”. முயற்சி திருவினையாகும்.

P.S.: Images credit Wikipedia.

பொற்பாலம்

பெசிபிக் பெருங்கடல் விரிகுடாவில் நுழைய,

அமெரிக்க கண்டத்தின் எல்லை, 

மேற்கே மரையும் ஞாயிறு,

சமுத்திரத்தின் உறவை அங்கீகர்க்கும் பாலம்,

யாதும் ஊரே, என்றது நீதானா?

வான்பசு – மொழியியல் மரப மரபணு

சென்ற வாரம் எங்களது வீட்டிற்கு மனைவியின் பக்கத்து சகோதரர் மற்றும் குடும்பத்தினர் வருகை. அண்ணன் மகன் சிறுவன் -தாய்ப்பாலுடன் தமிழையும் அறவே அருந்தியவன் போலும்.

Wild_turkey_eastern_us

வான்கோழி [Turkey]. படம் உரிமம்: விக்கிப்பீடியா

சிறுவன் அவனது அம்மாவுடன், விலங்குகளின் பணியாளர்களின் பெயர்களையும் ஒரு விளையாட்டாக தனக்கு தெரிந்த சொல்வளத்தினில் சொல்லிக்கொண்டு முறை மாற்றி மாற்றி விளையாடுவது அவன் பழக்கம்.

அவனது பெற்றோர் இதனை சிறிது நேரம் அவன் சலிப்பை நீக்கவும், அடம், பிடிவாதங்களில் இருந்து அவன் கவணத்தை திசை திருப்பவும் முயற்சி செய்வார்கள். ‘அடுத்த விலங்கு’ அல்லது ‘அடுத்த பணியாளர்’ போன்ற விளையாட்டுகளில் நாங்களும் பங்கேற்போம்.

ஒரு முறை, இப்படி விளையாடிக்கொண்டிருக்கையில், ஆட்டம் 15-20 விலங்குகளின் பெயர்களைத்தாண்டி போனது; அவனது சொல் வளத்தின் எல்லை என்றும் சொல்லாம். சிறுவனிடம், நான் ‘வான்கோழி’ என்று எனது பங்கிற்கு சொன்னேன். அவனும் எற்கனவே ‘நெருப்புக்கோழி’ என்றும் சொல்லியிருந்தான்.  தற்போது, அவன் ஆட்டம். என்ன சொல்லப்போகிறான்?

“வான்பசு,” என்று புன்சிரிப்புடன் வெற்றியை கைபிடித்தவன் போல சொன்னான். “தம்பி அப்படி ஒரு பசு கிடையாதே!”, என்று சொல்லி அவனை சமாதானப்படுத்துவது ஒரு காரியமானது.

ஆனால் என்ன ஒரு கவனிப்பு, மொழியியல் கூர்மை. ஆகா – வியந்தேன். அவனுக்கும் பகுதி, விகுதி, இதெல்லாம் தெரிந்திருக்குமோ? மொழியியல் வல்லுனர்களின் கணிப்பில், இருக்கலாம். நாலுவயசானாலும் என்ன, தமிழை பிரித்து மேயும் மூளை; தமிழ் தாய் வாழ்த்தும் பாடுவான் கிரிதிக்.

p.s: பிழைத்திருத்தங்களுக்கு நன்றி – திரு. ரவிராஜ் ஸ்புட்னிக்.

செல்வா

வருங்காலத்தில் ஒரு தமிழ் செயற்கை நுண்ணறிவு உருவாக்கப்படும். உடனுக்குடன் ‘இன்ஸ்டண்டா’ ஆங்கிலத்தில் இனையான தமிழ் சொற்களை தேடி அல்லது உருவாக்கி சொல்லும். ஆமாம் எந்திரம் சொல்லாடலில் எப்படியும் உள்ளே வரப்போகிரது. நமக்கும் உதவட்டுமே!

தமிழ் மரபுகளுடன், மொழி பழக்கவழக்கங்களுடன் சரிவர, முடிந்த அளவு வட மொழி சொற்கள் சேற்காமல், மேலும் ஒரு படி அதிகமாக ஆங்கிலம் கலப்பின்றி [முற்றிலும் ஒழிக்கமுடியுமா? தெரியவில்லை; கணினிதானே, இலக்கைவைத்தால் முடியாதா என்ன ?]

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள்.

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள். (c) Lucas Films, Inc. and Star Wars franchise

இத்தகைய செயற்கை நுண்ணறிவு உருவாக்கினால், அதற்கு செல்வா என்று செல்லமாக பெயரிடுவோம். அரிமா ரோபோ C-3PO, R2D2 மாதிரியான, புவியில் இல்லாத தமிழ் அறிவு கொண்ட ஒரு ஓரகில் [Oracle]-ஆக அமையுமோ என்னவோ. ஐயா கலாம் சொன்னது கனவுகள் நினைவாக விழித்திடு; தூக்கத்தை கலைத்திடு.

 

Tamil billboard; credits - masanori_jpn via Flickr.

Latha vs Bamini – 1

Well, this blog post is not about any famous cat-fight: ‘sabaash – sariyaane potTi!’

80535-epqqqdhsmh-1517237957

Frame grab from the song ‘Kannum Kannum’ from movie ‘Vanjikottai Vaaliban’ with danseuse rivals Padmini and Vaijayanthimala.

but about the more mundane issue of resolution of Tamil letters that maybe affecting visual acuity and usage in practical things like billboards. Yes, we know Latha (is Tamil font from Microsoft) and Bamini famous storied font created in 1980s. Bamini font is also used in the Chennai Metro, Colombo railway station among other places; creator of Bamini was recently felicitated with 2017 Tamil Computing award for the pioneering efforts in the dawn of digital era.

Back to resolution; ‘kannu theriyithaa ?’ is the usual expression but it really asks the question are you able to see the object/thing/place/person – and not literally ‘do you have vision?’

In optical science, it is well known that free-space – distance – acts as a filter introducing blurs into the image. This is the mechanism behind why we don’t see details of far-away billboards and they grow in detail as one may approach them.

Tamil billboard; credits - masanori_jpn via Flickr.

Tamil billboard; credits – masanori_jpn via Flickr.

So if you are advertising in large billboards, obviously you want to be visible to audiences as far as laws of physics [Rayleigh resolution limit] will allow.

We can gather from simple considerations the following:

  1. Larger the letters farther away they maybe visible
  2. Longer wavelengths of light [Red (longer) – Violet (shorter)] farther they are visible without being scattered

So you can ask, if all the billboards are painted in large bold Tamil letters ‘adikkira maathiri’, will be visible for very long distances ? Yes. And they will also be boring.

This knowledge does not help us to choose between two fonts, since we can draw/write/pain letters in their character in any size and color – just the shape remains fixed.

Now to properly analyze the two fonts for best visual acuity, we may consider the following criteria:

  1. All letters compared need to be same in both fonts
  2. Viewer is considered to observe the projected font/printed text/billboard from progressively farther and farther distances.
  3. Essentially font corresponding to the billboard which is visible from farthest distance is the winner/better font in this criteria

Before we start drawing conclusions you also want the test subjects to have 20/20 vision or wear corrective prescription eye glasses for the same level of vision.

Now, regardless of the color and size of the fonts we can use the criteria to compare the acuity of the fonts.

But wait, can we do this by computer modeling without paint, labor and 20/20 vision subjects? You betcha! This will be subject of next blog post.

Until then…. Vaazhga Valamudan.

-Muthu

அன்பழகன் வாத்தியார்

எனது தமிழ் ஆசிரியர் கேட்டார் ‘சவம்-னா இறப்பின் பின் உள்ள சடலம், என்பது தெறியாதா?’ அப்பதான் ‘அன்பே சிவம்‘ என்பதை ‘அன்பே சவம்‘ என்று அவசரத்தில் எழுதியது புலபட்டது.  அன்பழகன் சார், அவருக்கு இனிமையா இதை பாடம் கற்பிக்க மட்டும் ஒரு வாய்பாகதான் தெறிஞ்சிருக்கு. அப்ப எனக்கு edit-distance by one (சிவம் -> சவம்) அதனால் வந்த வினை என தெறியாது. அவர்கையில் கற்றது வாழ்வில் ஒரு நல்ல அனுபவம்.

Today’s blog topic is spell-checking.

cvymtb4veaavvse

It is well known that Bayesian methods can be used to correct spelling error (see Prof. Daniel Jurafsky & James H. Martin book chapter); the above example (‘அன்பே சிவம்’) with real-word error (i.e. error is made not in dictionary word but semantic error) can be easily corrected if we have word level bi-gram data and uni-gram data. This can easily be collected from Tamil Wikipedia data dumps, or Project Madurai. [Hint: project tip for engineering/math/cs students].

While letter level uni, bi and tri-gram data exist for Tamil in open-tamil project and part of my work at Tamil-TTS here, this remains to be not publicly available. Once this data – made available in public-domain – can be integrated, the various Tamil spell checkers in Tamil like Rajaraman’s Vaani, Dr. Vasu Renganathan’s, and our solthiruthi can make use of it. Potentially hunspell, aspell tools can be updated at their suggestion level modules to provide appropriate suggestions.

Future generations will never know of ‘அன்பே சவம்’. 🙂

முத்து,

San José, CA