பொற்பாலம்

பெசிபிக் பெருங்கடல் விரிகுடாவில் நுழைய,

அமெரிக்க கண்டத்தின் எல்லை, 

மேற்கே மரையும் ஞாயிறு,

சமுத்திரத்தின் உறவை அங்கீகர்க்கும் பாலம்,

யாதும் ஊரே, என்றது நீதானா?

வான்பசு – மொழியியல் மரப மரபணு

சென்ற வாரம் எங்களது வீட்டிற்கு மனைவியின் பக்கத்து சகோதரர் மற்றும் குடும்பத்தினர் வருகை. அண்ணன் மகன் சிறுவன் -தாய்ப்பாலுடன் தமிழையும் அறவே அருந்தியவன் போலும்.

Wild_turkey_eastern_us

வான்கோழி [Turkey]. படம் உரிமம்: விக்கிப்பீடியா

சிறுவன் அவனது அம்மாவுடன், விலங்குகளின் பணியாளர்களின் பெயர்களையும் ஒரு விளையாட்டாக தனக்கு தெரிந்த சொல்வளத்தினில் சொல்லிக்கொண்டு முறை மாற்றி மாற்றி விளையாடுவது அவன் பழக்கம்.

அவனது பெற்றோர் இதனை சிறிது நேரம் அவன் சலிப்பை நீக்கவும், அடம், பிடிவாதங்களில் இருந்து அவன் கவணத்தை திசை திருப்பவும் முயற்சி செய்வார்கள். ‘அடுத்த விலங்கு’ அல்லது ‘அடுத்த பணியாளர்’ போன்ற விளையாட்டுகளில் நாங்களும் பங்கேற்போம்.

ஒரு முறை, இப்படி விளையாடிக்கொண்டிருக்கையில், ஆட்டம் 15-20 விலங்குகளின் பெயர்களைத்தாண்டி போனது; அவனது சொல் வளத்தின் எல்லை என்றும் சொல்லாம். சிறுவனிடம், நான் ‘வான்கோழி’ என்று எனது பங்கிற்கு சொன்னேன். அவனும் எற்கனவே ‘நெருப்புக்கோழி’ என்றும் சொல்லியிருந்தான்.  தற்போது, அவன் ஆட்டம். என்ன சொல்லப்போகிறான்?

“வான்பசு,” என்று புன்சிரிப்புடன் வெற்றியை கைபிடித்தவன் போல சொன்னான். “தம்பி அப்படி ஒரு பசு கிடையாதே!”, என்று சொல்லி அவனை சமாதானப்படுத்துவது ஒரு காரியமானது.

ஆனால் என்ன ஒரு கவனிப்பு, மொழியியல் கூர்மை. ஆகா – வியந்தேன். அவனுக்கும் பகுதி, விகுதி, இதெல்லாம் தெரிந்திருக்குமோ? மொழியியல் வல்லுனர்களின் கணிப்பில், இருக்கலாம். நாலுவயசானாலும் என்ன, தமிழை பிரித்து மேயும் மூளை; தமிழ் தாய் வாழ்த்தும் பாடுவான் கிரிதிக்.

p.s: பிழைத்திருத்தங்களுக்கு நன்றி – திரு. ரவிராஜ் ஸ்புட்னிக்.

செல்வா

வருங்காலத்தில் ஒரு தமிழ் செயற்கை நுண்ணறிவு உருவாக்கப்படும். உடனுக்குடன் ‘இன்ஸ்டண்டா’ ஆங்கிலத்தில் இனையான தமிழ் சொற்களை தேடி அல்லது உருவாக்கி சொல்லும். ஆமாம் எந்திரம் சொல்லாடலில் எப்படியும் உள்ளே வரப்போகிரது. நமக்கும் உதவட்டுமே!

தமிழ் மரபுகளுடன், மொழி பழக்கவழக்கங்களுடன் சரிவர, முடிந்த அளவு வட மொழி சொற்கள் சேற்காமல், மேலும் ஒரு படி அதிகமாக ஆங்கிலம் கலப்பின்றி [முற்றிலும் ஒழிக்கமுடியுமா? தெரியவில்லை; கணினிதானே, இலக்கைவைத்தால் முடியாதா என்ன ?]

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள்.

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள். (c) Lucas Films, Inc. and Star Wars franchise

இத்தகைய செயற்கை நுண்ணறிவு உருவாக்கினால், அதற்கு செல்வா என்று செல்லமாக பெயரிடுவோம். அரிமா ரோபோ C-3PO, R2D2 மாதிரியான, புவியில் இல்லாத தமிழ் அறிவு கொண்ட ஒரு ஓரகில் [Oracle]-ஆக அமையுமோ என்னவோ. ஐயா கலாம் சொன்னது கனவுகள் நினைவாக விழித்திடு; தூக்கத்தை கலைத்திடு.

 

Tamil billboard; credits - masanori_jpn via Flickr.

Latha vs Bamini – 1

Well, this blog post is not about any famous cat-fight: ‘sabaash – sariyaane potTi!’

80535-epqqqdhsmh-1517237957

Frame grab from the song ‘Kannum Kannum’ from movie ‘Vanjikottai Vaaliban’ with danseuse rivals Padmini and Vaijayanthimala.

but about the more mundane issue of resolution of Tamil letters that maybe affecting visual acuity and usage in practical things like billboards. Yes, we know Latha (is Tamil font from Microsoft) and Bamini famous storied font created in 1980s. Bamini font is also used in the Chennai Metro, Colombo railway station among other places; creator of Bamini was recently felicitated with 2017 Tamil Computing award for the pioneering efforts in the dawn of digital era.

Back to resolution; ‘kannu theriyithaa ?’ is the usual expression but it really asks the question are you able to see the object/thing/place/person – and not literally ‘do you have vision?’

In optical science, it is well known that free-space – distance – acts as a filter introducing blurs into the image. This is the mechanism behind why we don’t see details of far-away billboards and they grow in detail as one may approach them.

Tamil billboard; credits - masanori_jpn via Flickr.

Tamil billboard; credits – masanori_jpn via Flickr.

So if you are advertising in large billboards, obviously you want to be visible to audiences as far as laws of physics [Rayleigh resolution limit] will allow.

We can gather from simple considerations the following:

  1. Larger the letters farther away they maybe visible
  2. Longer wavelengths of light [Red (longer) – Violet (shorter)] farther they are visible without being scattered

So you can ask, if all the billboards are painted in large bold Tamil letters ‘adikkira maathiri’, will be visible for very long distances ? Yes. And they will also be boring.

This knowledge does not help us to choose between two fonts, since we can draw/write/pain letters in their character in any size and color – just the shape remains fixed.

Now to properly analyze the two fonts for best visual acuity, we may consider the following criteria:

  1. All letters compared need to be same in both fonts
  2. Viewer is considered to observe the projected font/printed text/billboard from progressively farther and farther distances.
  3. Essentially font corresponding to the billboard which is visible from farthest distance is the winner/better font in this criteria

Before we start drawing conclusions you also want the test subjects to have 20/20 vision or wear corrective prescription eye glasses for the same level of vision.

Now, regardless of the color and size of the fonts we can use the criteria to compare the acuity of the fonts.

But wait, can we do this by computer modeling without paint, labor and 20/20 vision subjects? You betcha! This will be subject of next blog post.

Until then…. Vaazhga Valamudan.

-Muthu

அன்பழகன் வாத்தியார்

எனது தமிழ் ஆசிரியர் கேட்டார் ‘சவம்-னா இறப்பின் பின் உள்ள சடலம், என்பது தெறியாதா?’ அப்பதான் ‘அன்பே சிவம்‘ என்பதை ‘அன்பே சவம்‘ என்று அவசரத்தில் எழுதியது புலபட்டது.  அன்பழகன் சார், அவருக்கு இனிமையா இதை பாடம் கற்பிக்க மட்டும் ஒரு வாய்பாகதான் தெறிஞ்சிருக்கு. அப்ப எனக்கு edit-distance by one (சிவம் -> சவம்) அதனால் வந்த வினை என தெறியாது. அவர்கையில் கற்றது வாழ்வில் ஒரு நல்ல அனுபவம்.

Today’s blog topic is spell-checking.

cvymtb4veaavvse

It is well known that Bayesian methods can be used to correct spelling error (see Prof. Daniel Jurafsky & James H. Martin book chapter); the above example (‘அன்பே சிவம்’) with real-word error (i.e. error is made not in dictionary word but semantic error) can be easily corrected if we have word level bi-gram data and uni-gram data. This can easily be collected from Tamil Wikipedia data dumps, or Project Madurai. [Hint: project tip for engineering/math/cs students].

While letter level uni, bi and tri-gram data exist for Tamil in open-tamil project and part of my work at Tamil-TTS here, this remains to be not publicly available. Once this data – made available in public-domain – can be integrated, the various Tamil spell checkers in Tamil like Rajaraman’s Vaani, Dr. Vasu Renganathan’s, and our solthiruthi can make use of it. Potentially hunspell, aspell tools can be updated at their suggestion level modules to provide appropriate suggestions.

Future generations will never know of ‘அன்பே சவம்’. 🙂

முத்து,

San José, CA