சொல்திருத்தி – தெறிந்தவை 3

இந்த தொடரில் இதுவரை ஆய்வுகளைப்பற்றி மட்டுமே இதுவரை பார்த்தோம். இப்போது சில செயல்முரை அல்கொரிதங்களை பார்க்கலாம்.

1 மேலோட்டமான சில குறிப்புகள்

சொல்திருத்தியில் பிழையான சொல் ஒன்றை முதலில் கண்டரிந்தபின், அதற்கு எப்படி ஒரு மாற்றை [என்ற ஒரு தோராயமான சொற்பிழை நீக்கப்பட்ட பொருத்தத்தை எப்படி] உருவாக்குவது ? இதற்கு தேவை திருத்தத் தொலைவு d.

இயற்ப்பியலில், புள்ளியியலில் இவ்வாரான் கேள்வியை ஒரு optimization வடிவத்தில் மாற்றி இதனை தீர்வுகாணலாம். இதனைப்போல் சொல்திருத்தியில்,

மாற்றுச் சொல் = arg-min [ d[ச,த] ]   

இதன் பொருள் என்ன என்றால் கொடுக்கப்பட்ட தவரான் சொல் த என்பதற்கு நமது செயலி அதன் அகராதியில் உள்ள ஒவ்வொரு சொல்லில்லும் அதன் தொலைவை கண்டறிந்து அவற்றில் எந்தெந்த சொற்கள் மிகக் குறைவான தொலைவில் உள்ளனவோ அவற்றையே சரியான சொல் என்ற பட்டியலில் பரிந்துரைக்கும். இதற்கு உதாரணமாக கட்டுரையின் மூன்றாவது பகுதியில் நிரல் துண்டு பார்க்கலாம்.

2 தொலைவு

தொலைவு – இரு சொற்களுக்கும் உள்ள நெறுக்கத்தை நாம் சொல்திருத்தியில் கணக்கிட வேண்டிய தேவை இருக்கிரது. ஏனெனில், ஒரு தவரான் சொல் உரையில் உள்ளீடு செய்யப்பட்டிருந்த்தால் அதற்கு மாற்றை தானியங்கி வழியில் கண்டறிய [அதவது இதன் மாற்றுச்ச்சொல்] இதற்கு பொருத்தமாகவும், நேருக்கமாகவும் இருக்கும் என்பது கணினியாளர்களும், மொழியியலாளர்களும் ஒப்புக்கொண்ட ஒரு கோட்பாடு. இதனை செயல்படுத்த கணினியாளர்கள் கொண்ட ஒரு மதிப்பீடு தொலைவு. இதனை திருத்தத் தொலைவு என்று சொல்வார்கள் [edit-distance].

ஒரு சொல்லினை அதன் உருப்பு எழுத்துக்களை இடம் மாற்றியோ, எழுத்துக்கள் கூட்டியே, அல்லது எழுத்துக்கள் நீக்கியோ மற்றொரு சொல்லாக மாற்ற எத்தனை படிகள் உள்ளன என்று கணக்கிட்டு சொல்வதானது இத்தகைய திருத்தத் தொலைவு சார்பு. இதனை கண்டுபிடித்த பலருள் திரு லெவின்ஷ்டீன் அவரது பெயரை இணைத்து லெவின்ஷ்டீன் திருத்தத் தொலைவு என்று கூறுகின்றார்கள் அறிவியலாளர்கள்.

இதன் பொருள் என்ன ? இதன் அமைப்பு எப்படிபட்டது ? கணிதவியலில், தினசரி வாழ்வில் எப்படி தொலைவு நிர்னயிக்கப்படுகிரது என்து போல், ஒரே இடத்தில் உள்ள பொருளுக்கும் அதே பொருளுக்கும் தொலைவு எதுவும் இல்லை – 0. அதே மாதிரி ஒரே சொல்லிர்கும் அதே சொல்லின் நகலுக்கும் தொலைவு 0. பிரகு, உங்கள் வீட்டிற்கும் உங்கள் பக்கத்துவீட்டிற்கும் தொலைவு என்ன ? தொலைவு 1 அல்லது கூடுதலாகவே இருக்கவேண்டும் இல்லையா ? பக்கத்து வீட்டார்க்கும் உங்கள் வீட்டிற்கும் உள்ள தொலைவு, உங்கள் வீட்டிற்கும் அவர்களது வீட்டிற்கும் உள்ள தொலைவும் ஒரேபடியானதாக இருக்கும். d[a,b] = d[b,a] என்பது ‘commutativity‘ என்ற சார்பின் குணத்தை இந்த திருத்த தொலைவு சார்பும் கொண்டது. [அதையும் – ‘போத்திக்குனு படுத்துக்கலாம், படுத்துக்குனு போத்திக்கலாம்‘ என்று பல முதிய தமிழ் மைக்கில் ஜாக்சன்கள் சொல்லியதை நினைவு கொள்ளலாம்]. அதுவே பொது அறிதல். இதைப்பொல குணங்களைக்கொண்ட சார்புகளை கணிதவியலில் ‘metric‘ என்றும் சொல்வார்கள் – அதாவது அளக்கும் சார்பு.

3 சிரிய எடுத்துக்காட்டு

ஒப்பன் தமிழ் நிரல் தொகுப்பில் ஒரு சில் உத்திகள் உள்ளது அவற்றில் திருத்தத் தொலைவு சார்பும் ஒன்று. இதனைக் கொண்டு ஒரு சிரிய உதாரனத்தை பார்க்கலாம்.

அகராதியில் உதாரனத்திற்கு 5 சொற்கள் இருக்கு என்று மட்டும் கொள்ளல்லாம்.

அகராதி A என்பதில் [‘அவிழ்’,’அவல்’,’அவள்’,’தவில்’,’தவள்’] என்ற் சொற்கள் இருக்கு என்றும் உள்ளிட்டு சொற்கள் ‘ஏவள்’, ‘இவல்’ என்று கொடுக்கபட்டது என்றும் கொள்வோம். இதற்கு என்ன மாற்றுக்கள் ?

பகுதி ஒன்றின் படி இந்த புள்ளியியல் குரைந்த பட்ச தெடலை பைத்தான் மொழியில் இப்படி எழுதலாம்:

இதனை இயக்கினால் நாம் பார்கக்கூடிய வெளியீடு இப்படி; அதாவது நமது சிரிய சொல்திருத்தி அல்கொரிதம் ‘ஏவள்’ என்பதை ‘அவள்’ என்றும், ‘இவல்’ என்பதை ‘அவல்’ என்றும் மாற்றாக பரிந்துரைக்கிரது. மேலும் கவனித்து பார்த்தால் ‘ஏவள்’ என்பது ‘தவள்’ என்பதற்கும் நெருக்கமான தொலைவில் உள்ளது ‘distance’ என்ற தொலைவு பட்டியலில் தெறியும்.

ஒப்பன் தமிழ் நிரல் மற்றும் இயக்கிய வெளிப்பாடு இங்கு.

மேலும் மற்ற அல்கோரிதங்களைப் பற்றி அடுத்த பதிவுகளில் மேலோட்டமாக பாற்கலாம்.

விரிகூடா தமிழ் பொங்கல் விழா 2019 – மதிப்புரை

விரிகுடா பகுதி தமிழ்மண்றம் பொங்கல் விழா – Tamil Mandram Pongal Festival event this weekend. யார் வாரங்க தெரியுமா ? திரு. உதயசந்திரன் IAS அவர் சிரப்புரை ஆற்றினார். கலை நிகழ்ச்சிகள் மற்றும் திறந்த சந்தைகள் இருந்தன.

விழாவிற்கு BATM – விரிகூடா தமிழ் மன்றம் இந்த விளம்பரத்தை தயாரித்தது:

குறிப்பாக அவரது உரையில் :

  • தமிழ் இணைய கல்விகழகத்தில் ஆன் பணிகள்,
  • தமிழ் மொழி, தமிழ்நாடு – கலிபோனியா இரண்டிலும் உள்ள சரிசமமான அரசியல் முன்னோக்கிய பார்வைகள், போன்றவற்றையும் பற்றி போசினார்
  • அவரது தமிழ் பள்ளி புத்தகத்துரையின் பணிகள் பற்றியும் தமிழ் நாடு அரசு பள்ளி பாட நூல் கழகத்தில் புதிய புத்தகங்களை உருவாக்கும் பணி, அதன் வெற்றிகள், நீட் தேர்வு பற்றியும் பேசினார்
  • தற்சமயம் அவரது தொல்லியல் துரை பணிகள் பற்றியும், கீழடி பற்றியும் விரிவாக பேசினார்.
  • முடிவில் சில கேள்விகளூக்கும் நேரம் இருந்தது
  • அவரது முழு உரை இங்கு கேட்கலாம்.

ஒலி உரை மாற்றி வெளியீடு!

உங்களது தமிழ் உரைகளை ஒலி வடிவாக்க கணியம் அறக்கட்டளைஒரு புதிய சேவைஉருவாக்கியுள்ளது. பயன்படுத்த சுட்டி http://tts.kaniyam.com

அழகின் சிறிப்பு. தமிழ் தோட்டத்தில் ஒரு ரோஜா.

இந்த செயலியின் வெளியீடு அறிக்கையை இங்கு காணலாம்:  வாழ்துக்கள் கணியம் அறக்கட்டளை, குழு நபர்கள்! ‘ஊரே கூடி தேர் இழுத்ததாக’ சுவையான http://tts.kaniyam.comஉரையொலி மாற்றியைவெளியீட்டு செய்தியில் குறிப்பிடதும் ஒரு திறமூல உறவுகளின் சிறப்பு!. அடுத்ததா எப்போதிருவிழா?  🎇🎠✨

செயல்படுத்துதல்

சரி இந்த சேவையை எப்படி செயல்படுத்தலாம் ? இதோ இதனை படிப்படியாக புட்டு வைக்க முயற்சி கீழே. இதில் உங்களது உரைவடிவ கோப்புக்களை [file] தளத்தில் ஏற்ற வேண்டும் – பின்பு தளம் உங்களது .

  1. கணக்கை உருவக்குங்கள்; இதில் பயனர் பெயர், கடவுச்சொல் குடுக்கவேண்டும்.
  2. இரண்டாவது, தளத்தில் இருந்து ஒரு மினஞ்சல் வரும் – அந்த சுட்டியை திறக்கவும்.
  3. தற்போது நீங்கள் உள்நூழயலாம்; [இதற்கு எற்கணவே படி 1-இல் குடுக்கப்பட்டுள்ள திரையில் செல்லலாம்]. உங்களது உரையை சாதா கோப்பாக இதில் இடவும். PDF போன்ற கோப்புகளை நிங்கள் இந்த செயலியில் இடும்முன் மாற்றவேண்டும்.
  4. ஏற்றுமதி செய்தபின் தளம் உங்களது உரையை ஒலியாக மாற்ற சில நேரம் ஆகும். இதனால் உங்களது வோலை முடிந்த பின் அதற்க்கான் மின் அஞ்சலை பெரும் வரை காத்திருக்கவும். தற்ச்சமையம் உடனுக்குடன் பெரும்வகை இதனை செயல் படுத்த இயலாது.
  5. மின் அஞ்சல் வந்தபின் அதனில் உள்ள சுட்டியில் உங்கள் உரை மின் ஒலிவடிவில்! முற்றிலும் இலவசம்!


ஒலிமாற்றியின் தரம்!

நீங்களே கேட்டு முடிவு செய்யுங்கள்! எனது மூல கோப்பு இங்கு – இதன் வெளியீடு ஒலி இங்கு கேட்கவும்.

தொழில்நூட்பங்கள்

ஒரு மூத்த கணினி நிரலாளரின் கூற்றின் படி ‘கணினித்துரையின் கோட்பாடுகள் கண்டறிந்து சில பத்தாண்டுகளே ஆனது. இதில் உள்ள கோட்பாடுகள் இயற்க்கை அறிவியலால் கட்டுப்பட்டதல்ல’ என்ற பொருளில் இந்த படைப்பை நான் பாற்க்கிரேன்.

உரை-ஒலி மாற்றியில் பல digitial signal processing சவால்கள் உள்ளன. இவற்றை படிப்படியாக கடந்த பெருமை, உழைப்பு, பாராட்டுக்கள் பேரா. திரு. தி. நாகராஜன் [SSN பொறியியல் கல்லூரி] -யை சேரும். இவரது தலைமையில் unit-selection-synthesis என்ற முறையில் Festival என்ற எடின்புரூ பல்கலைக்கழகத்தின் ஆராய்ச்சி தளத்தின்வாயில் இவரது தமிழ் மொழி ஆராய்ச்சிகள் இருந்திருக்கின்றன.

IT-SSN தமிழ் உரைஒலி மாற்றியைசிறப்பாக ஆறாச்சி செய்த பேராசிரியர் திரு.தி.நாகராஜன். link: http://www.ssn.edu.in/Speech_Lab/members/drtnagarajan.html) ssn.edu.in/Speech_Lab/mem…
Festival – இதன் வாயில் இன்று ஒரு தமிழ் திருவிழா

ஆனால் இந்த இவரது ஆராய்ச்சிகள், இந்திய அரசின் வரி பணத்தில் ஒரு பங்கில் இருந்து வந்தாலும், இது எளிதில் பொது வளியில் இந்த மென்பொருள் வெளிவரவில்லை; இதற்கு தகவல் தொழில் நூட்பம் சட்டத்தின் கீழ் [RTI] திரு. சீனிவாசன் சென்ற ஆண்டு முயற்சிகள் எடுத்தும் வழி நடத்தியும், தனது பணிகளினால் இந்த மென்பொருளை பொது வெளியில் பயன்படுத்தும் அளவில் கொண்டுவந்தார்.

கிட் இல் வெளியீடு: மே மாதம் 2018
https://github.com/tshrinivasan/tamil-tts-install

இது இரண்டு மட்டுமே நமக்கு இன்ரு கணியத்தில் இந்த சேவை கிடைக்க மூல காரணமாக இருக்கிரது. கணியம் ஆசிரியர் அவரது வெளியீட்டில் வலை சர்வர் மென்பொருள் கட்டமைப்பு அதனை உருவாக்கியவர்கள் பற்றியும் குறிப்பிட்டுள்ளார்.

கணியம் அறக்கட்டளை, IIT-SSN கூட்டனி, மேலும் அயராமல் உழைத்து பொது மக்கள் பயன்பாட்டிற்கு இந்த தொழில் நூட்பங்களை வழங்கிய அனைவருக்கும் இதயம்கனிந்த நன்றி! வாழ்க, வளமுடன்.

Not Durian

It is easy to confuse Jackfruit and Durian. Jackfruit is one of the famous ‘muk kani’ [முக்கனி – மா, பலா, வாழை] trio of fruits from Tamilnadu – Mango, Jack and Banana. Durian is not quite native of Tamilnadu [AFAIK], but more popular in equatorial south east Asia. Not to be out done, Tamil people have gotten taste of this fruit as well; globally however Durian aficionados remain a minority – the fruit is more widely known for being banned from airlines, airports and public arenas for its somewhat off-putting smell to the people unfamiliar with its taste; those ignorant of such this finer thing have no proclivity to this fruit and continue to cast bad light on it.

One day last year during the Thanksgiving holiday here in California, I went out to a grocery store in Bay Area. Silicon Valley, Lyndon B. Johnson’s opening up gates of America to Asian immigrants, the Gold Rush, Spanish Missions in reverse chronological order has settled this area with several immigrant populations – and today we are thankful for bountiful Pan-Asian, European, Hispanic options in the area.

At this grocery store there was big sign : “NOT DURIAN”, and a 1lb pieces of fruit were marked $5. Fresh Jackfruit is pretty much unheard of in USA except when imported and sliced open by immigrant run grocery stores in diverse communities in the area. Definitely, Bay Area qualifies for such a place. While the sign was written with intent to invite Durian wary folk to try and taste the Jackfruit, it did leave a bad taste before trying out the fruit.

Jackfruit pieces – Not Durian! – https://en.wikipedia.org/wiki/Jackfruit

Maybe, just maybe our languages and heritage are having bad publicity and marketing and sometimes misrepresentation and misinformation to turn away new speakers, learners and teachers, adoption of language in newer markets and products. Maybe our languages are not Durian. We are the Jackfruit.

அடிக்கடி தமிழில் பலர் சொல்லி கேள்விப்பட்டிருக்கேன்: “தமிழ் பலாப்பழம் மாதிரி, வெளியிருந்து உள்ள வர முள்ளாத் தெரியும், ஆனால் சொழ சொழயா பழங்கள் இந்த முள்ளை தாண்டி வந்தால் காத்திருக்கு!”. முயற்சி திருவினையாகும்.

P.S.: Images credit Wikipedia.

Artful Arisuvadi – Tamil Alphabet Nomograms

Some weeks ago I started playing with and made a bunch of alphabet nomogram style pictures with Easel JS. Its interesting to think of possibilities.

Canonical Tamil has 12 + 1 vowels [உயிர்], 18 consonants [மெய்] and 12×18 = 216 [உயிர்மெய்] conjugate letters. Together the can be arranged in a Table of named column [12 for vowels] and named rows [18 for consonants] and cells of row-column at the conjugate letters.

I posted several images on Twitter; first one based on 3 concentric circles arrangement of the letters.

Arisuvadi – (C) 2018 Muthu Annamalai

Another image based on sunflower-spiral:

Arisuvadi – (C) 2018 Muthu Annamalai

The other based on a logarithmic spiral: 

Arisuvadi – (C) 2018 Muthu Annamalai

Another image looks to illustrate vowels and consonants as an interactive widget where you select uyir and mei letters from the outer + inner circles to form the uyirmei conjugate letter in the center.

Arisuvadi – (c) 2018 Muthu Annamalai

Tamilisch – தமிழ் மொழியின் பெயர்

முதல் முரை நான் செருமன் மொழி கற்கும் போது தமிழ் மொழியின் பெயர் Tamilisch என்று சொன்னாங்க. ஜெர்மென் கற்க வாய்ப்பை பயன்படுத்திக்கொள்ளமுடியவில்லை.

ஒரு தானியங்கி ஆட்டொமாடிக்கா பல மொழிகளில் தமிழ் மொழியின் பெயர் இதோ!

Language Word for ‘தமிழ்’ Code
Afrikaans tamil af
Albanian tamil sq
Amharic ታሚልኛ am
Arabic التاميل ar
Armenian թամիլերեն hy
Azerbaijani Tamil az
Basque tamil eu
Belarusian тамільская be
Bengali তামিল bn
Bosnian Tamil bs
Bulgarian тамилски bg
Catalan tamil ca
cebCebuano Tamil nga
Chichewa Tamil ny
Chinese (Simplified) 泰米尔人 zh
Chinese (Traditional) 泰米爾人 zh-TW
Corsican Tamil co
Croatian tamilski hr
Czech tamil cs
Danish Tamil da
Dutch Tamil nl
English Tamil en
Esperanto tamila eo
Estonian tamil et
Filipino Tamil tl
Finnish tamil fi
French tamoul fr
Frisian tamil fy
Galician tamil gl
Georgian Tamil ka
German Tamilisch de
Greek Ταμίλ el
Gujarati તમિલ gu
Haitian Creole Tamil ht
Hausa Tamil ha
Hawaiian Tamil haw
Hebrew טמילית iw
Hindi तामिल hi
Hmong Tamil hmn
Hungarian tamil hu
Icelandic tamil is
Igbo Tamil ig
Indonesian Tamil id
Irish tamil ga
Italian Tamil it
Japanese タミル語 ja
Javanese Tamil jw
Kannada ತಮಿಳು kn
Kazakh Тамил kk
Khmer ភាសាតាមីល km
Korean 타밀 ko
Kurdish (Kurmanji) Tamil ku
Kyrgyz Tamil ky
Lao ທະມິນ lo
Latin Tamil la
Latvian Tamilu lv
Lithuanian tamilų lt
Luxembourgish Tamil lb
Macedonian Тамилските mk
Malagasy Tamil mg
Malay Tamil ms
Malayalam തമിഴ് ml
Maltese tamil mt
Maori Tamil mi
Marathi तामिळ mr
Mongolian Тамил mn
Myanmar (Burmese) တမီး my
Nepali तामिल ne
Norwegian Tamil no
Pashto تامیل ps
Persian تامیل fa
Polish Tamil pl
Portuguese tâmil pt
Punjabi ਤਾਮਿਲ pa
Romanian tamilă ro
Russian тамильский ru
Samoan Tamil sm
Scots Gaelic Tamil gd
Serbian тамилски sr
Sesotho Tamil st
Shona Tamil sn
Sindhi تامل sd
Sinhala දෙමළ si
Slovak tamil sk
Slovenian tamil sl
Somali Tamil so
Spanish Tamil es
Sundanese Tamil su
Swahili Tamil sw
Swedish Tamil sv
Tajik тамилӣ tg
Tamil தமிழ் ta
Telugu తమిళ te
Thai มิลักขะ th
Turkish Tamilce tr
Ukrainian тамільська uk
Urdu تمل ur
Uzbek Tamil uz
Vietnamese Tamil vi
Welsh tamil cy
Xhosa Tamil xh
Yiddish טאַמיל yi
Yoruba Tamil yo
Zulu Tamil zu

இதன் நிரல் இங்க்கே:

Namashkaar!

A.I./ML for Hindi Language Processing

Sometimes its good to look around and learn from what’s happening in other realms of Indian language processing. In my limited experience language efforts in computing for Indian language revolve around the Dravidian languages, Bengali, Marathi or Hindi. சில நேரங்களில் குண்டு சட்டியில் குதிரை ஓட்டுரமாதிரி கணினி மொழியியல் ஆயிடக்கூடாது – தனிபட்டபடியும் சரி – மொழிகளுக்கிடையிலும் சரி.

Some good project efforts in Hindi Language processing (open-source) are reviewed in this blog; [there are  projects like open-tamil API for Hindi, e.g. a get_letters like function, provided by tokenizer project here (with caveat that it is a small function only compared to expansive open-tamil), but we talk about the ML/A.I. focused projects here].

  1. Hindi word embedding called Hindi2vec (along lines of word2vec project). The idea is to associate similar words (e.g. ‘பல்’,’நாக்கு’,’வாய்’) with similar vectors within a neighborhood of each other using concepts of linear-algebra – vector spaces and matrices. So when you search or mistype or want to classify there is a neighborhood of known words closer to the potentially unknown word input from the user; such known neighborhood identification can help decision making and drive various learning, classification or dialogue systems.
  2. Hindi Transliteration Model project and the DeepTrans project– this is a really cool where they developed a reference data set of English to Hindi and trained a model for transliteration from English to Hindi of user input.
    1. We can do this in Tamil with the as we have many transliteration schemes as set out in open-tamil, but the even a same user is not strictly going to follow the scheme strictly, nor do different users follow the same scheme – in all these cases a machine learning A.I. model maybe more robust by virtue of learning the underlying rules. Very interesting project, and fairly simple to implement for Tamil from open-tamil transliterate module and SciKit Learn or other frameworks with high 95% correct prediction rate.
  3. Hindi-English parallel dictionary with 8MB size (probably 500,000 words or so I imagine) here – this can be a good jump starting point for translation projects if such existed for Tamil. e.g. Can we have a parallel dictionary English – Tamil for the simple TVU word list/dictionary ?
  4. Hindi Sentiment Analysis project does a ternary [good, bad, neutral] classification of text. They do this by using a CDAC-model which is super curious to me; maybe CDAC-India (Pune) has a Tamil POS-Tagger too ? Probably they do.
    1. Tamil POS-Taggers widely reported; AU-KBC Chennai has a POS-Tagger, probably the best for Tamil; Dr. Vasu Renganathan has a POS-Tagger, but both these works are not available currently for open-source use, however their techniques are openly shared via their papers in INFITT conferences.
    2. Sorkandu project can also be revived for making an open-source POS-Tagger
  5. Emotion Recognition in Hindi Speech project – this work from IIT KGP students builds a reference audio data set with known emotion labels and build some kind of a machine learning model, and then they get 5x better than random coin-toss/guess for the audio emotion recognition from speech.
    1. We probably don’t have any work on this direction in the open, but interestingly NIST in USA sponsored a Tamil Key Word Search (KWS), reports of which were published by a Singapore team in academic journals. More interestingly the KWS challenge released 2 hrs of speech data with tagged information. In USA, government released data usually qualifies for public-domain – e.g. pictures from NASA etc. so maybe there is a way to get this data. கடவுளுக்கு தான் வெளிச்சம்!

While we know, Google ASR, Youtube online translation of English videos into Tamil closed-captioning, foreign languages to Tamil Translation, Transliteration inputs all use perhaps the most advanced models in Tensorflow on cloud hardware, none of this technology is directly usable for free – maybe for a price via their Google cloud API offerings – and we probably don’t know all the details of how they achieved these magical software applications for Tamil language – anyones guess like mine is using the massive data sets they have from our Tamil news groups, emails, websites, and user input + Tensorflow A.I / ML magic. At least, we have to be grateful for Google-aandavar like some friends commented on freetamilcomputing group. 🙂

Surprisingly, to my knowledge, there are no planned efforts, ongoing or completed open-source projects like these in Tamil. Maybe another avenue for growth, and in this case Hindi projects (at least in open-source domain) seem to have forged ahead!

Shukriya.

-Muthu