An Introduction to Tamil Computing

இன்று கொரொனா காலத்தில் ஒரு இணையவழி நேரலையில் தமிழ்க்கணிமையில் எப்படி செயல்படுவது என்பதைப்பற்றிய ஒரு அறிமுகப்படுத்தி பேச வாய்ப்பு கிடைத்தது. அழைப்புவிடுத்த பேரா. சுபலலிதா அவர்களுக்கு நன்றி.

காட்சிக்கோப்புகள் இங்கு.

-முத்து

எழில் கணினி நிரலாக்கம் – பயிற்சிப்பட்டறை – மீள்பார்வை

2017-இல் ஒரு பயிற்சிப்பட்டறைக்காக உருவாக்கப்பட்ட காட்சிகோப்புகள் – இதனை கணினி நிரலாக்கம் பயிலவேண்டுமானவர்கள் கண்டிப்பாக படிக்கலாம். மத்தபடி இந்த பட்டறை மாநாட்டில் நடந்ததா என்ற கதையை நீங்கள் எனக்கு ஒரு பீர்/காப்பி (இடம்-பொருள்-நேரம்) எல்லாம் பொருத்து கட்டவிழ்த்து விடுகிறேன். அதுவரை பார்த்து/படித்து மகிழவும்.

எழில் – சில அம்சங்கள் – மீள்பார்வை

சமிபத்தில் எழில் முக்கிய அம்சங்கள் பற்றி பேச நேர்ந்தது. அதன் காட்சிவில்லை.

Lemonade

“கிடைப்பதெல்லாம் புளிப்பான எலுமிச்சைதான் என்றால் அதில் சிறப்பான எலுமிச்சைசாறு குளிர்பானத்தை செய்யும்,” என்பது அமெரிக்க நடைமுறை. இதனை மிகையாகக் கொண்டு பிரபல இசைபாடகி பியான்சே ஒரு முழு பாடல் தொகுப்பையே, Lemonade என 2016-இல் வெளியிட்டாள். அதில் கருப்பினத்தின் மீது போலிசார் வழி நடத்தும் அமெரிக்க அடக்குமுறையை கடுமையாக விமர்சித்தும் பாடினாள் பியான்சே – அவள் மால்கம்-எக்ஸ், கருப்பு சிருத்தைகள் என்றெல்லாம் அவர்களது வரிகளில் பூந்து ஒரு ஆதங்கத்தை கலைவடிவு படுத்தினாள்.

லெமனேட் – (C) 2016 Beyoncé

அதெல்லாம் சரி. தமிழில் சிறப்பாக livestream/videoconference வழி (இயங்கு + அலை = இயங்கலை) வழி ஒரு மாநாட்டை இந்த பேரிடர் காலத்தில் நடத்துவது என்பது இங்கு நமக்கு நடந்த ஒரு லெமனேட் என்று காணலாம். என்னதான் கொரோனா நுண்கிருமி தொற்று நோய் பரந்தாலும் நாம் சோர்வடையாமல் நமது affirmations-ஐ நினைத்தபடி முன்னெடுத்துச்செல்வது முக்கியமாக அமைகிறது.

மாநாடு மலர் வெளிவரயிருக்கிறது. மாநாடு சிறப்பாக நடைபெற பலரும் அயராது உழைத்தனர் – முதன்மையாக இருவர்: இளந்தமிழ், மற்றும் சீனி. இதில் பங்கேற்றுதும், அருகாமையில் இருந்து சிறிய குழுவின் சாதூரியமான செயல்பாடு, அடுத்த தலைமுறையினரின் அதீத ஈடுபாடு என்பதையும் சிறப்பாக தமிழ் கணிமைக்கு விளங்கும் என்பது புலப்படுகிறது. இனி தமிழ் மெல்ல வாழும் என்பதும் புரிகிரது.

மாநாடு காணொளிகள் இங்கு youtube-இல் காணலாம்: (கீழ் உள்ள வீடியோ வேலைசெய்யவில்லை எனில் இங்கு காண்க)

2020 கட்டற்ற தமிழ் மென்பொருள் மாநாடு

“மலேசிய உத்தமம், ஓம்தமிழ் ஏற்பாட்டில், கணியம் அறக்கட்டளை, தித்தியான் டிஜிட்டல், மொசில்லா தமிழ் குழுமம், உபுண்டு தமிழ் குழுமம், தமிழ் லிப்ரெஓபிஸ் இணை ஏற்பாட்டில் 4 – 5 ஜூலை 2020 அன்று, உலகின் முதலாவது கட்டற்ற தொழில்நுட்பத் தமிழ் மாநாடு” இணையம்வழி ஏற்பாடு செய்யப்பட்டது.

ஆன்டிராய்டு, பைதான், மொசில்லா, இணையப் பாதுகாப்பு, கணினி மொழியியல், கணினி அறிவியல், செயற்கை நுண்ணறிவு, பொருட்களின் கணினி போன்ற தலைப்புகளில் கணிஞர்கள் படைப்பினை வழங்கினர். சில படைப்புகள் பட்டறைகளாக நடத்தப்பட்டது.

INFITT MALAYSIA & OMTAMIL with KANIYAM FOUNDATION, PROGRAM TITIAN DIGITAL, MOZILLA TAMIL GROUP, UBUNTU TAMIL GROUP, TAMIL LIBREOFFICE organised World’s First in Tamil “Open Source Technology Conference” via online on the 4th & 5th of July 2020.”

2020 – Tamil Open Source conference

இன்று தமிழ் மாநாட்டில் “Open-Tamil – திறமூல தமிழ் நிரல் தொகுப்பு,” என்ற தலைப்பில் பேசுவேன்.

Open-Tamil – திறமூல தமிழ் நிரல் தொகுப்பு

    அருளாளன், சையது அபுதாகிர், பரதன் தியாகலிங்கம், சீனிவாசன், சத்தியா மகாதேவன், அருண்ராம், மற்றும் முத்து அண்ணாமலை.

அனுகும் மின்னஞ்சல்: ezhillang@gmail.com, நாள்: ஜீலை 1, 2020.

1. அறிமுகம்

ஒப்பன் தமிழ் என்பது ஒரு திற்மூல் நிரல் தொகுப்பு திட்டம். இது எழில் கணினி மொழியில் ஆக்கத்தை தொடர்ந்து தமிழில் பலரும் எளிதாக கணினி செயலிகளை பைத்தான் மொழியில் உருவாகவேண்டும் என்ற நோக்கில் எழிலின் ஒரு கீற்றாகப் பிறப்பெருத்தது. இந்த நிரல் திட்டம் முதலில் பைத்தான் மொழியில் வெளிவந்தது – பின்னர் சில சேவைகள் மட்டும் ஜாவா, ரூபி மொழிகளில் வழ்ங்கப்பட்டன் – எனினும் பெரும்பாலான வசதிகள் பைத்தான் மொழியின் வாயிலாகவே பெறமுடியும்.

படம். 1: தமிழ் பேசு திட்டத்தின் சின்னம்.

2. கட்டமைப்புகள்

இந்த நிரல்தொகுப்பிலுள்ள மொட்யூல்களாவன கீழோ. இவற்றின் முழு விவரங்களையும் காண http://tamilpesu.us/static/sphinx_doc/_build/html/sphinx_doc/ இங்கு செல்லலாம்.

Moduleபயன்பாடுகள்/சார்புகள்
1tamilTamil tokenization, word ordering, encoding converters, numerals, text summarizer.
2ngramcorpus modeling classes
3solthiruthiTamil spelling checker algorithms
4spellTamil spelling checker application
5tamilmorseMorse code generation, decoding for Tamil
6tamilsandhiTamil sandhi-checker – packaged with Open-Tamil but developed independently by Nithya and Shrinivasan.
7transliterateTamil transliteration tools
8tamilstemmerThis module is new in version 0.96 and provides access to simple stemmer functions originally created by Damodharan Rajalingam
9tabrailleTamil Braille generation following Barathia Braille standard
10kuralThirukkural source text and English translation

.

Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.

3. வெளியீடு, உரிமம், நிறுவுதல்

2015-இல் முதல் வெளியீடு (வரிசை எண் 0.4) கண்டு பின்னர் இந்த ஆண்டு ஜூன் 12-இல் சமீபத்திய (ஒன்பதாம்) வெளியீடு (வரிசை எண் 0.97) கண்டது. இந்த நிரல் தொகுப்பு MIT உரிமம் வழியாக நீட்சி செய்தும், பகிர்ந்து மறுசெயல்பாட்டிலும் உபயோகிக்கலாம்.

சமீபத்திய வரிசை எண் 0.97-இல் வெளிவந்த புதிய அம்சங்களானவையாவன:

  1. மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
  2. வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
  3. ‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
  4. ‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.

இதனை நிறுவ இப்படி கட்டளை கொடுக்கலாம்,

$ pip install open-tamil

ஏற்கனவே நிறுவியிருப்பின் புதிய அத்யாயத்தில் நிறுவ, என்றும் கொடுக்கலாம்.

$ pip install –upgrade open-tamil

4. வளர்ச்சி

ஓப்பன்-தமிழ் திட்டம் இதனைக்கொண்டு பல மென்பொருடகள் இன்று இயங்கிவருகின்றன – இவற்றில் முக்கியமானவை http://tamilpesu.us என்ற வலைத்தளம். இந்த நிரல்தொகுப்பில் இருந்து செயல்பாடுகளை மொத்தமாக வலைவழியாக தமிழ் ஆர்வலர்கள் கணிமை செய்யாமல் பயன்படுத்த இது உதவும்.

       படம் 2: ஒப்பன்-தமிழ் வழி உருவாக்கப்பட்ட தமிழ்பேசு வலைதளத்தில் உள்ள பெருக்கல் அட்டவனை செயலி.

ஒப்பன் தமிழ் கொண்டு பல தமிழ்இயல்மொழி ஆய்வுகள் (உதாரணமாக Tamil NLP, PyTamil) என்ற திட்டங்களும் செயல்படுகின்றன. இது எங்களுக்கு தெறித்தவை மட்டுமே!

5. பங்களிப்பாளார்கள்

மற்ற திற மூல மென்பொருட்களைப்போலவே ஒப்பன்-தமிழ் இதன் உருவாக்கம், மற்றும் வளர்ச்சி கிட் வலைத்தளத்தில் வழியாக நிர்வாகிக்கப்படுகிறது. இதன் சுட்டி – 

https://github.com/Ezhil-Language-Foundation/open-tamil

எழில் மொழி அறக்கட்டளையின் பார்வையில் இது மேம்படுத்தப்பட்டாலும், இதன்வழியாக பத்துக்கும் மேற்பட்ட பங்களிப்பாளர்கள் உள்ளனர்.இந்த திட்டம் ஏரக்குறைய 800 பங்களிப்புகளை பெற்றும், 114 வழு/திறணாம்சங்களையும் முடிவுபடித்தியும், மேலும் 82 திறணாம்சங்களை ஒழுங்கு செய்தும் வடிவமைப்புக்காக குறிக்கப்பட்டுள்ளன. 

இந்த திட்டத்தை அனைவரும் தொடர்ந்து பயன்படுத்தியும், ஆதரிக்குமாரும் கேட்டுககொள்கிறோம்.

மொழிவெளியில் எண்ணிம செயல்பாடும், பங்களிப்புகளும்

தமிழில் ஏன் நாம் செயல்படுகிறோம் என்று பலருக்கும் குறிப்பிட்டவரைப்பற்றி ஒரு கருத்து இருக்கும்பொழுது செயல்படும் நம்மவர்க்கு என்ன புரிதல் இருக்கிறது? ஒரு கண்ணாடியில் பார்த்தால் போதுமே – புலப்படும் அந்த பிம்பத்தின் உரிமையாளர். அவர்களது மனதில் நினைவோட்டத்தில் எண்ண ஓடுகிறது என்று எளிதில் சொல்லமுடியுமா என்ன – ஒட்டு மொத்த உளவியல், மனோதத்துவியல் துறைகளே இதனை சுற்றி கட்டமைக்கப்பட்டவை. அவர்கள் கண்டதைவிட புதிதாக நாம் எதுவும் இந்த வலைப்பதிவின் நீளத்தில் புரிந்துவிடலாமா என்ன? விளையாடாதீங்க.

சரி அப்பொழுது பொதுவான தனிமனித பொழுதுபோக்கு நேரங்களில் பங்களிப்புகள் நடத்தும் நமக்கு என்ன தேவைகள் இருக்கிறது? இவை எவ்வாராவது உறுமாறி தமிழ் பங்களிப்புகளாக மாற்றமடைகின்றன என்பதுதான் பலருக்கும் உள்ள செயல்பாட்டு நோக்கமாக அமைகிறது.

“தமிழ் சற்று தேக்கம் அடைந்த மொழி, தமிழில் செயல்படுவது ஒரு அடாவிசம் (atavism),” என்றெல்லாம் மற்ற இந்திய மொழியினர்கள் குற்றம் சாட்டினாலோ அல்லது மனதிற்குள் செறுக்காக எடைபோட்டு மதிப்பிட்டாலோ அவர்களுக்கு தமிழில் நடந்த, நடக்கும் விவாதங்கள், புரட்சி, போராட்டங்கள், அழகியல், முரண் போன்ற அறிவுசார்விவாதங்கள் பற்றியும் ஒன்றுமோ அறியாமையை மட்டும் சுட்டுகிறது.

ஆகட்டும் அவர்கள் கண்களுக்கு அரைப்பழங்குடியினராக மட்டும் தென்பட்டதால் அவர்களது (ஆங்கிலமல்லாத) மொழி வளர்ச்சியடைந்ததாக நான்கண்டதில்லை. எனினும் தமிழில் செயல்படும் பலரும் நெருக்கடிக்கிடையில் ஒரு பெரும்பாலான ஆங்கில சூழலில் பணியாற்றிக்கொண்டும், அல்லது மாணவரான சூழலில் தொடங்கி திறம்பட 30இல் இருந்து 60ஆண்டுகள் வரை பின்னடைந்த தமிழ் தகவல் ஆராய்ச்சிகளை தாமாகவே முன்னெடுத்து செய்கின்றனர். இவர்களை atavist, neanderthal என்றெல்லாம் பழிப்பது வெகுவான liberal/libertarian அரசியல் பார்வைக்குள் அடங்காதது. இதற்கு முன்சான்றே தமிழர்களை தற்குறைவாக பார்ப்பதாக மட்டுமே, “ஏய் மடராசி” என்றேல்லாம் சொல்வது போலவே அமைகிறது.

தமிழில் செயல்படுபவர்கள் பணத்திற்காகவும், ஆன்மீகம், பதவி, அரசியல், மொழி, இனம், தத்துவம், அழகியல், தொன்மை, தொடர்ச்சி, புதுமை என்றும் தனித்தனியாகவோ அல்லது பலவற்றினையும் கருத்தில்கொண்டும் செயல்படுவதனால் மொழி மேம்பாடு அடைகிறது.

இந்த எண்ணிம உலகில் 1-0 தவிர யார் மொழி கணினியில் செலுத்தப்பட வேண்டும் என்பது ஒரு அரசியல் – அதில் பிழைக்காதவர்கள் மொழிகள் தேக்கத்தை அல்லது ஒதுக்கப்படும் நிலைக்க தள்ளப்படுவதே ஒரு பின்னடைவு. மொழியையும் அதில் உள்ள கருத்துக்களையும் நாம் மனதில் அடைந்த முன்னேற்றத்திற்கும் வாழ்க்கை வழிக்கும் இசைவாக முன்னெடுத்துசெல்வது பெருமை – பன்மைத்துவத்தின் ஒரு உச்ச கட்டமாகவும் பார்க்கலாம். தமிழில் செயல்படுவது ஒரு புரிதல் – “நீ யார்,” என்ற தேடலின் ஒரு மிகப்பெரிய அடையாள கேள்வியின் பயணத்தில் உள்ள காட்டுப்பாதை. தாங்கள் பேசிய மொழிகள் பழுதடையப்பார்ப்பது ஒரு அடாவடி அடாவிசம்.

சாஸா எபலிங்

தமிழில் பெண்ணியம், பெண்ணிய எழுத்தாளர்கள் பற்றி சமிபத்தில் எழுதியுள்ள சாஸா எபலிங் 19-ஆம் நூற்றாண்டின் தமிழ் இலக்கியங்களை பற்றி ஆய்வு செய்து செருமனியின் கலோன் பல்களையில்இருந்து முதுகலை/முனைவர்பட்டம் பெற்றார் – பின்னர் அவர் சிக்காகோ பல்கலைக்கழகத்தில் துணை பேராசிரியராக பணியாற்றுகிறார். இவரைப்பற்றிய 2010 செய்தி கட்டுரை இங்கு தாய்வீடு 2010-ஆகஸ்டு :

சிந்திக்கவைக்கும் ஆய்வுகள்

தமிழ் கணிமையில் பல கட்டுரைகள் வருகின்றன – அவற்றில் சில கட்டுரைகள் ஒரு முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைக்கும்; பல கட்டுரைகள் முன்னோர் சென்றவழியில் எளிதாகவும், சிறப்பாகவும், சிக்கனமாகவும் (கணினியளவில்) மற்றும் பொருளாதார, நுகர்வோர் அணுகுமுறை என்றபடியாக உள்ள புதுமைகளை விளக்கும்.

இந்த சில கட்டுரைகள் செல்லாத இடத்திற்கு, முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைப்பவைகளில் சிலவற்றைப்பற்றி இன்று பார்க்கலாம்.

படம் 1: எழில் மொழி திருத்தியில் உள்ள தமிழ்-99 விசைப்பலகை. 

தமிழ்-99 விசைபலகைக்கு ஒரு மேம்பாடு என்ற படியாக 2004-இல் நடந்த தமிழ் கணிமை மாநாட்டில் இந்த (clj-thamil படைத்த இளங்கோ சேரன் குழுவினரால்) கட்டுரை “Optimization of Thamil Phonetic Keyboard.” இதில் ஆசிரியர்கள் கூறியதாவது, தமிழ்-99 விசையில் மெய்களுக்கு பதில் அகர-மெய்களை விசைப்பலகையில் பொருத்தினால் சிக்கனமாக (விசை தட்டச்சு செய்யும் எண்ணிக்கையில் குறைவாக) ஒரு குறிப்பிட்ட உரையை இந்த மாற்று விசைப்பலகையில் உள்ளீடு செய்யலாம் என்று கண்டெடுத்தார்கள். ஆனால் இதை உள்வாங்கி எதுவும் செய்யவில்லை.

new vistas:The iTamil project aims to make the Tamil script easy to learn, print and display, among other things —Photo: Special Arrangement
படம் 2: iTamil – என்ற தமிழ் எழுத்துரு மாற்றம் பற்றிய  தடைசெய்யப்பட்ட 2016 கட்டுரை. படம்: இந்து நாளிதழ்

அடுத்த கட்டுரைக்கு மேர்கோள் என்க்கு கிடைக்கவில்லை, KaReFo-குழுவினரால் “iTamil,” (2016) ; ஆனால் அதன் சாராம்சமாவது தமிழின் உயிமெய் எழுத்து வடிவத்தை முற்றிலுமாக மாற்றியமைக்க ஒரு ஆய்வு பரிந்துரை சமர்ப்பிக்கப்பட்டது. ஆனால் இந்த கட்டுரை 2016-ஆம் ஆண்டு நடந்த தமிழ் கணிமை மா நாட்டில் வாசிப்பு பெற்றாலும் அது பின்னர் நீக்கம் ஆயிற்று – காரணம் இதனை ஆய்வளவில் கூட தமிழ் சமுகம் ஏற்கக்கூடாது என்றோரு தரப்பின் வாதம் வெற்றி பெற்றதன் காரணம். இந்த சர்ச்சைக்கும் அப்பால் அவர்கள் சொன்ன கோரிக்கை, ஆய்வுகளை பார்க்க இந்த செய்தி உபயோகரமாக வரலாற்று சின்னமாக அமைகிறது.

ஆய்வுக்களத்தில் சிந்திக்கலாம்தானே! அதை நடைமுறைப்படுத்தவேண்டுமானால்தானே மேலும்/கூடுதல் விவாதங்கள் தேவை? சிந்தனையே தடைசெய்யப்படவேண்டுமெனில் தமிழருக்கும் தலிபனார்களுக்கும் வித்தியசமென்ன?

ஓப்பன்-தமிழ் வெளியீடு – வரிசை எண் 0.97

ஒப்பன்-தமிழ் வரிசை எண் v0.97

வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,
இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற

$ pip install –upgrade open-tamil==0.97

என்று கட்டளை கொடுக்கலாம்.

1 புதிய மேம்பாடுகள்:

  1. மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
  2. வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
  3. ‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
  4. ‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
  5. ‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6.  தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
  6. olini.py supports natual language arithmetic evaluation in Tamil for
  7.        all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல்  normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன.   இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
  8. ‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
  9. ‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது

2 வழு நீக்கம்:

  1. பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
  2. நெடில் பட்டியலை சரிபார்த்தல்
  3. Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
  4. நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது

3 புரவலர்களுக்கு நன்றி தெறிவித்தல்

We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language

வாய்ப்பிற்கு நன்றி.

-முத்து (கலிபோர்னியா).

மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.

சில ஆய்வுகள்

“Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367

சமிபத்தில், கவிஞர் சல்மா வரிகள் போல, எல்லாரும் வௌவால்களா இந்த கொரொனாவினால் நிலைகுலைந்தனர். அவர்களின் நீண்ட பட்டியலில் நானும் ஒருவன் – ஆனால் அதிகளவு பாதிப்பு ஏதுமில்லை – வீடு, வாசல், சோறு, தண்ணி இதுக்கெல்லாம் திண்டாட்டம் இல்லை என்றாலும், இங்கு அமெரிக்க மண்ணில் 20% வேலையிழந்த பலரையும் போல் வேலைக்கு மட்டும் காவுவாங்கிட்டேன்.

சரி. இந்த நேரத்தில் மற்ற சிலபல செயல்கள் முடிவில்லாமல் தொடங்கியதை முடித்துவைக்க சில படிகள் எடுக்க நேரம் கிடைத்தது. மேலோகத்தில் இருப்பவன், என்றும் அதை நப்புபவர்கள், ஒரு கதவை மூடினால் மற்றொரு கதவை திறப்பார் என்றபடியாக இது தமிழ் வெளியில் எப்போதும் நம்மளை கொண்டு சேர்த்தது.

மொத்தம் 3-ஆய்வுகள், பெரும்பாலும், முடிவு பெற்ற நிலையில் இருந்தன; அவையாவன,

கட்டுரை தலைப்பு – PDF கோப்புகள்
1Tamil Vowel Recognition With Augmented MNIST-like Data Set
2Generation and Parsing of Number to Words in Tamil
3Algorithm to Correct Missing ​Pulli​-Signs in Printed Tamil Text
கொரோனா காலத்தில் உண்டாக்கிய ஆய்வுக்கட்டுரைகள்
  1. தமிழ் உயிரெழுத்துக்கள் செயற்கைப்பின்னல் வழியாக திறன்கண்டுகொள்வது. இதை, ஜூன் 2019-இல் தொடங்கிய ஒரு ஆய்வு என்றாலும் இந்த மூன்று கால இடைவெளியில் தான் இன்று முடிவடைந்தது. இதனை ArXiV-இல் கற்பூரம் மீது சத்தியமிட்டாமல் ஏழு நாள் தாமதத்துடன் வெளியானது. தலைப்பு: “Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367
  2. அடுத்த கட்டுரை “Generation and Parsing of Number to Words in Tamil”, இதை ArXiV ஏற்க மறுத்தது – காரணம் எங்கள் வாசகர்களுக்கு இது சுவாரசியமானதல்ல என்ற சாக்கைச்சொல்லி மழுப்பினார்கள். இதை நான் மற்றொறு மொழியியல் மாநாட்டிற்கு அனுப்பியுள்ளேன் – என்ன விளைவு என்று பார்க்கலாம்.
  3. அடுத்த கட்டுரை “Algorithm to correct missing pulli signs in printed Tamil text,” என்பது [2] போல் அதே கதி. பார்க்கலாம்.
  4. கடைசியாக எழுத நினைத்தது ஆனால் நேரம் கிடைக்கவில்லாமல் போனது என்றால் “தமிழில் சொற்களை ஒலி எண்களாக பிரிப்பது” (Syllable identification) என்பதை bigram/unigram என்ற எழுத்தளவான புள்ளியியல் வடிவில் கொண்டு இவற்றை செயல்படுத்துவது. இதற்கு உங்களுக்கு ஆர்வம் இருந்தால் என்னுடன் இணைந்து செயல்படலாம் வாங்க.

இந்த பேரிடர் காலகட்டத்தில் என்னை அடைக்கலம் கொடுப்பதில் ஒன்று மொழி, மொழியியல் அதில் வசிக்கும், செயல்படும் அஞ்சா நெஞ்சர்கள். இதையும் காலம் கடந்து செல்வோம். உருதுணையாக இருந்தவர்கள் அனைவருக்கும் நன்றி.

-முத்து