
இன்று கொரொனா காலத்தில் ஒரு இணையவழி நேரலையில் தமிழ்க்கணிமையில் எப்படி செயல்படுவது என்பதைப்பற்றிய ஒரு அறிமுகப்படுத்தி பேச வாய்ப்பு கிடைத்தது. அழைப்புவிடுத்த பேரா. சுபலலிதா அவர்களுக்கு நன்றி.
காட்சிக்கோப்புகள் இங்கு.
-முத்து
தமிழில் நிரல் எழுது – Write code in தமிழ்
எழில் : தமிழ் நிரலாக்க மொழி (Ezhil Language Blog) [opinions are my own]
இன்று கொரொனா காலத்தில் ஒரு இணையவழி நேரலையில் தமிழ்க்கணிமையில் எப்படி செயல்படுவது என்பதைப்பற்றிய ஒரு அறிமுகப்படுத்தி பேச வாய்ப்பு கிடைத்தது. அழைப்புவிடுத்த பேரா. சுபலலிதா அவர்களுக்கு நன்றி.
காட்சிக்கோப்புகள் இங்கு.
-முத்து
2017-இல் ஒரு பயிற்சிப்பட்டறைக்காக உருவாக்கப்பட்ட காட்சிகோப்புகள் – இதனை கணினி நிரலாக்கம் பயிலவேண்டுமானவர்கள் கண்டிப்பாக படிக்கலாம். மத்தபடி இந்த பட்டறை மாநாட்டில் நடந்ததா என்ற கதையை நீங்கள் எனக்கு ஒரு பீர்/காப்பி (இடம்-பொருள்-நேரம்) எல்லாம் பொருத்து கட்டவிழ்த்து விடுகிறேன். அதுவரை பார்த்து/படித்து மகிழவும்.
சமிபத்தில் எழில் முக்கிய அம்சங்கள் பற்றி பேச நேர்ந்தது. அதன் காட்சிவில்லை.
“கிடைப்பதெல்லாம் புளிப்பான எலுமிச்சைதான் என்றால் அதில் சிறப்பான எலுமிச்சைசாறு குளிர்பானத்தை செய்யும்,” என்பது அமெரிக்க நடைமுறை. இதனை மிகையாகக் கொண்டு பிரபல இசைபாடகி பியான்சே ஒரு முழு பாடல் தொகுப்பையே, Lemonade என 2016-இல் வெளியிட்டாள். அதில் கருப்பினத்தின் மீது போலிசார் வழி நடத்தும் அமெரிக்க அடக்குமுறையை கடுமையாக விமர்சித்தும் பாடினாள் பியான்சே – அவள் மால்கம்-எக்ஸ், கருப்பு சிருத்தைகள் என்றெல்லாம் அவர்களது வரிகளில் பூந்து ஒரு ஆதங்கத்தை கலைவடிவு படுத்தினாள்.
அதெல்லாம் சரி. தமிழில் சிறப்பாக livestream/videoconference வழி (இயங்கு + அலை = இயங்கலை) வழி ஒரு மாநாட்டை இந்த பேரிடர் காலத்தில் நடத்துவது என்பது இங்கு நமக்கு நடந்த ஒரு லெமனேட் என்று காணலாம். என்னதான் கொரோனா நுண்கிருமி தொற்று நோய் பரந்தாலும் நாம் சோர்வடையாமல் நமது affirmations-ஐ நினைத்தபடி முன்னெடுத்துச்செல்வது முக்கியமாக அமைகிறது.
மாநாடு மலர் வெளிவரயிருக்கிறது. மாநாடு சிறப்பாக நடைபெற பலரும் அயராது உழைத்தனர் – முதன்மையாக இருவர்: இளந்தமிழ், மற்றும் சீனி. இதில் பங்கேற்றுதும், அருகாமையில் இருந்து சிறிய குழுவின் சாதூரியமான செயல்பாடு, அடுத்த தலைமுறையினரின் அதீத ஈடுபாடு என்பதையும் சிறப்பாக தமிழ் கணிமைக்கு விளங்கும் என்பது புலப்படுகிறது. இனி தமிழ் மெல்ல வாழும் என்பதும் புரிகிரது.
மாநாடு காணொளிகள் இங்கு youtube-இல் காணலாம்: (கீழ் உள்ள வீடியோ வேலைசெய்யவில்லை எனில் இங்கு காண்க)
“மலேசிய உத்தமம், ஓம்தமிழ் ஏற்பாட்டில், கணியம் அறக்கட்டளை, தித்தியான் டிஜிட்டல், மொசில்லா தமிழ் குழுமம், உபுண்டு தமிழ் குழுமம், தமிழ் லிப்ரெஓபிஸ் இணை ஏற்பாட்டில் 4 – 5 ஜூலை 2020 அன்று, உலகின் முதலாவது கட்டற்ற தொழில்நுட்பத் தமிழ் மாநாடு” இணையம்வழி ஏற்பாடு செய்யப்பட்டது.
ஆன்டிராய்டு, பைதான், மொசில்லா, இணையப் பாதுகாப்பு, கணினி மொழியியல், கணினி அறிவியல், செயற்கை நுண்ணறிவு, பொருட்களின் கணினி போன்ற தலைப்புகளில் கணிஞர்கள் படைப்பினை வழங்கினர். சில படைப்புகள் பட்டறைகளாக நடத்தப்பட்டது.
INFITT MALAYSIA & OMTAMIL with KANIYAM FOUNDATION, PROGRAM TITIAN DIGITAL, MOZILLA TAMIL GROUP, UBUNTU TAMIL GROUP, TAMIL LIBREOFFICE organised World’s First in Tamil “Open Source Technology Conference” via online on the 4th & 5th of July 2020.”
இன்று தமிழ் மாநாட்டில் “Open-Tamil – திறமூல தமிழ் நிரல் தொகுப்பு,” என்ற தலைப்பில் பேசுவேன்.
அருளாளன், சையது அபுதாகிர், பரதன் தியாகலிங்கம், சீனிவாசன், சத்தியா மகாதேவன், அருண்ராம், மற்றும் முத்து அண்ணாமலை.
அனுகும் மின்னஞ்சல்: ezhillang@gmail.com, நாள்: ஜீலை 1, 2020.
ஒப்பன் தமிழ் என்பது ஒரு திற்மூல் நிரல் தொகுப்பு திட்டம். இது எழில் கணினி மொழியில் ஆக்கத்தை தொடர்ந்து தமிழில் பலரும் எளிதாக கணினி செயலிகளை பைத்தான் மொழியில் உருவாகவேண்டும் என்ற நோக்கில் எழிலின் ஒரு கீற்றாகப் பிறப்பெருத்தது. இந்த நிரல் திட்டம் முதலில் பைத்தான் மொழியில் வெளிவந்தது – பின்னர் சில சேவைகள் மட்டும் ஜாவா, ரூபி மொழிகளில் வழ்ங்கப்பட்டன் – எனினும் பெரும்பாலான வசதிகள் பைத்தான் மொழியின் வாயிலாகவே பெறமுடியும்.
படம். 1: தமிழ் பேசு திட்டத்தின் சின்னம்.
இந்த நிரல்தொகுப்பிலுள்ள மொட்யூல்களாவன கீழோ. இவற்றின் முழு விவரங்களையும் காண http://tamilpesu.us/static/sphinx_doc/_build/html/sphinx_doc/ இங்கு செல்லலாம்.
Module | பயன்பாடுகள்/சார்புகள் | |
1 | tamil | Tamil tokenization, word ordering, encoding converters, numerals, text summarizer. |
2 | ngram | corpus modeling classes |
3 | solthiruthi | Tamil spelling checker algorithms |
4 | spell | Tamil spelling checker application |
5 | tamilmorse | Morse code generation, decoding for Tamil |
6 | tamilsandhi | Tamil sandhi-checker – packaged with Open-Tamil but developed independently by Nithya and Shrinivasan. |
7 | transliterate | Tamil transliteration tools |
8 | tamilstemmer | This module is new in version 0.96 and provides access to simple stemmer functions originally created by Damodharan Rajalingam |
9 | tabraille | Tamil Braille generation following Barathia Braille standard |
10 | kural | Thirukkural source text and English translation |
.
Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.
2015-இல் முதல் வெளியீடு (வரிசை எண் 0.4) கண்டு பின்னர் இந்த ஆண்டு ஜூன் 12-இல் சமீபத்திய (ஒன்பதாம்) வெளியீடு (வரிசை எண் 0.97) கண்டது. இந்த நிரல் தொகுப்பு MIT உரிமம் வழியாக நீட்சி செய்தும், பகிர்ந்து மறுசெயல்பாட்டிலும் உபயோகிக்கலாம்.
சமீபத்திய வரிசை எண் 0.97-இல் வெளிவந்த புதிய அம்சங்களானவையாவன:
இதனை நிறுவ இப்படி கட்டளை கொடுக்கலாம்,
$ pip install open-tamil
ஏற்கனவே நிறுவியிருப்பின் புதிய அத்யாயத்தில் நிறுவ, என்றும் கொடுக்கலாம்.
$ pip install –upgrade open-tamil
ஓப்பன்-தமிழ் திட்டம் இதனைக்கொண்டு பல மென்பொருடகள் இன்று இயங்கிவருகின்றன – இவற்றில் முக்கியமானவை http://tamilpesu.us என்ற வலைத்தளம். இந்த நிரல்தொகுப்பில் இருந்து செயல்பாடுகளை மொத்தமாக வலைவழியாக தமிழ் ஆர்வலர்கள் கணிமை செய்யாமல் பயன்படுத்த இது உதவும்.
படம் 2: ஒப்பன்-தமிழ் வழி உருவாக்கப்பட்ட தமிழ்பேசு வலைதளத்தில் உள்ள பெருக்கல் அட்டவனை செயலி.
ஒப்பன் தமிழ் கொண்டு பல தமிழ்இயல்மொழி ஆய்வுகள் (உதாரணமாக Tamil NLP, PyTamil) என்ற திட்டங்களும் செயல்படுகின்றன. இது எங்களுக்கு தெறித்தவை மட்டுமே!
மற்ற திற மூல மென்பொருட்களைப்போலவே ஒப்பன்-தமிழ் இதன் உருவாக்கம், மற்றும் வளர்ச்சி கிட் வலைத்தளத்தில் வழியாக நிர்வாகிக்கப்படுகிறது. இதன் சுட்டி –
https://github.com/Ezhil-Language-Foundation/open-tamil
எழில் மொழி அறக்கட்டளையின் பார்வையில் இது மேம்படுத்தப்பட்டாலும், இதன்வழியாக பத்துக்கும் மேற்பட்ட பங்களிப்பாளர்கள் உள்ளனர்.இந்த திட்டம் ஏரக்குறைய 800 பங்களிப்புகளை பெற்றும், 114 வழு/திறணாம்சங்களையும் முடிவுபடித்தியும், மேலும் 82 திறணாம்சங்களை ஒழுங்கு செய்தும் வடிவமைப்புக்காக குறிக்கப்பட்டுள்ளன.
இந்த திட்டத்தை அனைவரும் தொடர்ந்து பயன்படுத்தியும், ஆதரிக்குமாரும் கேட்டுககொள்கிறோம்.
தமிழில் ஏன் நாம் செயல்படுகிறோம் என்று பலருக்கும் குறிப்பிட்டவரைப்பற்றி ஒரு கருத்து இருக்கும்பொழுது செயல்படும் நம்மவர்க்கு என்ன புரிதல் இருக்கிறது? ஒரு கண்ணாடியில் பார்த்தால் போதுமே – புலப்படும் அந்த பிம்பத்தின் உரிமையாளர். அவர்களது மனதில் நினைவோட்டத்தில் எண்ண ஓடுகிறது என்று எளிதில் சொல்லமுடியுமா என்ன – ஒட்டு மொத்த உளவியல், மனோதத்துவியல் துறைகளே இதனை சுற்றி கட்டமைக்கப்பட்டவை. அவர்கள் கண்டதைவிட புதிதாக நாம் எதுவும் இந்த வலைப்பதிவின் நீளத்தில் புரிந்துவிடலாமா என்ன? விளையாடாதீங்க.
சரி அப்பொழுது பொதுவான தனிமனித பொழுதுபோக்கு நேரங்களில் பங்களிப்புகள் நடத்தும் நமக்கு என்ன தேவைகள் இருக்கிறது? இவை எவ்வாராவது உறுமாறி தமிழ் பங்களிப்புகளாக மாற்றமடைகின்றன என்பதுதான் பலருக்கும் உள்ள செயல்பாட்டு நோக்கமாக அமைகிறது.
“தமிழ் சற்று தேக்கம் அடைந்த மொழி, தமிழில் செயல்படுவது ஒரு அடாவிசம் (atavism),” என்றெல்லாம் மற்ற இந்திய மொழியினர்கள் குற்றம் சாட்டினாலோ அல்லது மனதிற்குள் செறுக்காக எடைபோட்டு மதிப்பிட்டாலோ அவர்களுக்கு தமிழில் நடந்த, நடக்கும் விவாதங்கள், புரட்சி, போராட்டங்கள், அழகியல், முரண் போன்ற அறிவுசார்விவாதங்கள் பற்றியும் ஒன்றுமோ அறியாமையை மட்டும் சுட்டுகிறது.
ஆகட்டும் அவர்கள் கண்களுக்கு அரைப்பழங்குடியினராக மட்டும் தென்பட்டதால் அவர்களது (ஆங்கிலமல்லாத) மொழி வளர்ச்சியடைந்ததாக நான்கண்டதில்லை. எனினும் தமிழில் செயல்படும் பலரும் நெருக்கடிக்கிடையில் ஒரு பெரும்பாலான ஆங்கில சூழலில் பணியாற்றிக்கொண்டும், அல்லது மாணவரான சூழலில் தொடங்கி திறம்பட 30இல் இருந்து 60ஆண்டுகள் வரை பின்னடைந்த தமிழ் தகவல் ஆராய்ச்சிகளை தாமாகவே முன்னெடுத்து செய்கின்றனர். இவர்களை atavist, neanderthal என்றெல்லாம் பழிப்பது வெகுவான liberal/libertarian அரசியல் பார்வைக்குள் அடங்காதது. இதற்கு முன்சான்றே தமிழர்களை தற்குறைவாக பார்ப்பதாக மட்டுமே, “ஏய் மடராசி” என்றேல்லாம் சொல்வது போலவே அமைகிறது.
தமிழில் செயல்படுபவர்கள் பணத்திற்காகவும், ஆன்மீகம், பதவி, அரசியல், மொழி, இனம், தத்துவம், அழகியல், தொன்மை, தொடர்ச்சி, புதுமை என்றும் தனித்தனியாகவோ அல்லது பலவற்றினையும் கருத்தில்கொண்டும் செயல்படுவதனால் மொழி மேம்பாடு அடைகிறது.
இந்த எண்ணிம உலகில் 1-0 தவிர யார் மொழி கணினியில் செலுத்தப்பட வேண்டும் என்பது ஒரு அரசியல் – அதில் பிழைக்காதவர்கள் மொழிகள் தேக்கத்தை அல்லது ஒதுக்கப்படும் நிலைக்க தள்ளப்படுவதே ஒரு பின்னடைவு. மொழியையும் அதில் உள்ள கருத்துக்களையும் நாம் மனதில் அடைந்த முன்னேற்றத்திற்கும் வாழ்க்கை வழிக்கும் இசைவாக முன்னெடுத்துசெல்வது பெருமை – பன்மைத்துவத்தின் ஒரு உச்ச கட்டமாகவும் பார்க்கலாம். தமிழில் செயல்படுவது ஒரு புரிதல் – “நீ யார்,” என்ற தேடலின் ஒரு மிகப்பெரிய அடையாள கேள்வியின் பயணத்தில் உள்ள காட்டுப்பாதை. தாங்கள் பேசிய மொழிகள் பழுதடையப்பார்ப்பது ஒரு அடாவடி அடாவிசம்.
தமிழில் பெண்ணியம், பெண்ணிய எழுத்தாளர்கள் பற்றி சமிபத்தில் எழுதியுள்ள சாஸா எபலிங் 19-ஆம் நூற்றாண்டின் தமிழ் இலக்கியங்களை பற்றி ஆய்வு செய்து செருமனியின் கலோன் பல்களையில்இருந்து முதுகலை/முனைவர்பட்டம் பெற்றார் – பின்னர் அவர் சிக்காகோ பல்கலைக்கழகத்தில் துணை பேராசிரியராக பணியாற்றுகிறார். இவரைப்பற்றிய 2010 செய்தி கட்டுரை இங்கு தாய்வீடு 2010-ஆகஸ்டு :
தமிழ் கணிமையில் பல கட்டுரைகள் வருகின்றன – அவற்றில் சில கட்டுரைகள் ஒரு முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைக்கும்; பல கட்டுரைகள் முன்னோர் சென்றவழியில் எளிதாகவும், சிறப்பாகவும், சிக்கனமாகவும் (கணினியளவில்) மற்றும் பொருளாதார, நுகர்வோர் அணுகுமுறை என்றபடியாக உள்ள புதுமைகளை விளக்கும்.
இந்த சில கட்டுரைகள் செல்லாத இடத்திற்கு, முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைப்பவைகளில் சிலவற்றைப்பற்றி இன்று பார்க்கலாம்.
தமிழ்-99 விசைபலகைக்கு ஒரு மேம்பாடு என்ற படியாக 2004-இல் நடந்த தமிழ் கணிமை மாநாட்டில் இந்த (clj-thamil படைத்த இளங்கோ சேரன் குழுவினரால்) கட்டுரை “Optimization of Thamil Phonetic Keyboard.” இதில் ஆசிரியர்கள் கூறியதாவது, தமிழ்-99 விசையில் மெய்களுக்கு பதில் அகர-மெய்களை விசைப்பலகையில் பொருத்தினால் சிக்கனமாக (விசை தட்டச்சு செய்யும் எண்ணிக்கையில் குறைவாக) ஒரு குறிப்பிட்ட உரையை இந்த மாற்று விசைப்பலகையில் உள்ளீடு செய்யலாம் என்று கண்டெடுத்தார்கள். ஆனால் இதை உள்வாங்கி எதுவும் செய்யவில்லை.
அடுத்த கட்டுரைக்கு மேர்கோள் என்க்கு கிடைக்கவில்லை, KaReFo-குழுவினரால் “iTamil,” (2016) ; ஆனால் அதன் சாராம்சமாவது தமிழின் உயிமெய் எழுத்து வடிவத்தை முற்றிலுமாக மாற்றியமைக்க ஒரு ஆய்வு பரிந்துரை சமர்ப்பிக்கப்பட்டது. ஆனால் இந்த கட்டுரை 2016-ஆம் ஆண்டு நடந்த தமிழ் கணிமை மா நாட்டில் வாசிப்பு பெற்றாலும் அது பின்னர் நீக்கம் ஆயிற்று – காரணம் இதனை ஆய்வளவில் கூட தமிழ் சமுகம் ஏற்கக்கூடாது என்றோரு தரப்பின் வாதம் வெற்றி பெற்றதன் காரணம். இந்த சர்ச்சைக்கும் அப்பால் அவர்கள் சொன்ன கோரிக்கை, ஆய்வுகளை பார்க்க இந்த செய்தி உபயோகரமாக வரலாற்று சின்னமாக அமைகிறது.
ஆய்வுக்களத்தில் சிந்திக்கலாம்தானே! அதை நடைமுறைப்படுத்தவேண்டுமானால்தானே மேலும்/கூடுதல் விவாதங்கள் தேவை? சிந்தனையே தடைசெய்யப்படவேண்டுமெனில் தமிழருக்கும் தலிபனார்களுக்கும் வித்தியசமென்ன?
வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,
இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற
$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.
We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language
வாய்ப்பிற்கு நன்றி.
-முத்து (கலிபோர்னியா).
மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.
சமிபத்தில், கவிஞர் சல்மா வரிகள் போல, எல்லாரும் வௌவால்களா இந்த கொரொனாவினால் நிலைகுலைந்தனர். அவர்களின் நீண்ட பட்டியலில் நானும் ஒருவன் – ஆனால் அதிகளவு பாதிப்பு ஏதுமில்லை – வீடு, வாசல், சோறு, தண்ணி இதுக்கெல்லாம் திண்டாட்டம் இல்லை என்றாலும், இங்கு அமெரிக்க மண்ணில் 20% வேலையிழந்த பலரையும் போல் வேலைக்கு மட்டும் காவுவாங்கிட்டேன்.
சரி. இந்த நேரத்தில் மற்ற சிலபல செயல்கள் முடிவில்லாமல் தொடங்கியதை முடித்துவைக்க சில படிகள் எடுக்க நேரம் கிடைத்தது. மேலோகத்தில் இருப்பவன், என்றும் அதை நப்புபவர்கள், ஒரு கதவை மூடினால் மற்றொரு கதவை திறப்பார் என்றபடியாக இது தமிழ் வெளியில் எப்போதும் நம்மளை கொண்டு சேர்த்தது.
மொத்தம் 3-ஆய்வுகள், பெரும்பாலும், முடிவு பெற்ற நிலையில் இருந்தன; அவையாவன,
இந்த பேரிடர் காலகட்டத்தில் என்னை அடைக்கலம் கொடுப்பதில் ஒன்று மொழி, மொழியியல் அதில் வசிக்கும், செயல்படும் அஞ்சா நெஞ்சர்கள். இதையும் காலம் கடந்து செல்வோம். உருதுணையாக இருந்தவர்கள் அனைவருக்கும் நன்றி.
-முத்து