இரண்டு பைத்தான் சொற்பிழை திருத்திகளை சமிபத்தில் எளிதாக பயன்படுத்தும் வண்ணம் “பொட்டலம்” போட்டேன். அதாவது மளிகைக்கடைகளில் அரிசி பருப்பு வகைகள் சாக்குகளில் இருந்தாலும் மொத்தவிலை கடைகளில்லாமல் தனியார் செல்லும் நகர கடைகளில் இவை பொட்டலங்களாக “பாக்கேட்” செய்து, நமது நேர நெருக்கடிக்காக, விற்கப்படும். அதே போல பல நல்ல நிரல்கள் பொதுவிலும், கிட் ஹபிலும் இருந்தாலும், இவற்றை பொதுவில் நிரலர்கள் பயன்படுத்த நாம் இதனை பொட்டலம் செய்தும், அரிசியில் கற்களை பொறக்கியெடுத்தும் சீர்செய்து மளிகைக்கடைக்காரர் செய்வார் இல்லையா, பரிசோதித்தும் வெளியிட்டுள்ளேன்.
தமிழ் கணிமையில் பல கட்டுரைகள் வருகின்றன – அவற்றில் சில கட்டுரைகள் ஒரு முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைக்கும்; பல கட்டுரைகள் முன்னோர் சென்றவழியில் எளிதாகவும், சிறப்பாகவும், சிக்கனமாகவும் (கணினியளவில்) மற்றும் பொருளாதார, நுகர்வோர் அணுகுமுறை என்றபடியாக உள்ள புதுமைகளை விளக்கும்.
இந்த சில கட்டுரைகள் செல்லாத இடத்திற்கு, முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைப்பவைகளில் சிலவற்றைப்பற்றி இன்று பார்க்கலாம்.
படம் 1: எழில் மொழி திருத்தியில் உள்ள தமிழ்-99 விசைப்பலகை.
தமிழ்-99 விசைபலகைக்கு ஒரு மேம்பாடு என்ற படியாக 2004-இல் நடந்த தமிழ் கணிமை மாநாட்டில் இந்த (clj-thamil படைத்த இளங்கோ சேரன் குழுவினரால்) கட்டுரை “Optimization of Thamil Phonetic Keyboard.” இதில் ஆசிரியர்கள் கூறியதாவது, தமிழ்-99 விசையில் மெய்களுக்கு பதில் அகர-மெய்களை விசைப்பலகையில் பொருத்தினால் சிக்கனமாக (விசை தட்டச்சு செய்யும் எண்ணிக்கையில் குறைவாக) ஒரு குறிப்பிட்ட உரையை இந்த மாற்று விசைப்பலகையில் உள்ளீடு செய்யலாம் என்று கண்டெடுத்தார்கள். ஆனால் இதை உள்வாங்கி எதுவும் செய்யவில்லை.
படம் 2: iTamil – என்ற தமிழ் எழுத்துரு மாற்றம் பற்றிய தடைசெய்யப்பட்ட 2016 கட்டுரை. படம்: இந்து நாளிதழ்
அடுத்த கட்டுரைக்கு மேர்கோள் என்க்கு கிடைக்கவில்லை, KaReFo-குழுவினரால் “iTamil,” (2016) ; ஆனால் அதன் சாராம்சமாவது தமிழின் உயிமெய் எழுத்து வடிவத்தை முற்றிலுமாக மாற்றியமைக்க ஒரு ஆய்வு பரிந்துரை சமர்ப்பிக்கப்பட்டது. ஆனால் இந்த கட்டுரை 2016-ஆம் ஆண்டு நடந்த தமிழ் கணிமை மா நாட்டில் வாசிப்பு பெற்றாலும் அது பின்னர் நீக்கம் ஆயிற்று – காரணம் இதனை ஆய்வளவில் கூட தமிழ் சமுகம் ஏற்கக்கூடாது என்றோரு தரப்பின் வாதம் வெற்றி பெற்றதன் காரணம். இந்த சர்ச்சைக்கும் அப்பால் அவர்கள் சொன்ன கோரிக்கை, ஆய்வுகளை பார்க்க இந்த செய்தி உபயோகரமாக வரலாற்று சின்னமாக அமைகிறது.
ஆய்வுக்களத்தில் சிந்திக்கலாம்தானே! அதை நடைமுறைப்படுத்தவேண்டுமானால்தானே மேலும்/கூடுதல் விவாதங்கள் தேவை? சிந்தனையே தடைசெய்யப்படவேண்டுமெனில் தமிழருக்கும் தலிபனார்களுக்கும் வித்தியசமென்ன?
வணக்கம் தமிழ் கணிமை ஆர்வலர்களே, இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற
$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.
1 புதிய மேம்பாடுகள்:
மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6. தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
olini.py supports natual language arithmetic evaluation in Tamil for
all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல் normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன. இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது
2 வழு நீக்கம்:
பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
நெடில் பட்டியலை சரிபார்த்தல்
Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது
3 புரவலர்களுக்கு நன்றி தெறிவித்தல்
We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language
வாய்ப்பிற்கு நன்றி.
-முத்து (கலிபோர்னியா).
மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.
“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ? Open-Tamil வழியாகத்தான் – வாங்க இதை பார்க்கலாம்.
Open-Tamil is a free and open-source Tamil Text / Natural Language Processing library (NLP) written in Python, and developed since early 2010s. This blog post is cover our gaps in marketing (on our part, ofcourse) Open-Tamil regarding the capabilities and features presented by Open-Tamil python library. Open-Tamil Python package is distributed under MIT license.
Documentation
Open-Tamil project is currently in the release v0.96 – the Python package can be found here. Documentation from Sphinx for Open-Tamil package can be found on Tamilpesu.us site at this URL.
Installation
Open-Tamil can be installed by running the following command from your terminal with root privileges on Python3. You cannot use current/later versions of Open-Tamil with v2.x – please refer to older releases on pypi page which are still available to you.
$ pip install –upgrade open-tamil>=0.96
If you want to install locally, you can run this command instead,
$ pip install –upgrade open-tamil>=0.96 –user
Python Modules
Open-Tamil provides the following Python modules with various classess and functionalities. You can learn more about them from browsing our documentation.
In summary we can list them as follows,
Module
Functionality
1
tamil
Tamil tokenization, word ordering, encoding converters, numerals, text summarizer
Various examples and utilities in Open-Tamil package; nifty code tips and tricks
Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.
Calculator Example
One fun use of the API is to build interactive websites like tamilpesu.us but a more interesting use is to build a text based calculator taking inputs in form of Tamil numerals with Tamil words for arithmetic operations like add, subtract, multiply and divide.
“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ?
Using Open-Tamil we can parse the numerals back to numbers and form a simple mathematical infix expression;
1000 – 5 * ( 9 + 1 )
then use Python eval() we can use Python parser and evaluator to build the expression tree and compute the post-order traversal and execute the expression to receive the result, which in our case is not surprisingly,
950.
Well, all this can be done in less than 30 lines of code using Open-Tamil; if you don’t believe me check-out the code here.
Credits
A large number of individuals have contributed their time and effort over the years in many capacities to the project; should you wish to acknowledge this project in your research, products you can choose to cite any of our published works of relevance to you; our publications are listed here.
As always if you wish to report bugs, or share your comments please write an email to me ezhillang AT gmail DOT com or file an issue at github.
எழுத்து விளையாட்டு – ஜோடி சேர்த்தல் – இரண்டு காலங்களில் சீட்டில் எழுதிய பெயர் மறைந்தபடி (மல்லாக்க) அடுக்கிய சீட்டுகளை ஜோடி சேர்த்தல் என்பது “Memory Match” என்று எளிதாக பலரும் (வயதில் மூத்தவரில் இருந்து குழந்தைகள் வரை) விளையாட உதவும். மேலாக இந்த விளையாட்டில் எவ்வித படங்களையும் சராசரியாக பயன்படுத்தினாலும், நாம் இங்கு தமிழ் உயிரெழுத்துக்களை புகுத்துப்பார்க்கலாம் என்று தோன்றியது. தோடர்ந்து படியுங்கள் – எப்படி இந்த விளை
2. படி ஒன்றில் உள்ள படத்தை A4 அல்லது US Letter அளவில் உள்ள தாளில் அச்சிட்ட பிறகு அதனை அட்டையில் ஒட்டவும்.
அட்டையில் அச்சிட்ட தாளை ஒட்டியபின். (நான் முதலில் செய்த பொழுது வேண்டாத வேலையாக அட்டையை 24 துண்டாகவும், மறுபடியும் தாளை 24 துண்டாகவும் வீன் வேலை பார்த்தேன் – நீங்கள் அப்படி செய்ய வேண்டாம்!) 😅
3. அட்டையில் ஒட்டியபின் கோடுகள் ஓடியபடி கத்திரியுங்கள். அட்டையின் தன்மையை பொருத்து சற்று பலமாக செயல்படுத்தலாம்; கவனாமக செயல்படுங்கள் ✂️. சிறுவரி, கொழந்தங்க கிட்ட இதனை கொடுக்கவேண்டாம்.
4. அடுத்து நீங்கள் விளையாடலாம்! விதிகள் இப்படி
4. விதிகள்
ஒருவராகவும் அல்லது இருவராகவும் விளையாடலாம் – முறை மாற்றி விளையாட்டு;
தமது முறையின் போது ஒருத்தர் இரண்டு சீட்டுகளை மல்லாக்க இருந்து திருப்பி எடுக்கலாம்; இந்த சீட்டுகளில் ஒரே படம் – அதாவது எழுத்து இருந்தால் – அதனை அவரே தன்னகப்படுத்தி மறுமுறை விளையாடலாம் -சீட்டு ஜோடி சேராவிட்டால் இருந்த இடத்தை மட்டும் முடிந்த அளவு நினைவில் கொண்டு அதே இடத்தில் வைப்பார்.
இப்படி இல்லாதபட்சத்தில் முறை மாறி மற்றவர் வெளையாடலாம். அவரும் அதே படி-2-இல் உள்ளவிதிகளின் படி.
இப்படி முறை-மாற்றி விளையாடும் பொழுது, கடைசி சீட்டு ஜோடி சேர்ந்தபின் இருவரில் யார் அதிகமாக ஜோடிகள் சேர்த்தாரே அவர், அவர்களது அணி வெற்றிபெற்றதாகும்.
இரண்டாம் ஆட்டம் முடிந்த பின் சீட்டுகள்; மனைவி இடது பக்கம் – நான் வலது பக்கம். யார் வெற்றி என்பது கேட்கவே வேண்டாம்!
இந்த விளையாட்டு தான் உயிரெழுத்து நினைவகம். கொரோனாவின் ஊரடங்கு காலத்தில் இதை நீங்கள் வீட்டில் விளையாடலாம். எதுவும் சிறப்பாக திருத்தம் செய்யலாம் என்றால் கருத்துக்களை கீழே பதிவிடுங்கள்.
சமிபத்தில், ஓப்பன் தமிழ் வரிசை எண் 0.96-இல் எண்ணவெல்லாம் நிரல் படுத்தி செய்யலாம் ? இவற்றை எங்களது ஆறு ஆண்டு முயற்சியாக @UTSCஎண்ணிம தமிழ் துரையினரிடம் நேற்று வழங்கினேன். முழு வில்லைகள் (Slides) இங்கும். https://bit.ly/2G7mevE இங்கும் (PDF-வடிவில்) : ஒப்பன்தமிழ்-2020-ஓரு-பார்வை-2பல ஆண்டுகளாக பங்களித்தவர்கள் அனைவருக்கும் நன்றி.
இந்த வழங்கலின் பின் எழுப்பப்பட்ட கேள்விகளானவை:
NLTK-என்ற புகழ் பெற்ற ஆங்கலி இயல் மொழி பகுப்பாய்வு திறண்களைப்போன்ற சேவைகள் எப்பொழுது தமிழில் – அதுவும் ஓப்பன்-தமிழ் வழி கொண்டுவரப்படும் ? குறிப்பாக, POS – சொற்றொடர்களின் சொல் பகுப்பாய்வுகள், SynNet – சொல் இணைப்பு பின்னல்கள் ஆகியன.
உரையினை சொல் எழுத்துக்களாக பகுப்பாய்வு செய்வதன் வேகம், செய்முறை நினைவகளவு (RAM) குறைவாகவும் இருப்பது பற்றிய கேள்விகள்; விக்கிபீடியாவின் தரவுகளில் சொல்தேடல்கள் (word search), சொல் எண்ணிக்கை (frequency) பட்டியலிடலின், concordance/collocation database creation பற்றியும், அவைகளை உருவாக்கும் இயக்க நேர அளவுகள் போன்றவற்றை பற்றியும் அதன் வேகப்படுத்துவதைப் பற்றியும் கேள்விகள் வந்தன.
சொல்வனம் மின் இதழ்களின் வரலாற்று தரவுகளை எப்படி ஆரய்ச்சிக்காக கேட்பது என்பது பற்றியும் அவற்றில் உள்ள கலை சொற்கள், அறிவியல் ஆராய்ச்சி கட்டுரைகள், தமிழாக்க நடை அவற்றினை UTSC பல்கலைக்கழகத்திற்கும் மற்ற பொது ஆய்விற்கும் பெருவதன் அனுகுமுறை பற்றியும் கேள்விகள் எழுப்பப்பட்டன.
இதன் கண் தமிழில் தரவுகள் அதிகமாக நேர்ந்தால், கைக்கெட்டினால் தமிழில் பல் புதுமைகள் செய்யலாம் என்பதும் ஒரு பேராசையாக இந்தத் தருனத்தில் தேன்றும். புதிய இயந்தர வழி கற்றலின் பால் உள்ள வாய்புகளுக்கு இணங்க எப்படி இந்த மென்பொருளை வளர்ப்பது என்பது ஒரு புதிய சவால். சந்திப்போம்!
சமிபத்தில் Yahoo குழுமங்கள் சேவை நிறுத்தப்படுவதாலும் அங்கு உள்ள பல வரலாற்று நோக்கில் சுவாரசியமான உரையாடல்கள், முக்கியமான கருத்துக்கள், அனைத்தையும் ஆவணப்படுத்தி செய்வது முக்கியமாக அமைந்ததுள்ளது.
இதை அணுகுவதில் 1980-90-களில் இருந்த தமிழ் எழுத்துரு வழி உள்ள குறியீடுகளும் [font-based encoding] அதன்பால் உள்ள சிக்கல்களும் நிற்கின்றன. இவற்றை தரப்படுத்தி தமிழில் ஒருங்குறி [unicode] வழியில் சேமித்தால் இந்த தரவுகளை முறைப்படி சேமித்தும், பரிசோதித்தும் பார்க்கலாம் என்பது இலக்கு.
முதலில் இதனை நண்பர் ஒருவரிடம் வழி இந்த செய்தி வந்தது- அதில் உள்ள இந்த மாதிரி உரையை டுவிட்டரில் இட்டேன். மேலும் சற்று சிறிய பரிசோதனையில்சட்டென்று குறியீடை அடையாளம் காண முடிந்தது.இது ஒரு ஓப்பன் தமிழ் மற்றும் எங்களது பங்களிபாளர்களின் மொத்த ஒரு வெற்றி என்றும் தோன்றுகிறது.
ஓப்பன்-தமிழ் தொகுப்பில் இந்த வேலையை பரிசோதித்து பார்த்தால் கீழ்கண்டபடி நிரல் இடலாம்:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
மேலும் தமிழில் இயங்கும் பலர் தங்களது வேலைகளில் உள்ள தமிழ் செயலிகளும், அதன் திறன்களில் இதே போன்ற சிக்கல்களை தீர்வடையலாம் என்று தகவல் தெறிவித்தனர்; அவையாவன:
இன்று, இயல் மொழி ஆய்வு நிரல்தொகுப்பான ஓப்பன் தமிழ் வரிசைஎண்0.9 என்பதில் இன்று வெளியிடப்பட்டது. இயல் மொழி ஆய்வுகள்செய்ய உதவும் இந்த நிரல் தொகுப்பு வெளியிடப்பட்டுள்ளது. இதனை பைத்தான் மொழியில் நிங்களோ அல்லது உங்கள் நிரலரோ பயன்படுத்தலாம்.
$ pip install –upgrade open-tamil
என்று கட்டளைஇடல் தேவை; இது உங்கள் கணினியில் நன்கு பரிசோதித்து வெளியிடப்பட்ட நிரல்தொகுப்பை நிறுவிவிடும்.
இந்த அத்யாயத்தில் உள்ள புதியது: தமிழ் வேர்சொல் பகுப்பாய்வு செய்ய உதவும் தொகுப்பு ‘tamilstemmer‘.
ஓப்பன் தமிழ் குழுவிற்கும், நிரல் தொகுப்பினை பயன்படுத்தி பரிந்துரை செய்தவர்களுக்கும் நன்றி!