வணக்கம் தமிழ் கணிமை ஆர்வலர்களே, இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற
$ pip install –upgrade open-tamil==0.97
என்று கட்டளை கொடுக்கலாம்.
1 புதிய மேம்பாடுகள்:
மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6. தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
olini.py supports natual language arithmetic evaluation in Tamil for
all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல் normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன. இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது
2 வழு நீக்கம்:
பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
நெடில் பட்டியலை சரிபார்த்தல்
Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது
3 புரவலர்களுக்கு நன்றி தெறிவித்தல்
We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language
வாய்ப்பிற்கு நன்றி.
-முத்து (கலிபோர்னியா).
மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.
சமிபத்தில் Yahoo குழுமங்கள் சேவை நிறுத்தப்படுவதாலும் அங்கு உள்ள பல வரலாற்று நோக்கில் சுவாரசியமான உரையாடல்கள், முக்கியமான கருத்துக்கள், அனைத்தையும் ஆவணப்படுத்தி செய்வது முக்கியமாக அமைந்ததுள்ளது.
இதை அணுகுவதில் 1980-90-களில் இருந்த தமிழ் எழுத்துரு வழி உள்ள குறியீடுகளும் [font-based encoding] அதன்பால் உள்ள சிக்கல்களும் நிற்கின்றன. இவற்றை தரப்படுத்தி தமிழில் ஒருங்குறி [unicode] வழியில் சேமித்தால் இந்த தரவுகளை முறைப்படி சேமித்தும், பரிசோதித்தும் பார்க்கலாம் என்பது இலக்கு.
முதலில் இதனை நண்பர் ஒருவரிடம் வழி இந்த செய்தி வந்தது- அதில் உள்ள இந்த மாதிரி உரையை டுவிட்டரில் இட்டேன். மேலும் சற்று சிறிய பரிசோதனையில்சட்டென்று குறியீடை அடையாளம் காண முடிந்தது.இது ஒரு ஓப்பன் தமிழ் மற்றும் எங்களது பங்களிபாளர்களின் மொத்த ஒரு வெற்றி என்றும் தோன்றுகிறது.
ஓப்பன்-தமிழ் தொகுப்பில் இந்த வேலையை பரிசோதித்து பார்த்தால் கீழ்கண்டபடி நிரல் இடலாம்:
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters. Learn more about bidirectional Unicode characters
மேலும் தமிழில் இயங்கும் பலர் தங்களது வேலைகளில் உள்ள தமிழ் செயலிகளும், அதன் திறன்களில் இதே போன்ற சிக்கல்களை தீர்வடையலாம் என்று தகவல் தெறிவித்தனர்; அவையாவன:
Please note table was updated to show letters in most-frequent to least-frequent alphabets and their code-words used. Updated after publishing on Aug 16th, 2018.
Source coding theory
Information theory provides us with tools to calculate the information content of symbols in a language, i.e. alphabets in our case. Average codeword length was 6.45652 bits, which is rounded to 7bits.
According to 230+ symbols of encoded in binary without attention to letter frequency we would be using ceil[ log2[230] ] ~ 8bits per symbol, so the usage of Morse code provides a related data compression of 12.5%!
Previously, I had written about Morse code for Tamil in this blog here, and relationship with Unigram, Bigram and Trigram models and word-structure in Tamil language.
ம் -> --..
த -> -...
க -> ...-.
ல் -> ..---
த் -> ----.
க் -> -.---
ன் -> -.--.
ர -> .....-
ப -> ....--
வ -> ..--.-
தி -> ..-..-
ச -> ..-.-.
கு -> .----.
ம -> .---.-
ப் -> .--..-
ட் -> .--.-.
டு -> .-...-
ர் -> .-..-.
ய -> .-.-.-
அ -> ---..-
ட -> ---.--
ரு -> ---.-.
பு -> -..---
கா -> -..--.
து -> -..-.-
ல -> -.-..-
வி -> .......
டி -> ....-..
ண் -> ....-.-
சி -> ...---.
ன -> ..--...
ரி -> ..-....
ங் -> ..-...-
ந் -> ..-.---
ற் -> .-----.
இ -> .--...-
று -> .-..---
ச் -> .-....-
சு -> .-..--.
பா -> .-.----
கி -> .-.--..
பி -> .-.--.-
வா -> .-.-...
மு -> -----..
ள் -> ---....
லை -> --.--..
உ -> --.--.-
டை -> --.-..-
தா -> --.-.--
ண -> -..-...
கை -> -..-..-
ஆ -> -.-...-
மா -> -.-.---
ய் -> -.-.-.-
ள -> ......-.
சா -> ...--..-
ற -> ...--.--
லி -> ..--..--
வு -> .---...-
கொ -> .---..-.
ந -> .--.....
நி -> .--....-
ஞ் -> .--.----
ரா -> .--.---.
ணி -> .--.--..
ளி -> .--.--.-
யா -> .-......
நா -> .-.-..--
றி -> .-.-..-.
கோ -> -------.
செ -> ------..
ழி -> ------.-
னி -> -----.-.
ழு -> --.-----
மி -> --.----.
யி -> --.-....
பொ -> --.-.-..
ரை -> --.-.-.-
வெ -> -.-.....
எ -> -.-.--..
மை -> -.-.--.-
றை -> -.-.-..-
பூ -> ......--.
ழ -> ...-----.
னை -> ...----..
லா -> ...--.-..
சை -> ..--..-.-
வை -> ..-.--...
போ -> ..-.--..-
கூ -> ..-.--.-.
வே -> .--------
டா -> .-------.
தை -> .------..
பெ -> .---....-
ளை -> .---..---
தே -> .-.---...
ஒ -> .-.---.--
ழ் -> -----.---
லு -> ---...---
நீ -> ---...-..
சீ -> ---...-.-
தீ -> --.---...
மூ -> --.---..-
தொ -> --.---.--
ணை -> --.---.-.
ஏ -> --.-...-.
நெ -> -.-....-.
ளு -> -.-.-....
னா -> ......----
சூ -> ......---.
மே -> ...-------
தோ -> ...------.
தெ -> ...----.-.
சொ -> ...--.....
சே -> ...--....-
தூ -> ...--...--
யு -> ...--...-.
பே -> ...--.-.--
வீ -> ..--..-..-
ஊ -> .------.--
னு -> .---......
யோ -> .---.....-
சோ -> .---..--..
கே -> .-.....---
ழை -> .-.....--.
ணு -> .-.---..--
ஓ -> .-.---.-..
கெ -> ----------
கீ -> --------..
றா -> --------.-
பை -> -----.--..
ணா -> -----.--.-
ரோ -> ---...--.-
மொ -> -.-....--.
மெ -> -.-.-...--
லோ -> ...----.---
பீ -> ...----.--.
ளா -> ...--.-.-.-
ஈ -> ..--..-....
ஞா -> ..--..-...-
மீ -> ..-.--.----
வ் -> ..-.--.--..
மோ -> ..-.--.--.-
நு -> .---..--.-.
ஐ -> .-.....-..-
ரே -> .-.....-.-.
நோ -> .-.---..-.-
நே -> .-.---.-.--
நூ -> ---------..
யெ -> --.-...----
லே -> --.-...--..
ரீ -> -.-....----
நொ -> -.-....---.
யை -> -.-.-...-..
ழா -> ...--.-.-...
ரூ -> ...--.-.-..-
னோ -> .------.-.--
ஞ -> .---..--.---
யூ -> .---..--.--.
வோ -> .-.....-....
யே -> .-.....-.---
லெ -> .-.---..-...
ரெ -> .-.---.-.-.-
ணீ -> ---...--....
டோ -> ---...--..--
டெ -> ---...--...-
கௌ -> ---...--..-.
ணெ -> --.-...---..
சௌ -> --.-...---.-
றெ -> ..-.--.---...
லூ -> ..-.--.---..-
றோ -> .------.-....
னே -> ..-.--.---.--
னீ -> .------.-..-.
நை -> .------.-..--
டூ -> .------.-.-..
னெ -> .-.....-.--..
டே -> .-.....-.--.-
ஞெ -> .-.---..-..--
ளெ -> .-.---.-.-...
டீ -> ---------.---
யொ -> ---------.--.
பௌ -> ---------.-..
ஃ -> --.-...--.---
ஔ -> --.-...--.-..
ஞை -> -.-.-...-.---
யீ -> -.-.-...-.--.
றொ -> -.-.-...-.-.-
வொ -> .------.-...--
வூ -> ..-.--.---.-..
னூ -> .------.-.-.--
ளோ -> .-.....-...---
ணோ -> .------.-.-.-.
றே -> .-.....-...--.
மௌ -> .-.....-...-..
தௌ -> .-.---..-..-..
ளே -> .-.---.-.-..-.
லொ -> .-.---.-.-..--
றூ -> ---------.-.--
ரொ -> --.-...--.--..
டொ -> --.-...--.-.-.
ங -> -.-.-...-.-...
ணே -> ..-.--.---.-.--
ளீ -> .------.-...-..
ழூ -> .-.....-...-.-.
ளொ -> .-.---..-..-.-.
ரௌ -> .-.---..-..-.--
யௌ -> ---------.-.-..
னொ -> ---------.-.-.-
ழோ -> --.-...--.-.--.
ளூ -> --.-...--.-.---
ஞி -> -.-.-...-.-..--
ணொ -> .-.....-...-.---
ணூ -> .------.-...-.--
ழீ -> .-.....-...-.--.
ஸ் -> --.-...--.--.--.
வௌ -> -.-.-...-.-..-..
ஞீ -> --.-...--.--.---
ஷ் -> ..-.--.---.-.-...
ஷி -> ..-.--.---.-.-..-
ழெ -> ..-.--.---.-.-.-.
றீ -> .------.-...-.-.-
நௌ -> ..-.--.---.-.-.--
ஞே -> .------.-...-.-..
லௌ -> --.-...--.--.-..-
ஞொ -> -.-.-...-.-..-.--
ஙு -> --.-...--.--.-...
ஷ -> --.-...--.--.-.---
ழொ -> --.-...--.--.-.--.
ழே -> -.-.-...-.-..-.-.
டௌ -> --.-...--.--.-.-.-
ஞூ -> --.-...--.--.-.-..
Caveats and Closing Comments
Of course 15 of 247 letters are perhaps not received any codeword in this codebook. Further with inclusion of Grantha letters, 323 letters exist in Tamil some of which we don’t have code words.
Further, a large text corpus like Project Madurai’s [PM] unigram frequency distribution maybe useful to develop a widely representative Morse code table. Once you have this PM unigram data, you know how to get this Tamil Morse codebook regenerated!