மொழிவெளியில் எண்ணிம செயல்பாடும், பங்களிப்புகளும்

தமிழில் ஏன் நாம் செயல்படுகிறோம் என்று பலருக்கும் குறிப்பிட்டவரைப்பற்றி ஒரு கருத்து இருக்கும்பொழுது செயல்படும் நம்மவர்க்கு என்ன புரிதல் இருக்கிறது? ஒரு கண்ணாடியில் பார்த்தால் போதுமே – புலப்படும் அந்த பிம்பத்தின் உரிமையாளர். அவர்களது மனதில் நினைவோட்டத்தில் எண்ண ஓடுகிறது என்று எளிதில் சொல்லமுடியுமா என்ன – ஒட்டு மொத்த உளவியல், மனோதத்துவியல் துறைகளே இதனை சுற்றி கட்டமைக்கப்பட்டவை. அவர்கள் கண்டதைவிட புதிதாக நாம் எதுவும் இந்த வலைப்பதிவின் நீளத்தில் புரிந்துவிடலாமா என்ன? விளையாடாதீங்க.

சரி அப்பொழுது பொதுவான தனிமனித பொழுதுபோக்கு நேரங்களில் பங்களிப்புகள் நடத்தும் நமக்கு என்ன தேவைகள் இருக்கிறது? இவை எவ்வாராவது உறுமாறி தமிழ் பங்களிப்புகளாக மாற்றமடைகின்றன என்பதுதான் பலருக்கும் உள்ள செயல்பாட்டு நோக்கமாக அமைகிறது.

“தமிழ் சற்று தேக்கம் அடைந்த மொழி, தமிழில் செயல்படுவது ஒரு அடாவிசம் (atavism),” என்றெல்லாம் மற்ற இந்திய மொழியினர்கள் குற்றம் சாட்டினாலோ அல்லது மனதிற்குள் செறுக்காக எடைபோட்டு மதிப்பிட்டாலோ அவர்களுக்கு தமிழில் நடந்த, நடக்கும் விவாதங்கள், புரட்சி, போராட்டங்கள், அழகியல், முரண் போன்ற அறிவுசார்விவாதங்கள் பற்றியும் ஒன்றுமோ அறியாமையை மட்டும் சுட்டுகிறது.

ஆகட்டும் அவர்கள் கண்களுக்கு அரைப்பழங்குடியினராக மட்டும் தென்பட்டதால் அவர்களது (ஆங்கிலமல்லாத) மொழி வளர்ச்சியடைந்ததாக நான்கண்டதில்லை. எனினும் தமிழில் செயல்படும் பலரும் நெருக்கடிக்கிடையில் ஒரு பெரும்பாலான ஆங்கில சூழலில் பணியாற்றிக்கொண்டும், அல்லது மாணவரான சூழலில் தொடங்கி திறம்பட 30இல் இருந்து 60ஆண்டுகள் வரை பின்னடைந்த தமிழ் தகவல் ஆராய்ச்சிகளை தாமாகவே முன்னெடுத்து செய்கின்றனர். இவர்களை atavist, neanderthal என்றெல்லாம் பழிப்பது வெகுவான liberal/libertarian அரசியல் பார்வைக்குள் அடங்காதது. இதற்கு முன்சான்றே தமிழர்களை தற்குறைவாக பார்ப்பதாக மட்டுமே, “ஏய் மடராசி” என்றேல்லாம் சொல்வது போலவே அமைகிறது.

தமிழில் செயல்படுபவர்கள் பணத்திற்காகவும், ஆன்மீகம், பதவி, அரசியல், மொழி, இனம், தத்துவம், அழகியல், தொன்மை, தொடர்ச்சி, புதுமை என்றும் தனித்தனியாகவோ அல்லது பலவற்றினையும் கருத்தில்கொண்டும் செயல்படுவதனால் மொழி மேம்பாடு அடைகிறது.

இந்த எண்ணிம உலகில் 1-0 தவிர யார் மொழி கணினியில் செலுத்தப்பட வேண்டும் என்பது ஒரு அரசியல் – அதில் பிழைக்காதவர்கள் மொழிகள் தேக்கத்தை அல்லது ஒதுக்கப்படும் நிலைக்க தள்ளப்படுவதே ஒரு பின்னடைவு. மொழியையும் அதில் உள்ள கருத்துக்களையும் நாம் மனதில் அடைந்த முன்னேற்றத்திற்கும் வாழ்க்கை வழிக்கும் இசைவாக முன்னெடுத்துசெல்வது பெருமை – பன்மைத்துவத்தின் ஒரு உச்ச கட்டமாகவும் பார்க்கலாம். தமிழில் செயல்படுவது ஒரு புரிதல் – “நீ யார்,” என்ற தேடலின் ஒரு மிகப்பெரிய அடையாள கேள்வியின் பயணத்தில் உள்ள காட்டுப்பாதை. தாங்கள் பேசிய மொழிகள் பழுதடையப்பார்ப்பது ஒரு அடாவடி அடாவிசம்.

சாஸா எபலிங்

தமிழில் பெண்ணியம், பெண்ணிய எழுத்தாளர்கள் பற்றி சமிபத்தில் எழுதியுள்ள சாஸா எபலிங் 19-ஆம் நூற்றாண்டின் தமிழ் இலக்கியங்களை பற்றி ஆய்வு செய்து செருமனியின் கலோன் பல்களையில்இருந்து முதுகலை/முனைவர்பட்டம் பெற்றார் – பின்னர் அவர் சிக்காகோ பல்கலைக்கழகத்தில் துணை பேராசிரியராக பணியாற்றுகிறார். இவரைப்பற்றிய 2010 செய்தி கட்டுரை இங்கு தாய்வீடு 2010-ஆகஸ்டு :

சிந்திக்கவைக்கும் ஆய்வுகள்

தமிழ் கணிமையில் பல கட்டுரைகள் வருகின்றன – அவற்றில் சில கட்டுரைகள் ஒரு முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைக்கும்; பல கட்டுரைகள் முன்னோர் சென்றவழியில் எளிதாகவும், சிறப்பாகவும், சிக்கனமாகவும் (கணினியளவில்) மற்றும் பொருளாதார, நுகர்வோர் அணுகுமுறை என்றபடியாக உள்ள புதுமைகளை விளக்கும்.

இந்த சில கட்டுரைகள் செல்லாத இடத்திற்கு, முற்றிலும் வேறுபட்ட சிந்தனைகளை முன்வைப்பவைகளில் சிலவற்றைப்பற்றி இன்று பார்க்கலாம்.

படம் 1: எழில் மொழி திருத்தியில் உள்ள தமிழ்-99 விசைப்பலகை. 

தமிழ்-99 விசைபலகைக்கு ஒரு மேம்பாடு என்ற படியாக 2004-இல் நடந்த தமிழ் கணிமை மாநாட்டில் இந்த (clj-thamil படைத்த இளங்கோ சேரன் குழுவினரால்) கட்டுரை “Optimization of Thamil Phonetic Keyboard.” இதில் ஆசிரியர்கள் கூறியதாவது, தமிழ்-99 விசையில் மெய்களுக்கு பதில் அகர-மெய்களை விசைப்பலகையில் பொருத்தினால் சிக்கனமாக (விசை தட்டச்சு செய்யும் எண்ணிக்கையில் குறைவாக) ஒரு குறிப்பிட்ட உரையை இந்த மாற்று விசைப்பலகையில் உள்ளீடு செய்யலாம் என்று கண்டெடுத்தார்கள். ஆனால் இதை உள்வாங்கி எதுவும் செய்யவில்லை.

new vistas:The iTamil project aims to make the Tamil script easy to learn, print and display, among other things —Photo: Special Arrangement
படம் 2: iTamil – என்ற தமிழ் எழுத்துரு மாற்றம் பற்றிய  தடைசெய்யப்பட்ட 2016 கட்டுரை. படம்: இந்து நாளிதழ்

அடுத்த கட்டுரைக்கு மேர்கோள் என்க்கு கிடைக்கவில்லை, KaReFo-குழுவினரால் “iTamil,” (2016) ; ஆனால் அதன் சாராம்சமாவது தமிழின் உயிமெய் எழுத்து வடிவத்தை முற்றிலுமாக மாற்றியமைக்க ஒரு ஆய்வு பரிந்துரை சமர்ப்பிக்கப்பட்டது. ஆனால் இந்த கட்டுரை 2016-ஆம் ஆண்டு நடந்த தமிழ் கணிமை மா நாட்டில் வாசிப்பு பெற்றாலும் அது பின்னர் நீக்கம் ஆயிற்று – காரணம் இதனை ஆய்வளவில் கூட தமிழ் சமுகம் ஏற்கக்கூடாது என்றோரு தரப்பின் வாதம் வெற்றி பெற்றதன் காரணம். இந்த சர்ச்சைக்கும் அப்பால் அவர்கள் சொன்ன கோரிக்கை, ஆய்வுகளை பார்க்க இந்த செய்தி உபயோகரமாக வரலாற்று சின்னமாக அமைகிறது.

ஆய்வுக்களத்தில் சிந்திக்கலாம்தானே! அதை நடைமுறைப்படுத்தவேண்டுமானால்தானே மேலும்/கூடுதல் விவாதங்கள் தேவை? சிந்தனையே தடைசெய்யப்படவேண்டுமெனில் தமிழருக்கும் தலிபனார்களுக்கும் வித்தியசமென்ன?

ஓப்பன்-தமிழ் வெளியீடு – வரிசை எண் 0.97

ஒப்பன்-தமிழ் வரிசை எண் v0.97

வணக்கம் தமிழ் கணிமை ஆர்வலர்களே,
இன்று ஓப்பன்-தமிழ் நிரல் தொகுப்பு வரிசை எண் 0.97 வெளியீடு அறிவிக்கிறோம். இதில் புதியன, சென்ற 2019-நவம்பர் மாதம் கழித்து வந்த மேம்பாடுகளாகியன, கீழ்வருமாறு.இதனை பெற

$ pip install –upgrade open-tamil==0.97

என்று கட்டளை கொடுக்கலாம்.

1 புதிய மேம்பாடுகள்:

  1. மாத்திரை கணித்தல் – தமிழ் உரையில் உள்ள சொற்களின் மாத்திரை அளவை கணிக்க புதியசார்பு ‘tamil.utf8.total_maaththirai()’ என்று திரு. பரதன் தியாகலிங்கம் அவரால் பங்களிக்கப்பட்டது.
  2. வடமொழி சொல்பட்டியல் மோனியர்-வில்லியம்ஸ் அவரது அகராதியில் இருந்து திரிக்கப்பட்டு இங்கு சேர்க்கப்பட்டது
  3. ‘tabraille’ என்ற module-இல் கண்பார்வை குறை உள்ளவர்களினால் தமிழ் பாரத பிரெயில் என்ற தரத்தை கையாளும் வகை சில உத்திகள் உள்ளன.
  4. ‘kural’ என்ற module-இல் திருக்குறளை நேரடியாக கையாள சில உத்திகள் உள்ளன. இது 2013-இல் வெளிவந்த ‘libkural’ என்பதன் மீள்பதிவாகும்.
  5. ‘solthiruthi’ என்ற module-இல் எளிதான சில மேம்பாடுகள் செய்யப்பட்டுள்ளன – இவற்றினால் வரும் மாற்றுச்சொற்கள் சற்று மேன்மை அடையும்.6.  தமிழ் எழுத்துவழி எண்களை பகுப்பாய்வு செய்து எண்களாக மாற்ற ஒரு சார்பு #221
  6. olini.py supports natual language arithmetic evaluation in Tamil for
  7.        all numbers based on this work.7. ‘tamiltts’ என்ற ஒரு module-இல்  normalize numbers to numeral text என்றும் வேறு பல சொல்/உரை நெறிப்படுத்தும் பயன்பாடுகள் உள்ளன.   இதுவும் ஒரு பழைய நிரலில் மீள் பதிப்பு.
  8. ‘tamil.tace16’ – என்ற நிரல் தொகுப்பில் தமிழ் TACE16 என்ற குறியீட்டிற்க்கு உதவும்வழி சில நிரல் சார்புகள் உண்டு.
  9. ‘transliterate.ITRANS’ – என்ற நிரல் தொகுப்பில் ITRANS transliteration – ஒலிவழி தட்டச்சு செய்தல் உருவாக்கப்பட்டது

2 வழு நீக்கம்:

  1. பாமிணி எழுத்துருவில் இருந்து ஒறுங்குறியில் மாற்றத்தில் வழு நீக்கம் சரிபார்க்கப்பட்டது
  2. நெடில் பட்டியலை சரிபார்த்தல்
  3. Python3-இல் உகந்தவாறு sorting, ‘tamil.utf8.tamil_sorted’ என்ற சார்பு சேர்க்கப்பட்டது
  4. நாள், நேரம் – tamil.date நிரல் தொகுப்பில் உள்ள சில வழு நீக்கம் செய்யப்பட்டது

3 புரவலர்களுக்கு நன்றி தெறிவித்தல்

We thank @pycharm for donation of 1 seat professional license towards Open-Tamil development. __/|\__. Thanks to @infitt and Prof. @crselvakumar1 for their support toward 1-way airfare cost of attending 2017-Tamil Internet Conference in Toronto, Canada. https://github.com/Ezhil-Language

வாய்ப்பிற்கு நன்றி.

-முத்து (கலிபோர்னியா).

மேற்கோள் – இந்த வலைப்பதிவு முதலில் ஒரு மின்னஞ்சல் அறிக்கையாக, திறமூலதமிழ் கணிமை அளவலாவள் குழுவில் இங்கு வெளியானது.

சில ஆய்வுகள்

“Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367

சமிபத்தில், கவிஞர் சல்மா வரிகள் போல, எல்லாரும் வௌவால்களா இந்த கொரொனாவினால் நிலைகுலைந்தனர். அவர்களின் நீண்ட பட்டியலில் நானும் ஒருவன் – ஆனால் அதிகளவு பாதிப்பு ஏதுமில்லை – வீடு, வாசல், சோறு, தண்ணி இதுக்கெல்லாம் திண்டாட்டம் இல்லை என்றாலும், இங்கு அமெரிக்க மண்ணில் 20% வேலையிழந்த பலரையும் போல் வேலைக்கு மட்டும் காவுவாங்கிட்டேன்.

சரி. இந்த நேரத்தில் மற்ற சிலபல செயல்கள் முடிவில்லாமல் தொடங்கியதை முடித்துவைக்க சில படிகள் எடுக்க நேரம் கிடைத்தது. மேலோகத்தில் இருப்பவன், என்றும் அதை நப்புபவர்கள், ஒரு கதவை மூடினால் மற்றொரு கதவை திறப்பார் என்றபடியாக இது தமிழ் வெளியில் எப்போதும் நம்மளை கொண்டு சேர்த்தது.

மொத்தம் 3-ஆய்வுகள், பெரும்பாலும், முடிவு பெற்ற நிலையில் இருந்தன; அவையாவன,

கட்டுரை தலைப்பு – PDF கோப்புகள்
1Tamil Vowel Recognition With Augmented MNIST-like Data Set
2Generation and Parsing of Number to Words in Tamil
3Algorithm to Correct Missing ​Pulli​-Signs in Printed Tamil Text
கொரோனா காலத்தில் உண்டாக்கிய ஆய்வுக்கட்டுரைகள்
  1. தமிழ் உயிரெழுத்துக்கள் செயற்கைப்பின்னல் வழியாக திறன்கண்டுகொள்வது. இதை, ஜூன் 2019-இல் தொடங்கிய ஒரு ஆய்வு என்றாலும் இந்த மூன்று கால இடைவெளியில் தான் இன்று முடிவடைந்தது. இதனை ArXiV-இல் கற்பூரம் மீது சத்தியமிட்டாமல் ஏழு நாள் தாமதத்துடன் வெளியானது. தலைப்பு: “Tamil Vowel Recognition With Augmented MNIST-like Data Set,” https://arxiv.org/abs/2006.08367
  2. அடுத்த கட்டுரை “Generation and Parsing of Number to Words in Tamil”, இதை ArXiV ஏற்க மறுத்தது – காரணம் எங்கள் வாசகர்களுக்கு இது சுவாரசியமானதல்ல என்ற சாக்கைச்சொல்லி மழுப்பினார்கள். இதை நான் மற்றொறு மொழியியல் மாநாட்டிற்கு அனுப்பியுள்ளேன் – என்ன விளைவு என்று பார்க்கலாம்.
  3. அடுத்த கட்டுரை “Algorithm to correct missing pulli signs in printed Tamil text,” என்பது [2] போல் அதே கதி. பார்க்கலாம்.
  4. கடைசியாக எழுத நினைத்தது ஆனால் நேரம் கிடைக்கவில்லாமல் போனது என்றால் “தமிழில் சொற்களை ஒலி எண்களாக பிரிப்பது” (Syllable identification) என்பதை bigram/unigram என்ற எழுத்தளவான புள்ளியியல் வடிவில் கொண்டு இவற்றை செயல்படுத்துவது. இதற்கு உங்களுக்கு ஆர்வம் இருந்தால் என்னுடன் இணைந்து செயல்படலாம் வாங்க.

இந்த பேரிடர் காலகட்டத்தில் என்னை அடைக்கலம் கொடுப்பதில் ஒன்று மொழி, மொழியியல் அதில் வசிக்கும், செயல்படும் அஞ்சா நெஞ்சர்கள். இதையும் காலம் கடந்து செல்வோம். உருதுணையாக இருந்தவர்கள் அனைவருக்கும் நன்றி.

-முத்து

Tamil Text Processing with Open-Tamil

Introduction

“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ? Open-Tamil வழியாகத்தான் – வாங்க இதை பார்க்கலாம்.

Open-Tamil is a free and open-source Tamil Text / Natural Language Processing library (NLP) written in Python, and developed since early 2010s. This blog post is cover our gaps in marketing (on our part, ofcourse) Open-Tamil regarding the capabilities and features presented by Open-Tamil python library. Open-Tamil Python package is distributed under MIT license.

Documentation

Open-Tamil project is currently in the release v0.96 – the Python package can be found here. Documentation from Sphinx for Open-Tamil package can be found on Tamilpesu.us site at this URL.

Installation

Open-Tamil can be installed by running the following command from your terminal with root privileges on Python3. You cannot use current/later versions of Open-Tamil with v2.x – please refer to older releases on pypi page which are still available to you.

$ pip install –upgrade open-tamil>=0.96

If you want to install locally, you can run this command instead,

$ pip install –upgrade open-tamil>=0.96 –user

Python Modules

Open-Tamil provides the following Python modules with various classess and functionalities. You can learn more about them from browsing our documentation.

In summary we can list them as follows,

  Module    Functionality
1

tamil

Tamil tokenization, word ordering, encoding converters, numerals, text summarizer

  Subpackages tamil.txt2ipa package Submodules
tamil.txt2ipa.ipaconvert module
tamil.txt2ipa.transliteration module
tamil.txt2ipa.unicode2ipa module
Module contents
tamil.txt2unicode package Submodules
tamil.txt2unicode.encode2unicode module
tamil.txt2unicode.encode2utf8 module
tamil.txt2unicode.orddic module
tamil.txt2unicode.unicode2encode module
Module contents
tamil.utils package Submodules
tamil.utils.TextSummaryExtractor module
tamil.utils.santhirules module
Module contents
Submodules
tamil.date module
tamil.iscii module
tamil.numeral module
tamil.regexp module
tamil.tscii module
tamil.tscii2utf8 module
tamil.tweetparser module
tamil.utf8 module
tamil.wordutils module
Module contents
2

ngram

corpus modeling classes

  ngram.Corpus module
ngram.Distance module
ngram.LetterModels module
ngram.WordModels module
3

solthiruthi

Tamil spelling checker algorithms

  solthiruthi package
Submodules
solthiruthi.Ezhimai module
solthiruthi.WordSpeller module
solthiruthi.data_parser module
solthiruthi.datastore module
solthiruthi.dictionary module
solthiruthi.dom module
solthiruthi.heuristics module
solthiruthi.morphology module
solthiruthi.resources module
solthiruthi.scoring module
solthiruthi.solthiruthi module
solthiruthi.suggestions module
solthiruthi.vinaisorkal module
Module contents
4

spell

Tamil spelling checker application

  spell package
5

tamilmorse

Morse code utilities for Tamil; இந்த தொகுப்பில் தமிழுக்கான மோர்சு குறிகளை உருவாக்கவும், குறியீடுகளை பிரித்துப்பார்கவும் முடியும்.

  tamilmorse package
Submodules
tamilmorse.morse_encode module
tamilmorse.morse_decode module
6

tamilsandhi

Tamil sandhi rules checker

  tamilsandhi package
தமிழில் சந்திப்பிழை திருத்தி உருவாக்கவும் பிழைக திருத்தவும் உதவியாகஇந்த நிரல் தொகுப்பு வழிவகுக்கும். ஏரக்குறைய 40-விதிகளை கொண்டது இந்த நிரல் தொகுப்பை உருவாக்கியவர் திருமதி. நித்யா. மேலும் விவரங்களுக்க https://github.com/nithyadurai87/tamil-sandhi-checker
7

transliterate

Transliteration tables for Jaffna, University of Madras, Bamini schemes; both forward/backward transliteration algorithms

  transliterate package Submodules
transliterate.UOM module
transliterate.algorithm module
transliterate.azhagi module
transliterate.combinational module
transliterate.jaffna module
Module contents
8

tamilstemmer

This module is new in version 0.96 and provides access to simple stemmer functions originally created by Damodharan Rajalingam.

  Tamil Stemmer source code
9

examples

Various examples and utilities in Open-Tamil package; nifty code tips and tricks

  Open-Tamil source code examples like numeral to audio generation, ngram generation, corpus analysis etc. see link here.

Calculator Example

One fun use of the API is to build interactive websites like tamilpesu.us but a more interesting use is to build a text based calculator taking inputs in form of Tamil numerals with Tamil words for arithmetic operations like add, subtract, multiply and divide.

“”ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)” என்பதை எப்படி 950 என்று கணினி புரிந்து கொள்ளும் ?

Using Open-Tamil we can parse the numerals back to numbers and form a simple mathematical infix expression;

1000 – 5 * ( 9 + 1 )

then use Python eval() we can use Python parser and evaluator to build the expression tree and compute the post-order traversal and execute the expression to receive the result, which in our case is not surprisingly,

950.

Well, all this can be done in less than 30 lines of code using Open-Tamil; if you don’t believe me check-out the code here.

Credits

A large number of individuals have contributed their time and effort over the years in many capacities to the project; should you wish to acknowledge this project in your research, products you can choose to cite any of our published works of relevance to you; our publications are listed here.

As always if you wish to report bugs, or share your comments please write an email to me ezhillang AT gmail DOT com or file an issue at github.

 

தமிழ்மகன் – 1

Srinivasa_Ramanujan_-_OPC_-_1

இராமானுஜன் இறந்து நூறாண்டுகள் ஆகிறது. அவரது அதீத, இன்றளவும் உலகம் மீண்டும் காணாத, கணித மேதையான அவரை பலகோணங்களில் காணலாம். அவர் ஒரு தமிழ்மகன் கூட என்றும் வலியுறுத்தி சொல்லவேண்டியது உண்டு. உலகளாவிய பலரும் இராமானுஜனின் கதையில் தமது வேட்கைக்கு ஊக்குவிப்பு தேடுகையில், தமிழராகிய நாமும் அவரது வெற்றிகளில் ஒரு வழி, ஒரு இலட்சிய இலக்கு தெறிகிறது என்றும் எண்ணலாம்; இவரை ஒரு தனிப்பட்ட இனக்குழு, மொழி, நாடு அல்லது துறைசார் நிபுணர் என்று மட்டும் பார்க்காமல் அவரது ஆளுமையில், வெற்றிவேட்கையில், அகால மறைவில் ஒரு மனித சோதனை-வெற்றி-பரிதாபம் என்றெல்லாம் பிரபஞ்சத்தின் உண்மைகளை கண்ட ஒரு தமிழ்மகனாகவும் பார்க்கிறோம்.

Princeton Companion to Mathematics
Princeton Companion to Mathematics

Ramanujan - biography - 1
Ramanujan – biography (Princeton companion to Mathematics)

Ramanujan - biography - 2
Princeton Companion to Mathematics

நீங்களும் ஆக்கலாம் – சரியான ஜோடி!

சரியான ஜோடி!
உயிரெழுத்துக்கள் ஜோடி சேர்க்கும் விளையாட்டு.

1 ஏன், என்ன, எப்படி ?

எழுத்து விளையாட்டு – ஜோடி சேர்த்தல் – இரண்டு காலங்களில் சீட்டில் எழுதிய பெயர் மறைந்தபடி (மல்லாக்க) அடுக்கிய சீட்டுகளை ஜோடி சேர்த்தல் என்பது “Memory Match” என்று எளிதாக பலரும் (வயதில் மூத்தவரில் இருந்து குழந்தைகள் வரை)  விளையாட உதவும். மேலாக இந்த விளையாட்டில் எவ்வித படங்களையும் சராசரியாக பயன்படுத்தினாலும், நாம் இங்கு தமிழ் உயிரெழுத்துக்களை புகுத்துப்பார்க்கலாம் என்று தோன்றியது. தோடர்ந்து படியுங்கள் – எப்படி இந்த விளை

2 தேவையான பொருட்கள்

  1. அச்சிட ஒரு பிரிண்டர்🖨️
  2. 📃A4 அல்லது US Letter அளவான தாள்
  3. ✂️கத்திரி (நீங்கள் சிறுவரானால் ஒரு பெறியவரிடம் உதவி கேளுங்கள்)
  4. கோந்து | செல்லோடேப்பு | இ….
  5. அட்டை

3 செய்முறை

1. நீங்கள் A4 தாளில் இந்த விளையாட்டை உருவாக்கவேண்டுமெனில் இதனை பயன்படுத்தலாம் (கிளிக் செய்யுங்கள்) கீழ் உள்ள படத்தை அச்சிடவும்:

A4 அளவிலான உயிரெழுத்து தாள்
A4 அளவு

நீங்கள் US Letter அளவில் செய்தால், கீழ் உள்ள படத்தை அச்சிடவும்.

US Letter அளவு உயிரெழுத்துக்கள் விளையாட்டு
இந்த US Letter அளவு உள்ள படத்தை அச்சிடவும்.

இந்த இரண்டு படங்களும் Python, PIL, Open-Tamil, அச்சு தமிழ் OCR தரவு  மற்றும் இணைமதி எழுத்துருவில் வழி உருவாக்கப்பட்டது.

2. படி ஒன்றில் உள்ள படத்தை A4 அல்லது US Letter அளவில் உள்ள தாளில் அச்சிட்ட பிறகு அதனை அட்டையில் ஒட்டவும்.

பிக்1
அட்டையில் அச்சிட்ட தாளை ஒட்டியபின். (நான் முதலில் செய்த பொழுது வேண்டாத வேலையாக அட்டையை 24 துண்டாகவும், மறுபடியும் தாளை 24 துண்டாகவும் வீன் வேலை பார்த்தேன் – நீங்கள் அப்படி செய்ய வேண்டாம்!) 😅

3. அட்டையில் ஒட்டியபின் கோடுகள் ஓடியபடி கத்திரியுங்கள். அட்டையின் தன்மையை பொருத்து சற்று பலமாக செயல்படுத்தலாம்; கவனாமக செயல்படுங்கள் ✂️. சிறுவரி, கொழந்தங்க கிட்ட இதனை கொடுக்கவேண்டாம்.

4. அடுத்து நீங்கள் விளையாடலாம்! விதிகள் இப்படி

4. விதிகள்

  1. ஒருவராகவும் அல்லது இருவராகவும் விளையாடலாம் – முறை மாற்றி விளையாட்டு;
  2. தமது முறையின் போது ஒருத்தர் இரண்டு சீட்டுகளை மல்லாக்க இருந்து திருப்பி எடுக்கலாம்; இந்த சீட்டுகளில் ஒரே படம் – அதாவது எழுத்து இருந்தால் – அதனை அவரே தன்னகப்படுத்தி மறுமுறை விளையாடலாம் -சீட்டு ஜோடி சேராவிட்டால் இருந்த இடத்தை மட்டும் முடிந்த அளவு நினைவில் கொண்டு அதே இடத்தில் வைப்பார்.
  3. இப்படி இல்லாதபட்சத்தில் முறை மாறி மற்றவர் வெளையாடலாம். அவரும் அதே படி-2-இல் உள்ளவிதிகளின் படி.
  4. இப்படி முறை-மாற்றி விளையாடும் பொழுது, கடைசி சீட்டு ஜோடி சேர்ந்தபின் இருவரில் யார் அதிகமாக ஜோடிகள் சேர்த்தாரே அவர், அவர்களது அணி வெற்றிபெற்றதாகும்.

உயிரெழுத்து ஜோடி சேர்க்கும் ஆட்டம் முடிவில்
இரண்டாம் ஆட்டம் முடிந்த பின் சீட்டுகள்; மனைவி இடது பக்கம் – நான் வலது பக்கம். யார் வெற்றி என்பது கேட்கவே வேண்டாம்!

இந்த விளையாட்டு தான் உயிரெழுத்து நினைவகம். கொரோனாவின் ஊரடங்கு காலத்தில் இதை நீங்கள் வீட்டில் விளையாடலாம். எதுவும் சிறப்பாக திருத்தம் செய்யலாம் என்றால் கருத்துக்களை கீழே பதிவிடுங்கள்.

நனறி.

-முத்து

 

 

கொங்கு வழக்கு சொல்தேடல்

கொங்கு நாட்டு வட்டார வழக்கு சற்று இசைவானதும் கூட; மலை மலைசார் மக்கள், மலைச்சாரல் நிலம், மற்றும் பல தரப்பு மக்கள் காடு-மேடு-கலை என்றும் பலவகையில் வசீகரிக்கும் ஒரு குறிஞ்சி நில மண் வழி பிறந்த சொற்கள் பல படைப்பாளிகளின் வழி இன்றும் மேலோங்கி இந்த நிலத்து வழக்கு முன்நிற்கின்றது.

கிழே உள்ள சொல்தேடல்களில் உள்ள 10-சொற்களை கொடுக்கப்பட்ட உசாத்துனைகளிலிருந்து உங்களால் கண்டறியமுடியுமா? முயலுங்கள். தயாரித்தது: http://tamilpesu.us/xword/

  • உணவு அல்லது கட்டுச்சோற்றை கொண்டி செல்லும் கலன் (2)
  • கீழே இருப்பதை குனித்து கொங்கு நாட்டவர் எடுப்பார்கள் (4)
  • தனிமையில் நடந்து வருபவர் நடைபாவனை (7)
  •  வைக்கோல், பருத்தி, ஆகியவை அறுவடையின்பின் காய்ந்த வடிவில் விலங்குகளுக்கு உணவாகும் (2)
  • ஏழு அல்லது எட்டு உருப்பிடிகள் (4)
  • பனையில் வழி வடிகட்டிய சர்க்கரை (6)
  • மதிய உணவுக்குப் பின் பொழுதுசாயும் வரை அளிக்கப்படும் சிறிய உணவுகள் (5)
  •  காய்ச்சிய திடமான மதுபானம்(4)
  • பனை மற்றும் தென்னையில் இருந்து சுண்ணாம்பிட்டு இறக்கப்படும் மதுபானம்(2)
  • “நான் பிடித்த _ _ _ -க்கு மூன்றுகாலு” (3)

சொல்தேடல்

கொங்கு நாடு சொல்தேடல்

 

 

 

 

 

 

 

 

 

 

 

 

 

விடை

கொங்கு நாடு விடைகள்

  1. போசி
  2. குமிஞ்சு
  3. தன்குண்டியாக
  4. போர்
  5. ஏழெட்டு
  6. கருப்பட்டி
  7. பலகாரம்
  8. சாராயம்
  9. கள்
  10. மொசல்

 

நன்றி

-முத்து.

தமிழ் உரை சம்பந்தமான சில புதிர்கள் (4) – எண்கள்

1. மொழியின் போக்கு

சில தலைப்புகளில் தமிழ் உரை சிக்கல்கள் அதனைக் கையாளும் ஒரு யுகிப்புகளையும் ஏற்கணவே கண்டோம். தமிழ் அறிவாளிகளிலும், எழுத்தாளர்களிலும் ஒரு தனியிடம் வகிக்கும் ஐயா திரு. நாஞ்சில் நாடன் (அவர் முதுகலை புள்ளியியளாளர் என்பதால் எண்களில்/பொறியாளர்களுக்கு நெருக்கமானவராகவும் சற்று அவரை காணத்தோன்றுகிறது) சில ஆண்டுகளுக்கு முன்பு தமிழில் புழக்கப்படும் சொல்வளம் வெரும் முன்னூரு சொற்கள் மட்டும் தான் என்று திடுக்கிடும்படி சொன்னார். இதனை, ஒரு கம்பராமாயண படித்து உரை எழுதிய அறிஞர்/வித்தகரிடம் இருந்து வருவது மிக முக்கியமான ஒரு மொழியின் போக்கைப்பற்றிய விமர்சனம்.

அதாவது தற்காலிக தமிழில் சுமார் மூன்று இலட்சம் சொற்கள் இருக்கு என்றால் அதில் 1/10 சதவிகிதம், அதாவது 0.1% சொற்களை மட்டும் தான் நாம் புழக்கப்படுத்துகிறோம் அவ்வை எப்படி போர்கிடங்கில் உள்ள ஆயுதங்களை பற்றி விமர்சித்தாள் என்றது போல் நாஞ்சில் அவரது கூற்றை நாம் எடுத்துக்கொள்ளலாம். தமிழில் யாரும் ஒரு சொல்லாடல் கணக்கொடுப்பு அல்லது இயல்மொழி பகுப்பாய்வு கணக்கெடுப்பு மென்பொருளை உருவாக்கினால் அதற்கு நாஞ்சில் என்று பெயருடிங்கள்.

இந்த வாரம் கொரோனாவினால் உலகெங்கும் ஊரடங்கில் இருக்கின்றோம். சில தமிழ் கணினியாளர்கள் நங்கள் இணையம் வழி சந்திப்பு நடத்தினோம் அதன் வீடியோ இங்கு பதிவில் காணலாம். இந்த சந்திப்பின் படம் இந்த கட்டுரையின் தலைப்பில் காணலாம்.

2. இடைவெளி எண்கள்

இந்த வாரம் எனக்குப் புலப்படும் சிக்கல் இதோ: இடைவெளி எண்கள் – அதாவது ஒரு மதிப்பினை தோராயமாக நாம் குறிக்கும் போது – “எவ்வளது நாள் ஆகும் இந்த பொருள் வீடுசேர?” “சுமார் பத்துப்பதினைந்து நாட்களில் வரும்” – என்றபடி நாள்தோரும் நாம் கேட்கின்றோம். இதனை கணினியில் எப்படி இயல்மொழி உணரலாம் ?

  1. நூறு-இருனூறு கொடுத்து அனுப்புங்க” (வணிகம்)
  2. பத்து-ஐஞ்சு ஆகலாம் – ஆனால் ஒன்னும் தேராது.” (வணிகம்)

மேலும், இவற்றில் எப்போதும் கீழ்வரிசையில் மட்டுமா வரும் ? (வெக்கை நாவலில் பூமணி, பத்து-ஐஞ்சு  என்ற சொலவம் பயன்படுத்துகிறார்). இவை இரண்டிற்கும் ஒரே மாதிரியான அல்கோரிதம்

3. எண்கள்

இதில் திறித்துப் பார்த்தால் மற்றுமொரு கேள்வி இருக்கின்றது: தமிழில் சில எண்களை அதிகம் பேசப்படுகின்றன:

  1. ஆயிரத்தெட்டு காரணம் சொல்லாம் – ஆனால் ஒப்புக்கொள்ளமுடியாது” (பொதுவெளி)
  2. நூற்றிஎட்டு தேங்காய் உடைக்கனும்,” “வாரணம் ஆயிரம்” … (ஆன்மீக வெளிப்பேச்சு)

இடம் சூட்டும் எண்கள் (ordinals) என்பவையும் உள்ளன – அதாவது,

  1.  “இந்தக்குதிரை டெர்பி போட்டியில் முதல் இடத்தை பிட்காமல் மூன்றாம் இடத்தில் வந்தது; அனைத்து சூதாட்டக்காரர்களும் தங்களது முதலீட்டை முழுசாக இழந்தனர்.”
  2. “நீ முதலாவதா தேர்தலின் வராட்டியும் பத்தாவதிற்குள் வந்து வாக்குப்பிளவிக்கனும்; இல்லாவிட்டால் கட்சியில் இருந்து நீக்கம் செய்வோம்.”

4. சொல்வழி கணிதம்

உதாரணமாக எங்கு நாம் இந்த எண்களை உரைவடிவில் இருந்து புரிந்து கொள்ள வேண்டும் என்றால் ஒலிவழி உணரியின் வழியாக கணிதம் செய்தல் என்றபடி இது தேவைப்படுகிறது. இதனை automatic speech recognition (ASR) என்றும் சொல்லலாம்.

உராணம், எப்படிஇந்த ஒலிவழி சொல்லப்பட்ட கூற்றை கணித்து ஒலிவழி விடைஅளிப்பது?

ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)

முதலில் தமிழ் எண்களை கணினியில் உணரவேண்டும் – இதனை ஓப்பன்-தமிழ் வழி செய்யலாம். பின் இரும-நிலை மரம் (binary tree parsing and post-order traversal) அல்லது பைத்தான் மொழி eval என்ற கட்டமைப்பின் வழியாக எளிதில் கணக்கிடலாம். முழு நிரல்

# This Python file uses the following encoding: utf-8
#!/bin/env python3
# (C) 2020, எழில் மொழி அறக்கட்டளை
# இந்த நிரல் ஓப்பன்-தமிழ் நிரல் தொகுப்பில் சேர்ந்ததாகும்.
# உரைவழி தமிழ் எண்களினை கொண்ட கணிதவியல்
# உள்ளீடை கணக்கிடும் ஒரு கருவி.
import operator
import re
import tamil
def அச்சிடு(_): print(_)
def கணி(_): return eval(_)
செயல்சார்புகள் = {"கூட்டல்"😦'+',operator.add),"கழித்தல்"😦'-',operator.sub),
"பெருக்கல்"😦'*',operator.mul), "வகுத்தல்"😦'/',operator.truediv)}
அதிக_பட்சம் = 1001
இலகுவான_எண்கள் = {}
for எண் in range(அதிக_பட்சம்):
இலகுவான_எண்கள்[ tamil.numeral.num2tamilstr(எண்) ] = எண்
வழுநீகால்_இயக்கம் = True
def கணக்கிடு( _தொடர் ):
தமிழ்_உரை_தொடர் = re.sub('\s+',' ',_தொடர்)
# செயல்சார்புகளை குறியீடுகளாக மாற்றவும்
for பெயர்,எண் in செயல்சார்புகள்.items():
தமிழ்_உரை_தொடர் = தமிழ்_உரை_தொடர்.replace(பெயர்,எண்[0])
for பெயர்,எண் in இலகுவான_எண்கள்.items():
தமிழ்_உரை_தொடர் = தமிழ்_உரை_தொடர்.replace(பெயர்,'%g'%எண்)
if வழுநீகால்_இயக்கம்:
அச்சிடு(தமிழ்_உரை_தொடர்)
விடை = கணி(தமிழ்_உரை_தொடர்)
அச்சிடு(tamil.numeral.num2tamilstr( விடை ) )
return விடை
if __name__ == "__main__":
assert 2 == கணக்கிடு("ஒன்று கூட்டல் ஒன்று")
assert 21 == கணக்கிடு("ஒன்று கூட்டல் இரண்டு பெருக்கல் பத்து")
assert 950 == கணக்கிடு("ஓர் ஆயிரம் கழித்தல் ஐந்து பெருக்கல் (ஒன்பது கூட்டல் ஒன்று)")
© 2020 GitHub, Inc.
Terms
Privacy
Security
Status
Help
view raw olini.py hosted with ❤ by GitHub

5. முடிவு

சமிபத்தில், ஊரடங்கின் உச்சியான சமயத்தில் உடற்பயிற்சி செய்து கொண்டிருக்கும் சமயம் ஒரு சிந்த்தனை – அதனை நினைத்துப் பார்க்கவே வியப்பாய் இருந்த்தது -“{உங்கள் நாட்டின்/மாநில} அரசு தமிழ் மொழியின் வளர்ச்சியை ஆதரிக்கிறதா?” என்ற கேள்வி. நான் பருகியிருந்த காப்பியை முழுங்கமுடியவில்லை – விடை என்னிடம் இல்லை. மொழி என்பது நாம் பயன்பாட்டில் – அரசு உத்தரவில் கிடையாது. சிந்தைவெளியில் வளர்ச்சியை மந்தைவெளியின் ஊக்கத்தில் பார்ப்பது தவறு என்றும், அரசின் பொருப்பு பதவியை தக்கவைத்துக்கொள்வது என்பதும்தான் தினசர் நிஜமாக உலகெங்கும் உள்ளது. தனி நபர் முயற்சியால் சில செயல்பாடுகளை எதிர்கொள்ளலாம் ஆனால் தமிழ் என்றும் சீன மொழிமாதிரி ஆகும் என்றேல்லாம் பகல்கணவுகள் காண எனக்கு உடன்படாது.