மென்பொருள் வெளியீட்டில் உள்ள சிக்கல்கள்

சமிபத்தில் ஓப்பன் தமிழ் வரிசை எண் 0.95-ஐ பதிவாக்கி வெளியிட்டோம். ஆனால் ஒரு பெரிய சிக்கல் – இது பொது பயன்பாட்டில் வேலை செய்யவில்லை.

ஏன் என்று பார்த்தால் :

1. PyPi – தளம் மேம்பாட்டின்/மாற்றத்தின் காரணமாக reST என்ற படிவத்தில் மற்றுமே நிரல் தொகுப்புகளின் குறிப்புகளை ஏற்றுக்கொண்டவகை ஆனது. நாங்கள் எப்போதுமே MD படிவத்தில் மட்டும் தான் இந்த குறிப்புகளை எழுதுவது வழக்கமானது. ஆனால் reST குறிப்புகளுக்கு கட்டாயப்படுத்தபட்டோம்.

2. PyPi தளத்தில் நிரல்களை வினியோகல் செய்ய setup.py என்ற நிரல் வழி செயல்படுகின்றது. இந்த நிரல் சரிவர இருந்தாலொளிய பயனரிகளின் நிறுவுதல் கட்டளைகள் வேலைசெய்யாது. ஆகவே, ஓப்பன் தமிழ் நிரல் தொகுப்பு.

 

இதன் காரணத்தை இங்கு பார்க்கலாம்:

bug-pypi

அடுத்த கட்டமாக இதனை நிவரத்தி செய்ய, MANIFEST.in கோப்பில் சரியான தகவல்களை மேம்படுத்தியபின் முதலில் எனது கணினியில் பரிசோதித்தபின், 0.96 வரிசை எண்னை PyPi-இல் பதிவு செய்தேன்.

$ python3 setup.py sdist build

$ python3 -m twine upload dist/*

இதனை, நண்பர்கள் சரிவர உள்ளதாவென்று சரிபார்த்தபின் வழு நீக்கமானதை உணர முடிந்தது.

ஆகவே காரணங்கள் என்னவென்றும், சிக்கல்களை உணர்ந்தபின்னும் பல வழிகளில் இவற்றை மறுமுறை தவிர்க்க வழிகளை கண்டிட நேர்கின்றேன்.

1. அடிக்கடி நிரல்களை வெளியிடுவது. (ஏப்ரல் 2019-இல் உள்ள வெளியீட்டிற்கும், இந்த நவம்பர் மாத வெளியீட்டிற்கும் நடுவில் PyPi தளம் மாற்றம் பெற்றது – இதனை சரிவர கண்டிடலாம்)

2. வெளியீட்டின் பொழுது உடணடியாக பரிசோதிப்பது

3. மற்ற பங்களிப்பாளர்களை உடனடியாக பரிசோதிக்க வேண்டிவது.

நன்றி.

 

 

 

🦊 விலங்குகள் – குறுக்கெழுத்து

விலங்குகள் – குறுக்கெழுத்து – இந்த கீழ் உள்ள சட்டத்தில் என்ன என்ன விலங்குகளின் பெயர்கள் உள்ளன என்று உங்களால் கண்டறிய முடியுமா ? உபயம் : தமிழ்பேசு  வலை.

இதனை இலவசமாக நீங்க அச்சிட்டும், மற்ற ஊடகங்களிலும் பயன்படுத்தலாம்.

🦃 🐔 🐓 🐣 🐤 🐥 🐦 🐧 🕊️ 🦅 🦆 🦉🐵 🐒 🦍 🐶 🐕 🐩 🐺 🦊 🐱 🐈 🦁 🐯 🐅 🐆 🐴 🐎 🦄 🦌 🐮 🐂 🐃 🐄 🐷 🐖 🐗 🐽 🐏 🐑 🐐 🐪 🐫 🐘 🦏 🐭 🐁 🐀 🐹 🐰 🐇 🐿️ 🦇 🐻 🐨 🐼 🐾 🦓 🦒 🦔

கழுகுகள் – eagles
யானை – elephant
யானைகள் – elephants
ஒட்டகச்சிவிங்கி – giraffe
ஒட்டகச்சிவிங்கிகள் – giraffes
ஆடு – goat
ஆடுகள் – goats
குதிரை – horse
குதிரரைகள் – horses
சிங்கம் – lion
சிங்கங்கள் – lions
குரங்கு – monkey
குரங்குகள் – monkeys
சுண்டெலி – mouse
சுண்டெலிகள் – mice
முயல் – rabbit
முயல்கள் – rabbits
பாம்பு – snake
பாம்புகள் – snakes
புலி – tiger
புலிகள் – tigers
ஓநாய் – wolf
ஓநாய்கள் – wolves

விலங்குகள்-tamil-crossword

விடைகளுக்கு மின் அஞ்சல் அனுப்பலாம் – ஆனால் தேவைப்படாது என்றும் தோன்றுகிறது.

-முத்து

 

Google CoLab – இணையம் வழி நிரல்களை பழகுதல்

என்ன :

கூகிள் நிறுவனம் CoLab – Code-Laboratory என்ற ஒரு சோவையை பெரும்பாலும் பைத்தான் வழி செயற்கையறிவு நிரல்களை (TensorFlow கொண்டு)  உருவாக்க பொதுமக்களுக்கு வழ்ங்கியுள்ளது. ஆனால் இதனை தமிழ் கணிமைக்கு பயன்படுத்தலாமா ? ஆம்.

தமிழ்-கூகிள்-கோலாப்-நிர்ல்-பயிற்சி

எப்படி:

ஒரு உதாரணமாக இந்த ‘பயில் தமிழ்’ interactive python (ipynb) நோட் புத்தகத்தில் (சுட்டி இங்கு) தொடங்கினால் எப்படி ஓப்பன் தமிழ் நிரல் தொகுப்பை பரிசோதிக்கலாம் என்று காணமுடியும்.

முதலில் ஒப்பன் தமிழ் நிரல் தொகுப்பை நிறுவ வேண்டும் – இதற்கு ‘!pip3 install open-tamil’ என்ற கட்டளையை கொடுக்கவும். அடுத்து ‘play’ பட்டன் அழுத்தியோ அல்லது ‘Ctrl + Enter’ விசைகளை அழுத்திபயோ இவற்றை இயக்கலாம்.

மேல் உள்ள உதாரண நிரல் துண்டின் வரிகள் 1 முதல் வரி 6 வரை இருக்கின்றன. இதன் பயன்பாட்டினைக் கொண்டு இலவசமாக எந்த வித சிரிய நிரல்களையும்  நீங்கள் இயக்கிட முடியும். ஓப்பன் தமிழ் போன்ற நிரல் தொகுப்புக்களை நீங்கள் எங்களது ஆவணக்கூருகள், மற்றும் உதாரணங்கள் மூலம் இந்த மேகக்கணிமை சேவையால் பரிசோதிக்கலாம்.

நன்றி

 

 

 

தமிழ் கணிமைக்கு செயற்கையறிவு சேவைகள்

இந்திய அழகியல் - விருந்தினர்கு வர்வேர்ப்ரை விளக்கு
இந்திய அழகியல் – விருந்தினர்கு வரவேர்ப்பறை விளக்கு. புதிய தொடக்கம்.

ஊருக்கு உபதேசம் இல்லாமல், தங்களது சேவைகளின் பயன்களை தாமே முதலில் பயன்படுத்துவதை ‘Eating your Dog Food‘ என்று கணினியாளர்கள் மத்தியில் பேசப்படுவதாவது.

இதன்படி தமிழ்கணிமைக்கு உதவும் வகையில் நேரடியாக தானியங்கி, செயற்கையறிவு சேவைகளை முதலில் தனது பயன்பாட்டிற்கு தமிழ் கணினியாளர்கள் கையாளவேண்டும்.

எனது பார்வையில் முதல்படி தேவைப்படும் சேவைகளானது:

  1. தானியங்கி வழி, கணினி உதவி ஆவனங்கள், பயிற்சி நூல்களை (training, tutorial manuals) மொழிபெயர்ப்பது
    • இந்த நூல்கள் அனைத்தும் சில கலைச்சொற்கள் தவிர மற்ற்வை அனைத்தும் ஒரே கோனத்தில் இருப்பவையாகின்றன. தானியங்கி மொழிபொயர்ப்பு செயலிகள் சரியனவையாக அமையும்.
    • இதன் முக்கியத்துவத்தை அதிகப்படுத்தி சொல்லமுடியாது. ஒவ்வொரு கலைசொல் அடங்கிய புத்தகமும் வெளிக்கொண்டுவர பல மாதங்களில் இருந்து சில ஆண்டுகள் ஆகின்றன – இந்த கால தாமத்தை குறைக்க வேண்டும்.
    • முக்கியமாக எனது பார்வையில் இந்த நூல்கள் விரைவில் தமிழாக்கம் ஆகவேண்டும்
      • Python மொழி உதவி ஆவணங்கள்
      • TensorFlow செயற்கையறிவு மென்பொருள் கட்டமைப்பு உதவி ஆவணங்கள்
  2. வீடியோ வழி, ஒலி வழி – உரை, கட்டுரை, நூல்கள் உருவாக்க செயற்கையறிவு செயலிகள்
    • தமிழில் கணினி சார்ந்த தகவல்களை தமிழ் கணினியாளர்கள் நேர்வழி பங்களிப்பதும் பயன்படுத்துவதற்கும் ASR, OCR, Video close-captioning, போன்ற செயல்பாடுகள் பலரையும் தமிழ்கணிமைக்குள் வரவேர்க்க உதவும்.
    • புதிய கருத்துக்களையும், புதிய தகவல்களையும் தமிழிலேயே உருவாக்க இது உதவும்
  3. செயற்க்கையறிவு அணிமாதிரிகளை பொதுவாக “Model Zoo” என்று அருங்காட்சியகமாக பயன்படுத்துவது.
    • தமிழுக்காக பலரும் தங்களது செயற்கையறிவு கருவிகளை உருவாக்குகின்றனர். இவற்றில் பயிற்சி செய்வது ஆகக்கடினமானது, அதிக நேரம் கணிமை செலவெடுக்கும் வழியில் ஆனது. எனவே இவற்றை முடிந்த அளவில் பொதுவெளி (public domain) உரிமத்தில் வெளியிடல் சிறப்பானது
    • இதன் முதல் முயற்சி GitHub-இல் அருங்காட்சியகம்
  4. தமிழ் அகழாய்வு பற்றிய உதவி செயலிக்கள் (சற்று திசைமாரி மேல் சொன்னமாதிரி இந்த பயன்பாடு கணிமைக்கு நேர்வழி உதவாதது என்க்கு புலப்படுகின்றது)
    • ஒரு பானை ஓட்டில் எழுதப்பட்ட சொல் தமிழ், தமிழி (பிரமி), அல்லது எண்களா? அல்லது எழுத்துக்களா? என்பதனை கண்டறிய பொதுமக்கள் கைபேசியில் சொயலிகளின் வழி நிறுவி தொல்லியல் வல்லுநர்களுக்கு சிறந்த சரியான தகவல்கள் அளிக்கும் வகை இந்த செயலிகள் உதவும்.

மேலும் தமிழ் மொழி கல்வி, சிந்தனைக்களம், தகவல் பரிமாற்றம் போன்றவற்றைப்பற்றி நீங்களும் சிந்தியுங்கள் – கருத்துக்களை இந்த வலையில், அல்லது மின் அஞ்சலிலும் பதிவிடுங்கள்.

நன்றி.

 

முகம் சுளிக்கும் நிரலாளரின் மூளைக்கு வேலை

படம்: முத்து கிட்டார் வாசிக்காமல் கருத்து சொல்கின்றான்.

உறங்குவதற்கும் முன் நிரல் எழுதினால் ஏன் தூக்கம் தூரம் செல்கின்றது ? நிரல் எழுதுவதும், வடிவமைப்பதும் இரு பரோட்டா கடையில், அல்லது ஓட்டலில் தோசை ஊற்றுவது போலன்று – மூளையை குழப்பி எடுக்கும், பின்னிப் பிணைந்து, எடுத்த பாதைகளும், எடுக்காத திசைகளையும் அவற்றின் தாக்கங்களையும் மனதில் மூளையில் படிப்படியாகக் கொண்டு நாம் அதனை செயல்படுத்தி நிரல் வடிவமைக்கின்ற்றோம். அரைத்த மாவை அரைக்க இங்கு வேலை இல்லை. ஒவ்வொரு வழு, பிழையும் ஒரு தனி கிரத்தில் இருந்து வந்தது போலவும் தோன்றும்.

விஸ்வணாதன் ஆனந்த் சதுரங்க ஆட்டத்தில் எப்படி மூளையை கசக்க்கி சிக்கலான ஆட்டத்தில் எதிராளியின் தாக்குதலில்இருந்து விடுவிக்க முயலும் சமயம் அவர்மூளையின் வேலை அளவில் உள்ள வேகம் சராசரி கணினி நிரலாளர்களின் வேகமாக அமையும். இப்படி சும்மா பேச்சுக்கு சொல்லவில்லை – கணினி நிரலாக்கத்தில் எதிராளி என்பது என்ன ?

Entropy என்று சொல்லக்க்கூடிய சரியான விடையின் பாதையில் உள்ள தவரான விடைகள் – இவற்றை சலிப்பில்லாமல் கடந்து வந்தால் சரியான விடை கிடைக்காது – அது, அந்த ஒவ்வொரு கட்டத்திலும் நாம் எடுக்கும் தீர்வுகள்/முடிவுகள் கணிமையின் திசையை சரியான (எளிதில் – path of least resistance – வழி கிடைக்காத வகையிலான) திசையில் எடுத்துச்சென்று விடையடையச் செய்கின்றது.

இதுதான் கணினி நிரலாளரின் குருகிய முகம் சுளிக்கும் பாவத்தில் உள்ள மன நிலை. அவர்/அவளு-க்கு ஒரு ஊக்குவிக்கும் சொல் கொடுங்கள் – இல்லை இல்லை சும்மா கூட விட்டுவிடுங்கள் – ஆனால் “ஐ.டியில் என்ன கிழிக்குர…” என்ற ஏழனப்பேச்சு வேண்டாம்.

ரூபி நண்பன் – RubyKin தமிழாக்கம் – வெளியீடு

ரூபி நண்பன் தமிழாக்கம் முழுமை அடைந்தது. இந்த புத்தகத்தை கொண்டு நீங்கள் ரூபி மொழியை பயிலலாம்.

நன்றி.

மொழிபெயர்ப்பு குழு.

வெளியுறவுத்துரை அமைச்சர் – Linguistic Diversity

நிங்க. ஆமா. நீங்களேதான். தமிழ் மொழி, கலை, பாரம்பரியம், கலாச்சாரம், பண்பாடு, இயல்-இசை-நாடகம், வெற்றி-தோல்விகள், சமூக சிக்கல்கள், வறலாறு, அதன்வழி வந்த கோளருகள் … எல்லாத்தையும் மற்ற மொழியினருக்கு, மற்ற நாட்டவர்களுக்கு சொல்ல வெளியுறவுத்துரை அமைச்சர் நீங்கதான். சமயத்தில் அடுத்த தலைமுரையினருக்கும் சொல்ல வேண்டிய பொருப்பும் இருக்கிரது.

Spiderman : சிலந்திகளின் பலம் கொண்டபோதிலும், அவன் அதிக பொருப்பின் சுமையால் பாதிக்கப்படுகிரான். படம் உரிமம்: விக்கிப்பீடியா.

சென்ற வாரம் எனது அலுவலகத்தில் எனது Microsoft Office செயலி Word வழி எதைப்பற்றியோ WebEx வழி தொலைபேசி-நேரலைபகிர்தல் வழியில் மற்றோரு மாகானத்தில் உள்ள ஊழியரிடத்தில் வேலை தொழில்னுட்பம் பற்றி பேசிக்கொண்டிருந்தேன். [ஏற்கண்வே, நான் ஒரு ஆண்டுக்கு முன்பு (இதை பார்க்கவும்) இதனைப்போல் 40-மணிக்கும் மேலாக செயல்படும் வேலைமடிக்கணினியில் தமிழ் இடைமுகங்களை (localization) செயல்படுமாரு செய்தேன்.]

எனது திரையில் தமிழ் வட்டெழுத்துக்களைக்க கண்ட இவர் உடனே: இது என்ன முத்து, “Is it sanskrit?” அப்படின்னு கேட்டார். இல்லை இப்படி ‘தமிழ்’ என்றும், இந்தமாதிரி என்றும் சொன்னேன்.

‘அப்படியா! இதை சிலோனில் அல்லவா பேசுவார்கள்?’ என்றும் வினவினார். இல்லை சாமி, சிங்கை, சிலோன் மற்றும் முதன்மையாக தென்னிந்தியாவிலும் 3500 இந்திய மொழிகளில் முதன்மையான் 20-25 மொழிகளில் தமிழும் ஒன்று என்று சொன்னேன். அடுத்து நேபாள் நாட்டை சேர்ந்த நண்பர் ஒருவரின் பணித்திட்டம் பற்றியும் பேசிக்கொண்டிருக்கும் நேரத்தில், இவர் “So is Nepalese same as Tamil?,” அப்படின்னு கேட்டார். நமக்குத்தான் லெக்சரடிக்க பிடிக்குமே – இன்னார் இன்னபடி என்றும் திராவிட மொழி, ஆரிய/வட மொழி என்றும், தேவனாகிரி மொழிகள் என்றும் உள்ளதைப்பற்றி சொன்னேன் – அவருக்கு ஒரே வியப்பு.

என்னவோ – இங்கு நான் வாழும்ஊரில் இந்தியர்களிடத்தில் ஆங்கில மொழிப்பற்று மட்டுமே உள்ளது. சிலிக்கன் சமவெளியில் [Silicon Valley] இந்தியர்கள் பத்தில் ஒருவரிம் கூட மற்றொரு மொழி – தமிழ்/இந்தி/தெலுங்கு/மலையாளம் விசைப்பலகைகளை பயன்படுத்துவதில்லை. செருமன், பிரெஞ்சு இருக்கலாமோ என்னவே கேட்டுப்பார்க்கிரேன்.

இந்திய மொழிகளை வேற்றுமைகளும்-வளமைகளும் [Linguistic Diveristy] ஒரு விளிம்பு நிலையில் தள்ளப்படுமா என்றும் ஒரு சிரிய அச்சம் என்னிடம் இருக்கிறது. இந்தியாவில் பிறந்து வளர்ந்ததினால் மட்டுமே பல மொழிகளின் தாக்கத்தில் வளந்ததில் பெருமை கொள்ளும் சமயம் [சட்டென்று யொசித்தால் – திராவிடம் என்பது கூட ஒரு வடமொழி சொல் என்றும் படும்] கணினியின் யுகத்தில் நமது மொழிகளின் அனுகுதல், வாசிப்பு, ஆக்கம், மற்றும் வளர்ச்சி என்பதை நாம் மறுபரிசீலனை செய்யவேண்டும் என்றும் கருதுகிறேன்.

400-ஆண்டு பிரிட்டீஷ் காலனித்துவத்தினால் கூட அழிவடையும் அளவு மாற்றம் அடையாத மொழி வேற்றுமைகளும்-வளமைகளும் கணினிக்குள் மொழியை உள்ளீடும் செய்யமுடியாமல் தவிக்கும் பலராலும், கணினியில் ஆங்கிலத்தின் சுலபமான செயல்பாட்டாலும் மொழி வளமை காலனித்துவத்தை விட அதிகமாக சிதைவடைகிறது என்பதை நான் காண்கிறேன்.

மொழியில் சிந்தனைகள், கேள்வி-பதில்கள், கூச்சல் குழப்பங்கள் இல்லாவிட்டால் அது இறக்கும் – பிரபல அறிஞரும் சம்ஸ்கிருத மேதையான ஸ்டிபேன் போல்லோக் எழுதிய சர்ச்சைக்குள்ளாகிய ‘Death of Sanskrit’ என்பதில் இருந்து கற்றுக்கொள்ள வேண்டியது என்ன என்றால் இதுதான் – மொழியில் புழக்கம் வேண்டும். அதுஇல்லாவிட்டால், நமது இந்தியமொழிகளும் அருங்காட்சியகத்தில் தான் சென்று காண்போமா என்ன ? இல்லை, நமது காலத்தில் இப்படியெல்லாம் நடக்காது. இல்லையா ? இல்லைதானே…

சொல்திருத்தி – தெறிந்தவை 5

கட்டுரைத் தொடரில் இந்த பதிவில் மேலோட்டமான சொல்திருத்தியின் பிழைதிருத்தம் அல்கோரிதம் எப்படி கட்டமைக்கப்பட்டிருக்கு என்றும் பார்க்கலாம்.

படம்1: மெக்சிகோவில் புனித குவடலூப்பே கன்னியின் படம் மிக பிரசித்தி பெற்றதாக அவர்கள் நம்புகின்றனர். எனக்கு பூண்டி மாதா, வேளங்கன்னி மாதா நினைவு. இடம்: பெர்க்கிலி, கலிபொனியா #மக்சிக்கோ #சுவர்ஓவியம் #ourladyofguadalupe

1 பிழைதிருத்தி அல்கோரிதம்

உள்ளீடு : உரையின் சொற்கள் ஒவ்வொன்றாக. இடம்-பொருள் விளங்குவதற்கு [context] நாம் சொல் இடம் பெரும் வரியை சூழலுக்கு உள்ளீடாக கொடுக்கலாம்.

வெளியீடு: தவரான சொற்களின் பட்டியல், மற்றும் இவ்வாறு பிழையான் சொற்களின் வாயில் என்ன வேற்று சொல்லை மற்றாக இணைக்கலாம் என்ற பட்டியல்.

இப்படிப்பட்ட ஒரு அல்கோரிதத்தை செயல்ப்படுத்த நமக்கு ஒரு சொல்பட்டியல் தேவை; இதை நாம் அகராதி என்று வழக்கு மாரி சொல்வோம். அதாவது நமக்கு சொல் மற்றும் அதன் சரியான எழுத்து வடிவம் மற்றுமே தேவை – சொல்லின் பொருள் முதலில் தேவை இல்லை. ஆகையால் இந்த சொல் பட்டியல் மட்டுமே அகராதி என்று நம்மால் கருதப்படும்.

முதல் படியாக உரையில் உள்ள சொற்கள் நேரடியே பட்டியலில் காணப்பட்டால் இதனை நாம் சரியான சொல் என்றும் அவற்றை நீக்கி விடலாம். எ.கா. “அவன் வாத்து முட்டை விருப்பம் கொண்டவளை மட்டுமே சமைக்க தேர்ந்தெடுப்பதாக சீனாவில் அறிவித்திருந்தான்” என்ற 10 சொல் வாக்கியத்தில் ‘அவன்’, ‘வத்து’, ‘முட்டை’, ‘விருப்பம்’, என்ற சொற்கள் சரியாக சொல் பட்டியலில் இருக்கும். தற்போது – 6 சொற்கள் மீதம் உள்ளன.

அடுத்தபடியாக பெயர்சொற்கள் அவற்றின் பட்டியல் கொண்டால் இதனையும் நாம் நீக்கிவிடலாம். மேல் உள்ள செயற்கையான உதாரனத்தில் ‘சீனா’ என்ற பெயர் சொல் நேரடியாக இந்த பட்டியலில் காணப்படும். தற்போது – 5 சொற்கள் மீதம் உள்ளன.

அடுத்தபடியாக வினைச்சொற்கள், மற்றும் இலக்கண வகைபடுத்தப்பட்ட இடைச்சொற்கள், ஆகுபெயர்கள், ஆகியவற்றை சரியாக பகுத்தாய்ந்து விதிகளுடன் உணர்ந்தால் சில அடிச்சொற்கள் கொண்ட பட்டியலின் வழியே மட்டும் அவற்றின் ஆக்கல் தன்மையின் வாயிலாக பல சொற்களை நாம் பகுத்தரியும் வகையில் அனுகலாம். தமிழில், இலத்தின் போல, வினைஎச்சங்கள், வினைச்சொற்கள் அவை வாக்கியத்தில் இடம் பெரும் இடங்கள் கண்டு மருவி வருகிண்ரன. எ.கா. ‘அவன் ஒரு சட்டை வாங்க சென்றான்’, ‘அவள் ஒரு சட்டை வாங்க சொல்வாள்’ என்ற இரு வாக்கியங்களில் ‘செல்’ என்ற சொல் மருவி ஆணுக்கு ‘சென்றான்’ என்றும் பெண்ணுக்கு ‘செல்வாள்’ என்றும் வருகிரது. இது சற்று சிக்கலான ஒரு அல்கொரிதத்தின் கீற்றாகவே அமைகிரது; இதனை அதிகம் மொழியியலாகவும் சற்று கம்மியாக கணினியியலாகவும் கருதலாம்.

 தமிழில் உள்ள இலக்கண விதிகளை பேரா. ராஜம் அவர்கள் letsgrammar.org  என்ற தளத்தில் வினைச்சொற்கள் எப்படி மருவும் என்ற விதிகளை மென்பொருளில் நிருவி அழகாக விளக்கியுள்ளார். இவற்றை ஆங்கிலத்தில் ‘word declension rules’ என்று சொல்வார்கள்.

எண்கள், வடமொழி சொற்கள், நிருத்த சொற்கள், பன்மை சொற்கள், ஆங்கில சொற்கள் ஆகியவற்றையும்  நாம் கண்டறிந்து உரையினை இவற்றிலிருந்து நீக்கம் அல்லது பிழை திருத்தம் செய்யலாம். தட்டுப்பிழைகள், ஒருங்குரி பிழைகள் போன்றவற்றையும் இந்நிலையில்  நாம் நீக்கிவிடலாம்.

2 பிழை வகைகள்

மேல் சொன்னபடி சொல்திருத்திகள் அவைகளின் நான்கு படினிலைகளில் ஏதேனும் ஒரு சொல்லை [உரையில் உள்ள] அந்தந்த வகுப்பில் உள்ளதாகவும் கண்டு, அதே சொல் தவராக உருவெடுத்திருந்தால் அது தவரான சொல் என்றும், அதனை நாம் சரிசெய்து – மாற்றங்களை பரிந்துரைக்கலாம். இதையே ‘wrong word error’ என்று சொல்லாம்.

கடைசியில், இவ்வாரு நான்கு படிகளில் நீக்கம் செய்யப்படாத சொற்களை நாம் அகராதியில் இல்லாத சொற்கள் என்று மட்டுமே கருதலாம். அதாவது இவற்றை ‘non-word error’ என்று கண்டறிந்து சொல்லாம். இவற்றில் நாம் மாற்று சொற்களை தரமுடியாது.

concordance தரவுகள் இருப்பின் ‘அன்பே சிவம் என்பர் சைவ சித்தாந்திகள்‘, மற்றும் ‘அன்பே சவம் என்பர் சைவ சித்தாந்திகள்‘ என்ற இரு வாக்கியங்களுக்கும் மாற்றுகள் மேல் கண்ட சொல்திருத்தியினை மேம்படுத்தி செயல்படுத்த செய்யலாம்.

3. வழங்கல்

இந்த  நிலைகள் முழுதும் ஒரு மேலோட்டமான ஒவ்வொரு சொல்திருத்தியின் கட்டமைப்பிலும் இருப்பதாக நாம் உணரலாம். 

சொல்திருத்தி என்பது உரையினை உள்வாங்கிக்கொண்டு சரியான சொற்களை முழுதும் கண்டுகொள்ளாது. தவரான சொற்களை மட்டுமே மையமாக கொண்டு இயங்குகிரது. என்னடா வாழ்க்கையிது, கால்ஃபு போல் சொல்திருத்திகள், எல்லாமே சரியான ஆட்டத்தினால் நிற்னயிக்கப்படுவதில்லை – பிழையான சொல், பிழையான ஆட்டம் அதே வெற்றியை நிற்னயிக்கிரது. இதன் பணி:

  1. தவரான சொற்களை சுட்டிக்காட்ட வேண்டும்
  2. தவரான சொற்களுக்கு மாற்றங்களை காட்ட வேண்டும்
  3. தவரான் சொல்லுக்கு பயனர் மாற்று தரவிருந்தால் அதனை சொல் பட்டியலில் சேர்த்துக்கொள்ள வேண்டும்; அதனை உரையிலும் மாற்றவேண்டும்.

கடைசியில் அனைத்து உள்ளீடுகளையும் ஒருங்கிணைத்து சரியான உரையை சொல்திருத்தி வழங்கும். 

சொல்திருத்தி – தெறிந்தவை 2

சென்ற பதிவில் ஒரு தொடக்கத்தை ஆரம்பம் செய்தோம்; இந்த பதிவில் அதே வேகத்தில் தொடர்வோம். இடைவெளியில் மூன்று முக்கியமான அறிவியல் ஆராய்ச்சிசிகளை பற்றி உங்கள் கவணத்தை ஈர்த்து செல்ல விடுங்கள்.

குருட்டுப்புலி ருட்டுப்புலி, ஓக்லாண்டு, கலிபோர்னியா. 2019. படம்: முத்து அண்ணாமலை.
Blind Tiger, Oakland, CA.
குருட்டுப்புலி, ஓக்லாண்டு, கலிபோர்னியா. 2019. படம்: முத்து அண்ணாமலை

1 முதல் ஆய்வுகளின் முடிவு

சொல்திருத்திகளின் சவால்கள் – ஒரு கணக்கெடுப்பும், மேலோட்டமான விளக்கமும் என்ற தலைப்பில் கேரன் குகிச் என்ற ஆரய்ச்சியாளர் Techniques for automatically correcting words in text 1992-இல் ACM சஞ்சிகையில் அற்புதமாக விளக்கம் அளித்துள்ளார். இது ஒரு கணக்கெடுப்பு என்பதால் 63 பக்கங்கள் கொண்டதாக உள்ளது. கண்டிப்பாக சொல்திருத்தியில் ஆராய்ச்சி செய்ய முனைபவரும், செயல்படுத்துபவரும் இதை வாசித்தல் வேண்டும்.

2 சொந்தங்கள் அவை கண்ட அறிவு

அடுத்து எனது வாசிப்பில் நான் அலசி சல்லடைபோட்டு மீன்பிடித்ததில் இணைய வலையில் சிக்கிய மீன் – தங்கமீன் – இந்த துருக்கி அறிவியலாளர் குழு எழுதிய 1994-இல் வெளிவந்த இந்த கட்டுரை – ஒட்டு மொழிகளினுள் உண்டான அம்சங்களில் ஒரு சொல்திருத்தியை உருவாக்குவது எப்படி – Kemal Oflazer , Cemaleddin Güzey, Spelling correction in agglutinative languages,  PDF என்பதை மைய்யமாகக்கொண்டு கணிமை கோட்பாடுகளில் செயல்முறைகளை சாட்சியப்படுதினார்கள். ஃபின்னிஷ், துருக்கி போன்ற மொழிகள் தமிழைப்போல் ஒட்டு மொழி என்ற சொல்லடல் இலக்கண வகைப்படுத்தப்பட்டவை. ஃபின்னிஷ்-தமிழ் தொடர்பு மிக பெரியது – ஐராவதம் அவர்களைக் கேளுங்கள், இல்லை சிந்து சமவெளியில் போய் பாருங்கள் [விளையாட்டாதான்]!

3 கண் கெட்டபின் சூரிய நமஸ்காரம்

மூன்றாவதாக நான் சொல்வது பொதுவில் ‘எங்க அப்பன் குதிருக்குள்ள இல்லை’ என்ற பொது இரகசியமாக உள்ள தனபால் – கீதா அண்ணா பல்கலை அறிவியலாளர்களின் 2003-இல் வெளிவந்த கட்டுரை. இதில் பலவிதிகளை நாம் நேரடியாகவும், மேம்பாடு செய்தும் செயல்படுத்தலாம். “Tamil spell checker,”  என்று T. Dhanabalan, R Parthasarathi… – Sixth Tamil Internet 2003

4 அடுத்த படியாக

இவை எல்லாம் ஒரே நாளில் யாரும் படிக்க சுலபமாக முடியாது. இருந்தாலும் இப்படிப்பட்ட சிக்காலான் மொழியியல் காட்டிற்குள் அடங் கிய பூதம்தான் ஒரு சொல் திருத்தி. புகைப்போட்டோ பொரிவைத்தோ இந்த ஒரு சித்தாந்த சொல் அன்னத்தை வழிமரித்து பொது பயன்னுக்கு அளிப்பது, நமக்கும், வருங்கால தமிழ் எழுத்தாளர்களுக்கும், வாசகர்களுக்கும் உண்மையிலேயே ஒரு அளப்பரிய செயல். அடுத்த பதிவில் இந்த ஆராய்ச்சிகளில் உள்ள சில செயல்முரைகளின் உருவங்களையும், கீற்றுகளையும், நடைமுரை விளக்கங்களையும் பார்க்கலாம்.

Google-இல் பொறியாளர் வேலை

உலகில் தலைசிறந்த பொறியாளர் ஆண்-பெண்கள் Google-இல் வேலை செய்வதாக கேள்வி. ஆமாம் நனும், நீங்களும் தினமும் கோடு, ரோடு எல்லம் தான் காலா காலமாக போடுகிரோமே அப்படி கூகிளில் என்ன புளியகரச்சு ஊத்திராங்க ?

படம்: கணினி பொறியாளர் வேலைக்கு தயாராக்கும் நேர்க்காணல் புத்தகங்கள்!

சரி.

இதுதாங்க – நம்ம திக்கி தினரி, Stack-Overflowவில் பார்த்து விடை காணுவதில்லாமல் அல்கோரிதங்களில் புலியாகவும் இருப்பது இவர்களின் முதன்மை சிறப்பு!

நீங்கள் இந்தவகை பன்னாட்டு நிறுவனங்களில் அல்லது, உயர்நிலை கணினி தொழிலில் நிரலாளராக வேலை பார்க்க சில படிகள் உண்டு.

  1. ஒரு கணினி பொறியியல் பட்டம் பெற்றும், அதில் கணினி நிரல்கள் வடிவமைப்பதில் வித்தகராக தேற்சி பெருங்கள். இது இல்லட்டியும் பரவாயில்லை.
  2. சில பிரசித்தி பெற்ற வலைப்பூ இருக்கிரது – அவற்றையும் படியுங்கள்; 1 இணைப்பு, 2 இணைப்பு
  3. சில நேர்காணல் புத்தகங்களைப் படியுங்கள்; இவை
    1. ‘Cracking the coding interview,’ – Gayle Laakman இங்கு
    2. ‘Programming interviews exposed’ – John Morgan, et-al இங்கு
  4. சில நல்ல கணினி செயல்முறை புத்தகங்கள் பற்றியும் படியுங்கள்; இவை பற்றி முதல், இரண்டாம் கட்டுரைகள் எற்கணவே இங்கும் [முதல்], இங்கும் [இரண்டு].

இவைகளை நீங்கள் படித்தும், இவற்றில் உள்ள பயிற்சி பாடங்களை கணக்கிட்டும், தீர்வு கண்டும் ஆறு மாதம் அல்லது ஒரு வருடம் முயன்றால் நல்ல விளைவுகள் கிட்டும். கண்டிப்பாக நீங்கள் ஒரு வளர்ச்சி பெற்ற பொறியாளர் ஆவீர்கள்!