சொல்திருத்தி – தெறிந்தவை 3

இந்த தொடரில் இதுவரை ஆய்வுகளைப்பற்றி மட்டுமே இதுவரை பார்த்தோம். இப்போது சில செயல்முரை அல்கொரிதங்களை பார்க்கலாம்.

1 மேலோட்டமான சில குறிப்புகள்

சொல்திருத்தியில் பிழையான சொல் ஒன்றை முதலில் கண்டரிந்தபின், அதற்கு எப்படி ஒரு மாற்றை [என்ற ஒரு தோராயமான சொற்பிழை நீக்கப்பட்ட பொருத்தத்தை எப்படி] உருவாக்குவது ? இதற்கு தேவை திருத்தத் தொலைவு d.

இயற்ப்பியலில், புள்ளியியலில் இவ்வாரான் கேள்வியை ஒரு optimization வடிவத்தில் மாற்றி இதனை தீர்வுகாணலாம். இதனைப்போல் சொல்திருத்தியில்,

மாற்றுச் சொல் = arg-min [ d[ச,த] ]   

இதன் பொருள் என்ன என்றால் கொடுக்கப்பட்ட தவரான் சொல் த என்பதற்கு நமது செயலி அதன் அகராதியில் உள்ள ஒவ்வொரு சொல்லில்லும் அதன் தொலைவை கண்டறிந்து அவற்றில் எந்தெந்த சொற்கள் மிகக் குறைவான தொலைவில் உள்ளனவோ அவற்றையே சரியான சொல் என்ற பட்டியலில் பரிந்துரைக்கும். இதற்கு உதாரணமாக கட்டுரையின் மூன்றாவது பகுதியில் நிரல் துண்டு பார்க்கலாம்.

2 தொலைவு

தொலைவு – இரு சொற்களுக்கும் உள்ள நெறுக்கத்தை நாம் சொல்திருத்தியில் கணக்கிட வேண்டிய தேவை இருக்கிரது. ஏனெனில், ஒரு தவரான் சொல் உரையில் உள்ளீடு செய்யப்பட்டிருந்த்தால் அதற்கு மாற்றை தானியங்கி வழியில் கண்டறிய [அதவது இதன் மாற்றுச்ச்சொல்] இதற்கு பொருத்தமாகவும், நேருக்கமாகவும் இருக்கும் என்பது கணினியாளர்களும், மொழியியலாளர்களும் ஒப்புக்கொண்ட ஒரு கோட்பாடு. இதனை செயல்படுத்த கணினியாளர்கள் கொண்ட ஒரு மதிப்பீடு தொலைவு. இதனை திருத்தத் தொலைவு என்று சொல்வார்கள் [edit-distance].

ஒரு சொல்லினை அதன் உருப்பு எழுத்துக்களை இடம் மாற்றியோ, எழுத்துக்கள் கூட்டியே, அல்லது எழுத்துக்கள் நீக்கியோ மற்றொரு சொல்லாக மாற்ற எத்தனை படிகள் உள்ளன என்று கணக்கிட்டு சொல்வதானது இத்தகைய திருத்தத் தொலைவு சார்பு. இதனை கண்டுபிடித்த பலருள் திரு லெவின்ஷ்டீன் அவரது பெயரை இணைத்து லெவின்ஷ்டீன் திருத்தத் தொலைவு என்று கூறுகின்றார்கள் அறிவியலாளர்கள்.

இதன் பொருள் என்ன ? இதன் அமைப்பு எப்படிபட்டது ? கணிதவியலில், தினசரி வாழ்வில் எப்படி தொலைவு நிர்னயிக்கப்படுகிரது என்து போல், ஒரே இடத்தில் உள்ள பொருளுக்கும் அதே பொருளுக்கும் தொலைவு எதுவும் இல்லை – 0. அதே மாதிரி ஒரே சொல்லிர்கும் அதே சொல்லின் நகலுக்கும் தொலைவு 0. பிரகு, உங்கள் வீட்டிற்கும் உங்கள் பக்கத்துவீட்டிற்கும் தொலைவு என்ன ? தொலைவு 1 அல்லது கூடுதலாகவே இருக்கவேண்டும் இல்லையா ? பக்கத்து வீட்டார்க்கும் உங்கள் வீட்டிற்கும் உள்ள தொலைவு, உங்கள் வீட்டிற்கும் அவர்களது வீட்டிற்கும் உள்ள தொலைவும் ஒரேபடியானதாக இருக்கும். d[a,b] = d[b,a] என்பது ‘commutativity‘ என்ற சார்பின் குணத்தை இந்த திருத்த தொலைவு சார்பும் கொண்டது. [அதையும் – ‘போத்திக்குனு படுத்துக்கலாம், படுத்துக்குனு போத்திக்கலாம்‘ என்று பல முதிய தமிழ் மைக்கில் ஜாக்சன்கள் சொல்லியதை நினைவு கொள்ளலாம்]. அதுவே பொது அறிதல். இதைப்பொல குணங்களைக்கொண்ட சார்புகளை கணிதவியலில் ‘metric‘ என்றும் சொல்வார்கள் – அதாவது அளக்கும் சார்பு.

3 சிரிய எடுத்துக்காட்டு

ஒப்பன் தமிழ் நிரல் தொகுப்பில் ஒரு சில் உத்திகள் உள்ளது அவற்றில் திருத்தத் தொலைவு சார்பும் ஒன்று. இதனைக் கொண்டு ஒரு சிரிய உதாரனத்தை பார்க்கலாம்.

அகராதியில் உதாரனத்திற்கு 5 சொற்கள் இருக்கு என்று மட்டும் கொள்ளல்லாம்.

அகராதி A என்பதில் [‘அவிழ்’,’அவல்’,’அவள்’,’தவில்’,’தவள்’] என்ற் சொற்கள் இருக்கு என்றும் உள்ளிட்டு சொற்கள் ‘ஏவள்’, ‘இவல்’ என்று கொடுக்கபட்டது என்றும் கொள்வோம். இதற்கு என்ன மாற்றுக்கள் ?

பகுதி ஒன்றின் படி இந்த புள்ளியியல் குரைந்த பட்ச தெடலை பைத்தான் மொழியில் இப்படி எழுதலாம்:

இதனை இயக்கினால் நாம் பார்கக்கூடிய வெளியீடு இப்படி; அதாவது நமது சிரிய சொல்திருத்தி அல்கொரிதம் ‘ஏவள்’ என்பதை ‘அவள்’ என்றும், ‘இவல்’ என்பதை ‘அவல்’ என்றும் மாற்றாக பரிந்துரைக்கிரது. மேலும் கவனித்து பார்த்தால் ‘ஏவள்’ என்பது ‘தவள்’ என்பதற்கும் நெருக்கமான தொலைவில் உள்ளது ‘distance’ என்ற தொலைவு பட்டியலில் தெறியும்.

ஒப்பன் தமிழ் நிரல் மற்றும் இயக்கிய வெளிப்பாடு இங்கு.

மேலும் மற்ற அல்கோரிதங்களைப் பற்றி அடுத்த பதிவுகளில் மேலோட்டமாக பாற்கலாம்.

சொல்திருத்தி – தெறிந்தவை 2

சென்ற பதிவில் ஒரு தொடக்கத்தை ஆரம்பம் செய்தோம்; இந்த பதிவில் அதே வேகத்தில் தொடர்வோம். இடைவெளியில் மூன்று முக்கியமான அறிவியல் ஆராய்ச்சிசிகளை பற்றி உங்கள் கவணத்தை ஈர்த்து செல்ல விடுங்கள்.

குருட்டுப்புலி ருட்டுப்புலி, ஓக்லாண்டு, கலிபோர்னியா. 2019. படம்: முத்து அண்ணாமலை.
Blind Tiger, Oakland, CA.
குருட்டுப்புலி, ஓக்லாண்டு, கலிபோர்னியா. 2019. படம்: முத்து அண்ணாமலை

1 முதல் ஆய்வுகளின் முடிவு

சொல்திருத்திகளின் சவால்கள் – ஒரு கணக்கெடுப்பும், மேலோட்டமான விளக்கமும் என்ற தலைப்பில் கேரன் குகிச் என்ற ஆரய்ச்சியாளர் Techniques for automatically correcting words in text 1992-இல் ACM சஞ்சிகையில் அற்புதமாக விளக்கம் அளித்துள்ளார். இது ஒரு கணக்கெடுப்பு என்பதால் 63 பக்கங்கள் கொண்டதாக உள்ளது. கண்டிப்பாக சொல்திருத்தியில் ஆராய்ச்சி செய்ய முனைபவரும், செயல்படுத்துபவரும் இதை வாசித்தல் வேண்டும்.

2 சொந்தங்கள் அவை கண்ட அறிவு

அடுத்து எனது வாசிப்பில் நான் அலசி சல்லடைபோட்டு மீன்பிடித்ததில் இணைய வலையில் சிக்கிய மீன் – தங்கமீன் – இந்த துருக்கி அறிவியலாளர் குழு எழுதிய 1994-இல் வெளிவந்த இந்த கட்டுரை – ஒட்டு மொழிகளினுள் உண்டான அம்சங்களில் ஒரு சொல்திருத்தியை உருவாக்குவது எப்படி – Kemal Oflazer , Cemaleddin Güzey, Spelling correction in agglutinative languages,  PDF என்பதை மைய்யமாகக்கொண்டு கணிமை கோட்பாடுகளில் செயல்முறைகளை சாட்சியப்படுதினார்கள். ஃபின்னிஷ், துருக்கி போன்ற மொழிகள் தமிழைப்போல் ஒட்டு மொழி என்ற சொல்லடல் இலக்கண வகைப்படுத்தப்பட்டவை. ஃபின்னிஷ்-தமிழ் தொடர்பு மிக பெரியது – ஐராவதம் அவர்களைக் கேளுங்கள், இல்லை சிந்து சமவெளியில் போய் பாருங்கள் [விளையாட்டாதான்]!

3 கண் கெட்டபின் சூரிய நமஸ்காரம்

மூன்றாவதாக நான் சொல்வது பொதுவில் ‘எங்க அப்பன் குதிருக்குள்ள இல்லை’ என்ற பொது இரகசியமாக உள்ள தனபால் – கீதா அண்ணா பல்கலை அறிவியலாளர்களின் 2003-இல் வெளிவந்த கட்டுரை. இதில் பலவிதிகளை நாம் நேரடியாகவும், மேம்பாடு செய்தும் செயல்படுத்தலாம். “Tamil spell checker,”  என்று T. Dhanabalan, R Parthasarathi… – Sixth Tamil Internet 2003

4 அடுத்த படியாக

இவை எல்லாம் ஒரே நாளில் யாரும் படிக்க சுலபமாக முடியாது. இருந்தாலும் இப்படிப்பட்ட சிக்காலான் மொழியியல் காட்டிற்குள் அடங் கிய பூதம்தான் ஒரு சொல் திருத்தி. புகைப்போட்டோ பொரிவைத்தோ இந்த ஒரு சித்தாந்த சொல் அன்னத்தை வழிமரித்து பொது பயன்னுக்கு அளிப்பது, நமக்கும், வருங்கால தமிழ் எழுத்தாளர்களுக்கும், வாசகர்களுக்கும் உண்மையிலேயே ஒரு அளப்பரிய செயல். அடுத்த பதிவில் இந்த ஆராய்ச்சிகளில் உள்ள சில செயல்முரைகளின் உருவங்களையும், கீற்றுகளையும், நடைமுரை விளக்கங்களையும் பார்க்கலாம்.

சொல்திருத்தி – தெறிந்தவை 1

நோக்கம்

தமிழில் சொல்திருத்தி என்பது ஒரு இதநாள்வரை முழுமையாக, பல்வேரு மக்களும் ஒப்புதலுக்கினங்க, மன நிரைவுடன் பயன்படுத்தும் நிலையில் இல்லை. முயற்சிகள் எடுக்காத காரணித்தினால் அல்ல, காரணம் சவால் பெரிதாக உள்ளதனால் என்பது என் புரிதல். இந்த பதிவில் இந்த சொல்திருத்தி தேவைக்கு என்ன முயற்சிகள் எடுக்கப் பட்டுள்ளன என்றும், ஒரு கணிமயின் அடிப்படையில் இதில் உள்ள சவால்களை, சிக்கல்களை முன்னெடுத்து வரசெய்ய முயல்கிறேன். தமிழின் கூற்று ‘கற்றது கைமண் அளவு!’

சிக்கல் அளவு

தமிழ் மொழி ஒரு ஒட்டு மொழி – agglutinative language; மேலும் பேசப்படாத மொழிகளைப்போல் இல்லாமல் நல்ல இருவடிவம் [diglossic – பேச்சு-எழுத்து] என்றும் இது வடிவங்களைக் கொண்டதால் இந்த சொல்திருத்தியின் சாத்தியம் அதிகமான சிக்கல் அளவில் [computational complexity] உள்ளதை நாம் யுகிக்க முடிகிரது.

ஒரு ஒட்டுமொழியில், அதுவும் எதுகை-மோனை என்ற வடிவம்சார்ந்த விதிகளுடன், புணர்ச்சி விதிகளுடன், ஒரே வேர் சொல் பல வடிவங்களில் தொற்றம் பெற்று, ஜீவித்து, சிறு சிறு துளிகள் சேர்ந்து மொழியில் ஒரு படைப்பாளி அவள் செய்யும் தாக்கம் சுனாமியாக அசுர உருவம் எடுக்க தமிழ்வெளி இடமளிக்கிரது. இதன் மேல், இலக்கணம், கலை, அறிவியல், உளவியல், ஆன்மீகம், பண்பாடு, தொன்மை, வரலாறு, தொழில்நூட்பம் பொன்ற களங்கள் மொழியில் தழைக்கின்றன. வாழக்கையை செம்மைப்படுத்தி மொழியினால் ஒரு சிறப்பான் இடத்திற்கு நம்மை அழைத்துச் செல்கின்றன். இந்த மொழியில் சொல்வளம் [‘combinatorial explosion of morphologically rich language’ என்று சொல்லக்கூடிய] மொழியின் சொல்வடிவத்தின் வளமையை கட்டமைப்பாக கொண்டதனால் வந்த சொல் பெருக்கௌ என்று பொருள்கொள்ளலாம்.

சலிப்பாகும்படி சொன்னால், பலமே பலவீனமாகும் இடம் இந்த சொல்வடிவத்தின் வளமை என்றானது தமிழை செம்மைப்படுத்தப்போய் தமிழில் உள்ள பிழைகளை திருத்தம் செய்ய முயலும் அர்த்நாரீஸ்வரர்களின் வேலையை முழுதுமே முரியடிக்கும் நோக்கில் அமைந்தாயிற்று. காரணம் இத்தகைய சொல்வளத்தை முழுதும் கணினி நிரல்களில் ஏற்றாவிட்டாலும் இதில் 90% கீழ் இருந்தாலும் அந்த சொல்திருத்தி நிரல் சரிவர சொற்களை சரி-பிழை என்று பாகுகாடு அறியச்செய்யாது. இது ஒரு புரியாத புதிராக இன்றும் விளங்குகிரது. எனக்குத் தெறிந்தளவு தமிழில் பிழைதிருத்திகள் 50% சரியான விடைகளையே அளிக்கின்றது என்பது.

தெறிந்தவை – ஆய்வுகள் – புதுமை செய்தவர்

  1. முதன்மையான தமிழின் சொல்திருத்தியை ஆராச்சியே 2003-இல் இருந்தும் இன்றுவரை – சுமார் 17 ஆண்டு ரஜ்ஜியத்தில் உள்ளது: “Tamil spell checker,” என்று T. Dhanabalan, R Parthasarathi… – Sixth Tamil Internet 2003-இல் அண்ணா பல்களைக்கழகத்தில் இருந்து இவர்கள் உருவக்கினார்கள்.
  2. சில மயங்கொலி எழுத்துக்களை திருத்தம் செய்யும் வகை “A generic spell checker engine for south asian languages “, ABA Abdullah, A Rahman – … on Software Engineering and Applications (SEA …, – icita.org இவர்கள் 2003-இல் வெளிவந்தனர்.
  3. “சிங்கள மொழியில் சொல்திருத்தி – 2010-இல் A WasalaR Weerasinghe…இவர்கள் இங்கும் “A data-driven approach to checking and correcting spelling errors in sinhala” – Int. J. Adv. ICT …, 2010
  4. சிந்தி மொழியில் சொல்திருத்தி – 2015-இல் Z Bhatti, I Ali Ismaili, D Nawaz Hakro இவர்கள் இங்கும் “Phonetic-based sindhi spellchecker system using a hybrid model” பதிவு செய்தனர் [PDF] psu.edu
  5. சொல்திருத்திகளின் அமைப்பை பற்றி ஒரு வார்ப்பு/எல்லை கணக்கெடுப்பை 2012-இல் “Spell checking techniques in NLP: a survey ” என்று N Gupta, P Mathur – International Journal of Advanced …, 2012 இவர்கள் வளியிட்டனர்.

இவை அனைத்துமே ஒருவகையில் – புதியவைஅல்ல; மொழியியலில் – அதுவும் கணினிவழி மொழியியலில் – 1980-களில் இருந்தே ஆய்வுகள் வளிவந்திருக்கின்றன். இவற்றில் இன்றும் பயன்படுத்தும் edit-distance, suggestion generation போன்ற செயல்முறைகளை அவர்கள் கண்டறிந்து புதுமை செய்தனர். எ.கா. J. L. Peterson, Computer programs for detecting and correcting spelling errors.

நாங்களும் எங்களது சிரிய பங்களிப்பான ‘சொல்திருத்தி’ என்ற ஒபன் தமிழ் படைப்பை இங்கு பதிவு செய்தும் தமிழ் இணையமாநாடில் 2018-இல் பதிவு செய்தோம்.

இத்தகைய பதிப்புகள் என்ன சொல்கின்றன ? எப்படி எப்படி தானியங்கியாக ஒரு சராசரி கணினி ஒரு 12-ஆண்டு கடின பயிற்சி இல்லாமல் மொழியை திருத்தம் செய்கின்றது ? என்ன விளையாட்டா இருக்குதேன்னு நிங்கள் நினைக்கலாம் ஆனால் அனைத்தும் அல்கோரிதங்களின் மகிமை – ஒரு செயல்முறைகணிமையில் சாத்தியமானதுவே என்று அடுத்த தொடரில் பார்க்கலாம ?

விரிகூடா தமிழ் பொங்கல் விழா 2019 – மதிப்புரை

விரிகுடா பகுதி தமிழ்மண்றம் பொங்கல் விழா – Tamil Mandram Pongal Festival event this weekend. யார் வாரங்க தெரியுமா ? திரு. உதயசந்திரன் IAS அவர் சிரப்புரை ஆற்றினார். கலை நிகழ்ச்சிகள் மற்றும் திறந்த சந்தைகள் இருந்தன.

விழாவிற்கு BATM – விரிகூடா தமிழ் மன்றம் இந்த விளம்பரத்தை தயாரித்தது:

குறிப்பாக அவரது உரையில் :

  • தமிழ் இணைய கல்விகழகத்தில் ஆன் பணிகள்,
  • தமிழ் மொழி, தமிழ்நாடு – கலிபோனியா இரண்டிலும் உள்ள சரிசமமான அரசியல் முன்னோக்கிய பார்வைகள், போன்றவற்றையும் பற்றி போசினார்
  • அவரது தமிழ் பள்ளி புத்தகத்துரையின் பணிகள் பற்றியும் தமிழ் நாடு அரசு பள்ளி பாட நூல் கழகத்தில் புதிய புத்தகங்களை உருவாக்கும் பணி, அதன் வெற்றிகள், நீட் தேர்வு பற்றியும் பேசினார்
  • தற்சமயம் அவரது தொல்லியல் துரை பணிகள் பற்றியும், கீழடி பற்றியும் விரிவாக பேசினார்.
  • முடிவில் சில கேள்விகளூக்கும் நேரம் இருந்தது
  • அவரது முழு உரை இங்கு கேட்கலாம்.

Not Durian

It is easy to confuse Jackfruit and Durian. Jackfruit is one of the famous ‘muk kani’ [முக்கனி – மா, பலா, வாழை] trio of fruits from Tamilnadu – Mango, Jack and Banana. Durian is not quite native of Tamilnadu [AFAIK], but more popular in equatorial south east Asia. Not to be out done, Tamil people have gotten taste of this fruit as well; globally however Durian aficionados remain a minority – the fruit is more widely known for being banned from airlines, airports and public arenas for its somewhat off-putting smell to the people unfamiliar with its taste; those ignorant of such this finer thing have no proclivity to this fruit and continue to cast bad light on it.

One day last year during the Thanksgiving holiday here in California, I went out to a grocery store in Bay Area. Silicon Valley, Lyndon B. Johnson’s opening up gates of America to Asian immigrants, the Gold Rush, Spanish Missions in reverse chronological order has settled this area with several immigrant populations – and today we are thankful for bountiful Pan-Asian, European, Hispanic options in the area.

At this grocery store there was big sign : “NOT DURIAN”, and a 1lb pieces of fruit were marked $5. Fresh Jackfruit is pretty much unheard of in USA except when imported and sliced open by immigrant run grocery stores in diverse communities in the area. Definitely, Bay Area qualifies for such a place. While the sign was written with intent to invite Durian wary folk to try and taste the Jackfruit, it did leave a bad taste before trying out the fruit.

Jackfruit pieces – Not Durian! – https://en.wikipedia.org/wiki/Jackfruit

Maybe, just maybe our languages and heritage are having bad publicity and marketing and sometimes misrepresentation and misinformation to turn away new speakers, learners and teachers, adoption of language in newer markets and products. Maybe our languages are not Durian. We are the Jackfruit.

அடிக்கடி தமிழில் பலர் சொல்லி கேள்விப்பட்டிருக்கேன்: “தமிழ் பலாப்பழம் மாதிரி, வெளியிருந்து உள்ள வர முள்ளாத் தெரியும், ஆனால் சொழ சொழயா பழங்கள் இந்த முள்ளை தாண்டி வந்தால் காத்திருக்கு!”. முயற்சி திருவினையாகும்.

P.S.: Images credit Wikipedia.

பொற்பாலம்

பெசிபிக் பெருங்கடல் விரிகுடாவில் நுழைய,

அமெரிக்க கண்டத்தின் எல்லை, 

மேற்கே மரையும் ஞாயிறு,

சமுத்திரத்தின் உறவை அங்கீகர்க்கும் பாலம்,

யாதும் ஊரே, என்றது நீதானா?

செல்வா

வருங்காலத்தில் ஒரு தமிழ் செயற்கை நுண்ணறிவு உருவாக்கப்படும். உடனுக்குடன் ‘இன்ஸ்டண்டா’ ஆங்கிலத்தில் இனையான தமிழ் சொற்களை தேடி அல்லது உருவாக்கி சொல்லும். ஆமாம் எந்திரம் சொல்லாடலில் எப்படியும் உள்ளே வரப்போகிரது. நமக்கும் உதவட்டுமே!

தமிழ் மரபுகளுடன், மொழி பழக்கவழக்கங்களுடன் சரிவர, முடிந்த அளவு வட மொழி சொற்கள் சேற்காமல், மேலும் ஒரு படி அதிகமாக ஆங்கிலம் கலப்பின்றி [முற்றிலும் ஒழிக்கமுடியுமா? தெரியவில்லை; கணினிதானே, இலக்கைவைத்தால் முடியாதா என்ன ?]

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள்.

R2-D2 மற்றும் C-3PO Star Wars திரைபடத்தின் கதாப்பாதிர ரோபோக்கள். (c) Lucas Films, Inc. and Star Wars franchise

இத்தகைய செயற்கை நுண்ணறிவு உருவாக்கினால், அதற்கு செல்வா என்று செல்லமாக பெயரிடுவோம். அரிமா ரோபோ C-3PO, R2D2 மாதிரியான, புவியில் இல்லாத தமிழ் அறிவு கொண்ட ஒரு ஓரகில் [Oracle]-ஆக அமையுமோ என்னவோ. ஐயா கலாம் சொன்னது கனவுகள் நினைவாக விழித்திடு; தூக்கத்தை கலைத்திடு.