தமிழ் உரை சம்பந்தமான சில புதிர்கள் (2) – இரட்டைக்கிளவி, ஜதி

1 கேள்வி

ஏற்கணவே எழுதிய கட்டுரை கீற்றில் தமிழ் கட்டுரைகளில் எப்படி பால் ஓற்றுமை படுத்துவது என்ற கேள்வியைப்பற்றி கண்டோம். இன்று, தமிழில் எப்படி இரட்டைக்கிளவி சொற்கள், பரத நாட்டிய/கருநாடக இசையில் ஜதி சொற்கள், என்பதை கணினியால் சுயமாக அறியமுடியும் என்ற கேள்வியைப்பற்றி பார்க்கலாம். விடைகள் என்னிடம் இருந்தால் INFITTக்கு முதல் ஆளாக கட்டுரை எழுதிருபேன் இல்லையா ஹஹா ;).

முதன்மையில் இவ்வை சொற்கள், இரட்டைக்கிளவி மற்றும் ஜதி சொற்கள், ஒருவகையான இசைவுத்தன்மையை சொல்பவை. இதனை, மற்ற மொழிகளிலும் காணலாம் – முதன்மையாக ஆங்கிலத்தில் இதனை Onomatopoeia என்றும் சொல்கின்றனர்.

தமிழ் சினிமா இசை பாடல்களில், செய்யுள்களில், என பல இடங்களில் சீசீ இங்தப்பழம் புளிக்குது என்று சொல்லும் சுடசுட கிசுகிசு பத்திரிகைகளிலும் எல்லாஇடத்திலும் பரவலாக உள்ள தமிழ் சொல்லாடல் அம்சமாக விளங்குகின்றது இந்த இரட்டைக்கிளவி.

உதாரணம், இந்த 1998-இல் வெளிவந்த ஜீன்ஸ் படப் பாடலான “கண்ணோடு காண்பதெல்லாம்…” பாடலில் இரட்டைக்கிளவி, மற்றும் ஜதி சொற்கள் இடம் பெருகின்றன:

தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதக்ரதிம் தக்ரதக்ரதகஜம் (2)

சலசல சலசல இரட்டைக் கிளவி தகதக தகதக இரட்டைக் கிளவி
உண்டல்லோ தமிழில் உண்டல்லோ

தமிழில் சராசரி சொல்லாடல்களை சற்று விக்கிப்பீடியாவில் கண்டால் அவர்கள் பட்டியலில் வருவதாவது,

  1. கிடுகிடு பள்ளம் பார்த்தேன்
  2. கிளுகிளு படம் பார்த்தாராம்
  3. கிறுகிறு என்று தலை சுற்றியது
  4. கீசுகீசு என குருவிகள் கத்தின
  5. குசுகுசு என்று அதை சொன்னார்
  6. குடுகுடு கிழவர் வந்தார்
  7. குபுகுபு என குருதி கொட்டியது
  8. கும்கும் என்றும் குத்தினார்
  9. குளுகுளு உதகை சென்றேன்

சில கேள்விகள்

  1. இவற்றில் எப்படி இந்த சொற்களின் திரும்பத்திரும்ப வரும் தன்மையை ஒரு விதிகளால் அல்லது ஒரு சூத்திரத்தினால் குறிக்கமுடியும் ?
  2. இப்படி குறிக்கமுடியுமா, இல்லையா ?
  3. இவாறு எழுதப்பட்ட சூத்திரம் அல்லது நிரல் சார்புகளினால் இந்த பட்டியல்கள் தானியங்கியால் குறிக்கப்படும் இரட்டைக்கிளவி, குறிக்கப்படாத இரட்டைக்கிளவி என்று இருவகைபடுத்தப்படுமா ?

2 சில் விடைக்கான எண்ணங்கள்

2.1 Regular Expression

எனது அனுபவத்தில், இதன் தானியங்கி விதிகள் regular expression என்ற சார்ககத்தினால் எந்த ஒரு உரையிலும் கண்டெடுக்கலாம் என்றும் எண்ணுகின்றேன் – (தமிழில் regular expression-களை ஓப்பன் தமிழ் நிரல் திரட்டில் நீங்கள் பார்க்கலாம்) – எனினும் இது எளிதான செயல் அல்ல – அதுவும் கணினி நினைவகம்/இயக்கும் நேரம் big-O சிக்கல் அளவுகளில் சிக்கனமாகவும் துரிதமாகவும் இந்தவகைச்சேவைகளைச்செய்வது ஒரு கடினமான காரியம்.

pattern = u"^[க-ள].+[க்-ள்]$"

data = [u"இந்த",u"தமிழ்",
        u"ரெகேஸ்புல்",
        u"\"^[க-ள].+[க்-ள்]$\"",u"இத்தொடரில்", u"எதை", u"பொருந்தும்"]
output = match(data, pattern)
expected = [1,2,6] # i.e.தமிழ்

2.2 செயற்கையறிவு பின்னல்கள் / எந்திரவழி கற்றல்.

மற்ற ஒரு தீர்வு செயற்கையறிவு, ஆழக்கற்றலினால் வரும் என்றும் சொல்லலாம். இந்த கேள்வியை ஒரு classification பகுப்பாய்வு எந்திரவழிகற்றலாக கணினியிடம் நியமித்து, விக்கி மற்றும் பல இடங்களில் இருந்து தரவுகளை தயாரித்து இந்த செயற்கைப்பின்னலை பயிற்சிஅளித்தால் அது நேரம் போகையில் அது திறன்களைப்பொரும்.

மேலும் – ஒரு நல்ல sequence-to-sequence வழியாக கட்டமைக்கப்பட்ட செயற்கையறிவு மாதிரி பின்னல் நாம் சொல்லிக்கொடுத்ததைவிட அதிகமாகவே கற்றிருக்கும் தன்மையையும் நாம் பார்க்கக்கூடும் என்று யுகிக்கக் தோன்றுகிறது.

இது இன்றைக்கு உள்ள சிக்கல்.

 

குவாண்டம் கணிமை

குவாண்டம் நிலைகள் என்பவை நுன்உலக செயல்பாட்டின் குவாண்டம் விதிகளை கொண்டு அதன் முக்கிய அம்சமான entanglement (நிலை சிக்கல்பாடு) மற்றும் superposition (பல் நிலைப்பாடு) என்ற விதிகளினைகொண்டு புதுவிதமாக பல்னிலைகளை ஒரே நேரத்தில் அனுகும் வகை நிரல்கள்; இவற்றை எழுத முற்படும் தொழில்னுட்பம் குவாண்டம் கணிமை.

இதில் சிந்திக்கவும், இயற்பியல் அறிவினை கணிமையில் கலக்கவும் மாற்றுத்திசையில் சிந்தனைகள் ஊடுறுவவும் செய்வதினால் பல விடைகள் தீராத கணிமை சிக்கல்களுக்கு விடை கிடைக்கும் என்று அறிவியலாளர்களால் எதிர்பார்க்கப்படுகின்றது.

தற்சமயம் 20இல் இருந்து 30 குவாண்டம் பிட்கள் கூபிட் என்ற அளவிலான கணிதங்களை சராசரி கணினியில் பரிசோதனையாகவும் NMR, Ion Trap, SQUID வழிமுறை குவாண்டம் கணினியிலும் செயல்படுத்த முடிகின்றது. இந்த நிலை விரைவில் (சில ஆண்டுகளில்) மாறலாம்.

மேலும் படிக்க பல சுட்டிகள் – https://github.com/desireevl/awesome-quantum-computing

தமிழ் உரை சம்பந்தமான சில புதிர்கள்

தமிழ் செயற்கையறிவு மற்றும் எந்திர வழி உரை பகுப்பாய்வு போன்ற செயல்பாடுகளின் திறன் தினமும் வளர்ந்து கொண்டே போகின்ற சமயத்தில் (செயற்கையறிவு என்ற பேரலையின் முதுகில் பயணிக்கின்றது என்றபடியாக) இவற்றினால் கடக்கவேண்டிய சில புதிர்கள் என்ன (என்பார்வையில்) என்று இந்த பதிவில் அலசலாம்.

  1. இருபால் சமநிலைப்பாடுத்தல் (gender balanced text)
    • அரசாங்கம், வணிக கார்ப்ரேட் நிறுவனங்கள் தினசரி புழக்கத்தில் பல செய்திகள் விளம்பரப்படுத்தலுக்கும், உள்நிறுவன செயல்பாட்டிற்கும் பகிர்ந்துகொள்ள வேண்டியிருக்கும். இத்தகைய செய்திகளில் சில் கேள்விகள் எழுகின்றன:
      • இந்த செய்திகள் முழுவதும் இருபாலினருக்கும் சரிசமமாக பாரபட்சமின்றி எழுதப்பட்டுள்ளதா?
      • இப்படி இல்லாவிட்டால் செயற்கையாக உரைதிருத்தம் செய்து இருபால் சம நிலைப்படுத்தல் செய்யலாம ?
    • உதாரணம்: “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் ஒப்புதல் பெற வேண்டும்..” என்ற படி ஒரு உரை இருந்தால் அது சமனிலைப்படுத்தப்பட்டபின்  “பணியாளர் வேலைக்கு வந்தால் அவர் மனைவியிடம் (அல்லது அவள் கணவனிடம், [துனைவன்/வியிடம்]) ஒப்புதல் பெறவேண்டும்” என்று வரவேண்டும்.
    • இத்தகைய ஒரு செயற்கையறிவு அல்லது தானியங்கியிடம் திருக்குறள் மற்றும் சம்காலத்தில் உருவாகாத பழங்கால உரைகளைக்கொடுத்தால் என்ன ஆகும் ?

மேலும் சில திறன்களை தமிழ் இயல்மொழிபகுப்பாய்வு பெரும் என்றும் நம்பலாம்; அடுத்தகட்ட கேள்விகள் / புதிர்கள் அடுத்த பதிவில்.

நன்றி

-முத்து

 

செயற்கையறிவு – அறம்

Montreal-Declaration-for-AI

எதர்க்காக செயற்கையறிவு எந்திரங்கள் ? நாம் செய்யும் தற்சமையம் அபாயகரமான தொழில்களிலும், நிபுனர்கள் குறைவாக உள்ள தொழிகளிலும் அதன்கண் விலைவாசிகளை குறைக்கும் வண்ணம் பலருக்கும் அத்தகைய சேவைகளை அளிப்பதிலும், தினசரி வாழ்வில் உள்ள சிறு சிறு விடயங்களை மேம்படுத்தவும் இவைகள் உதவுவது நாம் குறிக்கோள்களானாலும், இவை மற்றும்தானா செயற்கையறிவின் இலக்குகள்/பயன்கள்?

இல்லை. தீய பயன்களுக்கும் செயற்கையறிவு சிலரால் பயன்படுத்தலாம்உதாரணம்:

  1. Black Mirror என்ற தொலைகாட்சித்தொடரில் “Metal Head” என்ற கதையில் இரத்த வெறிபிடித்த செயற்கை ஓனாய்கள் பற்றியும்,
  2. Silicon Valley HBO தொடரில் “Eklow” என்ற கதையில் “Fiona” என்ற எந்திர பெண் பாலியல் முறைகேடிக்கு உட்படுத்தப்படுவதும்,
  3. தமிழில் எந்திரன்-1 இல் காதல் மோகம் கொண்ட (சிவப்பு சில்லு புரோகிராமிங் கொண்ட) “சிட்டி

பற்றியும் படித்தால் நாளைய ரோபோக்கள் எந்தவித வேலைகளில் ஈடுபடலாம் என்றும் அவற்றில் சில மனித அறம் மீரியவை என்றும் புலப்படுகின்றது.

ரோபோக்களின் திறன்களை செயற்கையறிவின் அறம் கொண்டு நிர்ணயிக்கும் தருணத்தில் இன்று நாம்இருக்கின்றோம். இந்த நிலை வெகு ஆண்டுகள் நீடிக்கும் என்பது சந்தேகத்திற்குறியதாக இருக்கின்றது. முதன் முதலின் இவற்றினை பற்றி பிறபலமாக அலசல் செய்தும் ரோபோக்களில் மீர கூடாத/முடியாத மூன்று கோட்பாடுகள் அளித்தவர் அசிமோவ்.

மேலும், இந்த சூழலில் கனடிய மொண்ரியால் பல்கலைக்கழகம் நடத்திய கருத்தரங்கின் வழிவந்த ஒரு செயற்கையறிவு நடுவன் மற்றும் மூல கட்டமைப்பு கோட்பாடு உலகத்தரம் வாயந்ததாகவும், பொதுவான குடியரசு, ஜனநாயக, சமத்துவ, மனித உரிமை, கோட்பாடுகளின் மீதும் தழுவிய அறக்கோட்பாடுகளென காண்கின்றேன். இதன் முழு உரை இங்கே: https://www.montrealdeclaration-responsibleai.com/the-declaration – இந்த ஆவணத்தை சிறந்த வழக்கறிஞர்களும், தொழில்நுட்பவியலாளர்களும் சேர்ந்து தமிழிலும் ஒரு நாள் மொழிபெயர்ப்பார்கள் என்று எண்ணலாம்.

மேலும் ஐக்கிய அமெரிக்க அரசும் இதனைப்போல் ஒரு பொது நல செயற்கையறிவின் பயன்பாட்டினை அமெரிக்க நாட்டின் நலத்திற்காகவும், உலக மக்களின் நலன், முன்னேற்றத்திற்காகவும் இங்கு அளித்திருக்கின்றது. https://www.bloomberg.com/opinion/articles/2020-01-07/ai-that-reflects-american-values

எனது பொறியாளர் நம்பிக்கை என்னமோ இயந்திரங்களை நாம் பிரம்மனைப்போல் படைத்தாலும் அவற்றின் மரபணுவில் நமது தலை சிறந்த மனிதவியல் கோட்பாடுகளை மட்டுமே சேர்க்கவேண்டும்.

-முத்து.

Open-தமிழ் திட்டம் ஒரு பார்வை

சமிபத்தில், ஓப்பன் தமிழ் வரிசை எண் 0.96-இல் எண்ணவெல்லாம் நிரல் படுத்தி செய்யலாம் ? இவற்றை எங்களது ஆறு ஆண்டு முயற்சியாக @UTSC எண்ணிம தமிழ் துரையினரிடம் நேற்று வழங்கினேன். முழு வில்லைகள் (Slides) இங்கும். bit.ly/2G7mevE  இங்கும் (PDF-வடிவில்) : ஒப்பன்தமிழ்-2020-ஓரு-பார்வை-2 பல ஆண்டுகளாக பங்களித்தவர்கள் அனைவருக்கும் நன்றி.

EOqpf_UUEAICPsV

இந்த வழங்கலின் பின் எழுப்பப்பட்ட கேள்விகளானவை:

  1. NLTK-என்ற புகழ் பெற்ற ஆங்கலி இயல் மொழி பகுப்பாய்வு திறண்களைப்போன்ற சேவைகள் எப்பொழுது தமிழில் – அதுவும் ஓப்பன்-தமிழ் வழி கொண்டுவரப்படும் ? குறிப்பாக, POS – சொற்றொடர்களின் சொல் பகுப்பாய்வுகள், SynNet – சொல் இணைப்பு பின்னல்கள் ஆகியன.
  2. உரையினை சொல் எழுத்துக்களாக பகுப்பாய்வு செய்வதன் வேகம், செய்முறை நினைவகளவு (RAM) குறைவாகவும் இருப்பது பற்றிய கேள்விகள்; விக்கிபீடியாவின் தரவுகளில் சொல்தேடல்கள் (word search), சொல் எண்ணிக்கை (frequency) பட்டியலிடலின், concordance/collocation database creation பற்றியும், அவைகளை உருவாக்கும் இயக்க நேர அளவுகள் போன்றவற்றை பற்றியும் அதன் வேகப்படுத்துவதைப் பற்றியும் கேள்விகள் வந்தன.
  3. சொல்வனம் மின் இதழ்களின் வரலாற்று தரவுகளை எப்படி ஆரய்ச்சிக்காக கேட்பது என்பது பற்றியும் அவற்றில் உள்ள கலை சொற்கள், அறிவியல் ஆராய்ச்சி கட்டுரைகள், தமிழாக்க  நடை அவற்றினை UTSC பல்கலைக்கழகத்திற்கும் மற்ற பொது ஆய்விற்கும் பெருவதன் அனுகுமுறை பற்றியும் கேள்விகள் எழுப்பப்பட்டன.
  4. இதன் கண் தமிழில் தரவுகள் அதிகமாக நேர்ந்தால், கைக்கெட்டினால் தமிழில் பல் புதுமைகள் செய்யலாம் என்பதும் ஒரு பேராசையாக இந்தத் தருனத்தில் தேன்றும். புதிய இயந்தர வழி கற்றலின் பால் உள்ள வாய்புகளுக்கு இணங்க எப்படி இந்த மென்பொருளை வளர்ப்பது என்பது ஒரு புதிய சவால்.  சந்திப்போம்!

Screen Shot 2020-01-19 at 11.09.34 AM

செயற்கையறிவு – சில சுட்டிகள்

மெரிட் ஏரி, ஓக்லாண்டு, கலிபோர்னியா.

இனிய புத்தாண்டு வாழ்த்துக்கள் 2020. செயற்கையறிவு – சில கட்டமைப்பு பயிற்சி சுட்டிகளை இந்த பதிவில் நான் பகிர்கின்றேன். எனது குறிக்கோள் என்னவென்றால் – இதனை படிக்கும் நீங்கள் பைத்தான், numpy, tensorflow என்ற நுட்பங்களையும் கட்டமைப்புகளையும் கையாண்டு செயற்கையறிவு திறண்களை ஒரு ஆண்டில் அல்லது குறைவான காலத்தில் நீங்கள் பெறலாம் என்பதாவது. இவை அனைத்தையும் கற்றிட ஒரு கூகில் கணக்கு மட்டும் இருந்தால் போதும் – அவர்களது colaboratory = code + laboratory என்ற இணைய சேவை மிக உதவிகரமானது – இங்கு பார்க்கவும்.

  1. முதலில் உங்களுக்கு பைத்தான் மற்றும் numpy, அணிகளின் கணிதம் (linear algebra – எனுக்கு மிகவும் பிடித்தவர் பேராசிரியர். கில்பட் ஸ்டிராங்.) ஒருபடியாக தேர்ச்சியடைந்திருந்தால் நல்லது. இல்லாட்டி வருத்தப்படாமல் கூகில் செய்யுங்க; StackOverflow செய்யுங்கள்.
  2. ஸ்டான்போர்டு பல்களை செய்ற்கையறிவு பாடம், மற்றும் tensorflow நிரல் மாதிரிகள். இதனை இயற்றியவர் சிப்னுயன் என்பவள். இதன்வழி நீங்கள் tensorflow கற்றிடலாம். இவற்றின் மூலம் சில ஆண்டுகளாக நானும் படித்து வருகிறேன்.
  3. மேலும் படி 2-இல் சிக்கல் நேர்ந்தால் அல்லது உங்களுக்கு அதிக அளவு விவரங்கள் தேவைகள் இல்லாவிட்டால் Keras என்ற கட்டமைப்பையும் பயன்படுத்திடலாம். இவை இரண்டும் இல்லாத மற்ற கட்டமைப்புகளான PyTorch மற்றும் Caffe, CNTK என்றும் உள்ளன – இவற்றை பற்றி சொல்வதற்கு எனக்கு தேர்ச்சி இல்லை;
    1. உங்களுக்கு படிப்பதற்கு இவற்றில் ஏதோ ஓன்றினை மற்றும் படித்தால் போதுமானது; அதாவது இவற்றினிடையே வித்தியாசங்கள் எல்லாம் குளிர்பானங்களினிடையே உள்ள வித்தியாசங்களினை மட்டும்தான் என்ற்படி உணரவேண்டும்; நீங்கள் இந்த பலவிதமான செயற்கையறிவு கட்டமைப்புகளினிடையே காணமுடியும் என்றும் சொல்லாம்.
  4. தமிழில் ஒரு முதல் முறையாக சென்ற ஆண்டு வெளிவந்த நூல் “எளிய தமிழில் Machine Learning,” கணியம் திருமதி. து. நித்தியா. இதனை கிண்டில் மின்கருவி/செயலி அல்லது PDF-இலும் இங்கு படிக்கலாம்.
  5. எது செய்தாலும் நீங்கள் பயிற்சி நோக்கில் செய்பட எனது வலியுருத்தல். ஏட்டு சுறைக்காய் கறிக்கு என்றும் உதவாது என்றும் நாம் அறிவோம். மேலும் பயிற்சி செய்து சான்றுகள் பெற இணைய வழி பல்கழைக்கழாக்ங்களும் உதவுகின்றன – Coursera, Udacity போன்றவை.

இந்த செயற்கையறிவு நிரல்களை கொண்டு சில 5 ஆண்டுகளுக்கும் முன்பு எவராலும் இயல்முடியாத செயல்களை இந்த செயற்கை நரம்பு பின்னல்கள் (Deep Neural Networks) என்பவை சாத்தியப்படுத்துகின்றன. இந்தியாவில் இதை எழுதும் சமயம் 50% மேலான மக்கள் 30 வதிற்கும் குறைந்தவர்கள் – இந்த வழி திறண்களைக்கொண்டு புதிய சேவைகளையும் பலதுரைகளின் உருவாக்கியும் வழங்கியும் வாழ்வினை செம்மைப்படுத்தலாம்.

உதாரணம்:

  1. தானியங்கி கார்கள்/வாகனங்கள் செயல்படுத்துதல்: Tesla, Waymo, Cruise போன்ற பல நிறுவனங்கள் இவற்றினை செயல்படுத்துகின்றனர்.
  2. கணினி காட்சி அறிவியல்/உணர்தல்: ImageNet என்ற பல மில்லியன் படங்கள் கொண்ட தறவில் இருந்து பயிற்சி செய்யப்பட்ட செயற்கை நரம்பு பின்னல் 1000-வகையான பொருட்களை மனிதர் திறன் காட்டிலும் துல்லியமாகக் கண்டறிய உதவும். இவற்றைக்கொண்டு என்ன செய்யலாம் – யோசியுங்கள் ?
  3. மொழியில் சேவைகளும் NLP கணினியில் செம்மைபடுத்த இவைகள் உதவும்;
    1. மொழி உரை, ஒலி உணர்தல். (Comprehension)
    2. மொழி உரை->ஒலி மாற்றி (TTS)
    3. மொழி ஒலி -> உரை மாற்றி (ASR)

மேலும் பல. நீங்கள் முயற்சி செய்வீர்களா?

-முத்து.

ஒரு உப்பு

சமையல் என்பது கணினி நிரலாக்கத்துடன் ஒப்பிட்டு கருத்துக்களையும், திற மூல இயக்கம் மற்றும் பொதுவெளி கணினி நிரலாக்கம்/கற்பித்தல்/செயல்பாடு அரசியல் போன்ற தகவல்களை முன்வைத்தவர் திரு. ரிச்சர்டு ஸ்டால்மன்.

இதன்படி நாம் எப்படி வீட்டில் முருங்கை கொழம்பு சமைக்க வேண்டுமென்றால் சமயல் குறிப்பை பயன்படுத்தி நமக்கேற்ப அதனை வீட்டார் உடல் நலம், நாவின் சுவை, விருப்பங்களுக்கு ஏற்ப குறிப்புகளை திருத்தியும், மேம்படுத்தியும் புளியைகரைத்து கொழம்பை அடுப்பில் இருந்து இரக்குகிரோமோ, அதே போல் கணினி நிரல்களும் – சமையல் குறிப்புகளுக்கு இனையாக – நமது பயன்பாட்டிற்கு ஏற்ப மாற்றி அமைத்தல் தலை.

ஒரு உப்பு கூடினாலும் பிடித்தமாதிரி உணவுகளை சமைத்து உண்ணும் வகையில் நாம் கணினி செயலிகளை நுகர்வேராக மாருவோமாக. எப்படி பெளக்சு பேனர் வைத்து வாழ்வின் முக்கியதருனங்களில் ஊரரிய செய்தி சொல்கின்றோமோ அந்த பொருமையை மென்பொருளிலும் கொள்வோம்.