Failed to render content. Please refresh the page. Showing plain-text fallback.
"@/components/CTA" എന്നതിൽ നിന്ന് CTA ഇംപോർട്ട് ചെയ്യുക
ഡാറ്റാ സയൻസ് അഭിമുഖ ചോദ്യങ്ങൾ: DS റോളുകൾക്കായുള്ള സമ്പൂർണ്ണ ഗൈഡ് (2025)
അവസാനം പുതുക്കപ്പെട്ടത്: ഫെബ്രുവരി 7, 2025
പ്രധാന ടേക്ക് എവേകൾ
- ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങൾ സ്റ്റാറ്റിസ്റ്റിക്സ്, മെഷീൻ ലേണിംഗ്, എസ്ക്യുഎൽ, ബിസിനസ്സ് വിവേകം എന്നിവ ഉൾക്കൊള്ളുന്നു
- ആശയങ്ങൾ ലളിതമായി വിശദീകരിക്കുകയും യഥാർത്ഥ ലോക പ്രശ്നങ്ങൾ പരിഹരിക്കുകയും പരിശീലിക്കുക
- മാസ്റ്റർ എ / ബി ടെസ്റ്റിംഗ്, പരീക്ഷണാത്മക രൂപകൽപ്പന, കാര്യകാരണ നിഗമനം
- സാങ്കേതിക വൈദഗ്ധ്യവും ബിസിനസ്സ് സ്വാധീനവും പ്രദർശിപ്പിക്കുക
- കേസ് പഠനങ്ങൾക്കും ഉൽപ്പന്ന ബോധ ചോദ്യങ്ങൾക്കും തയ്യാറെടുക്കുക
🎯 പ്രോ ടിപ്പ്: ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങൾ ഡാറ്റയിൽ നിന്ന് ഉൾക്കാഴ്ചകൾ വേർതിരിച്ചെടുക്കാനും ബിസിനസ്സ് തീരുമാനങ്ങൾ എടുക്കാനുമുള്ള നിങ്ങളുടെ കഴിവ് വിലയിരുത്തുന്നു. സങ്കീർണ്ണമായ ആശയങ്ങൾ ലളിതമായി വിശദീകരിക്കുന്നതിലും ബിസിനസ്സ് മികവ് കാണിക്കുന്നതിലും എൻഡ്-ടു-എൻഡ് പ്രശ്ന പരിഹാര കഴിവുകൾ പ്രദർശിപ്പിക്കുന്നതിലും ശ്രദ്ധ കേന്ദ്രീകരിക്കുക.
ഡാറ്റാ സയൻസ് ഇന്റർവ്യൂ ഘടന
ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങളിൽ സാധാരണയായി വ്യത്യസ്ത കഴിവുകൾ വിലയിരുത്തുന്ന ഒന്നിലധികം റൗണ്ടുകൾ ഉൾപ്പെടുന്നു:
അഭിമുഖ റൗണ്ടുകൾ:
- ഫോൺ സ്ക്രീൻ: അടിസ്ഥാന SQL, സ്ഥിതിവിവരക്കണക്കുകൾ, പെരുമാറ്റ ചോദ്യങ്ങൾ
- സാങ്കേതിക അഭിമുഖം: കോഡിംഗ്, സ്ഥിതിവിവരക്കണക്കുകൾ, എംഎൽ അൽഗോരിതങ്ങൾ
- കേസ് സ്റ്റഡി: ബിസിനസ്സ് പ്രശ്ന പരിഹാരവും അവതരണവും
- ടീം / നേതൃത്വം: സാംസ്കാരിക ഫിറ്റും സഹകരണ വിലയിരുത്തലും
മൂല്യനിർണ്ണയ മേഖലകൾ:
- സാങ്കേതിക കഴിവുകൾ: SQL, പൈത്തൺ / ആർ, സ്ഥിതിവിവരക്കണക്കുകൾ, മെഷീൻ ലേണിംഗ്
- പ്രശ്ന പരിഹാരം: വിശകലന ചിന്തയും രീതിശാസ്ത്രവും
- ബിസിനസ്സ് മികവ്: ബിസിനസ്സ് സ്വാധീനവും മുൻഗണനകളും മനസ്സിലാക്കുന്നു
- ആശയവിനിമയം: സാങ്കേതികേതര പങ്കാളികൾക്ക് സാങ്കേതിക ആശയങ്ങൾ വിശദീകരിക്കുന്നു
സ്റ്റാറ്റിസ്റ്റിക്സ് & പ്രോബബിലിറ്റി ചോദ്യങ്ങൾ
അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ
1. ടൈപ്പ് I, ടൈപ്പ് II പിശകുകൾ തമ്മിലുള്ള വ്യത്യാസം വിശദീകരിക്കുക.
പരിഹാരം:
- ടൈപ്പ് I പിശക് (തെറ്റായ പോസിറ്റീവ്): ശൂന്യ സിദ്ധാന്തം ശരിയാകുമ്പോൾ അത് നിരസിക്കുന്നു (α പിശക്)
- ടൈപ്പ് II പിശക് (തെറ്റായ നെഗറ്റീവ്): ശൂന്യ സിദ്ധാന്തം തെറ്റാകുമ്പോൾ അത് നിരസിക്കുന്നതിൽ പരാജയപ്പെടൽ (β പിശക്)
ഉദാഹരണം: സ്പാം കണ്ടെത്തലിൽ:
- ടൈപ്പ് I: നിയമാനുസൃതമായ ഇമെയിലിനെ സ്പാം ആയി അടയാളപ്പെടുത്തുന്നു
- ടൈപ്പ് II: കാണാതായ സ്പാം ഇമെയിൽ (അത് അനുവദിക്കുന്നു)
ശക്തി = 1 - β (തെറ്റായ ശൂന്യ സിദ്ധാന്തം ശരിയായി നിരസിക്കാനുള്ള സാധ്യത)
2. എന്താണ് പി-മൂല്യം, നിങ്ങൾ അത് എങ്ങനെ വ്യാഖ്യാനിക്കുന്നു?
പരിഹാരം:
ശൂന്യമായ സിദ്ധാന്തം ശരിയാണെന്ന് കരുതി, നിരീക്ഷിക്കപ്പെട്ട ഡാറ്റയുടെ അങ്ങേയറ്റം (അല്ലെങ്കിൽ കൂടുതൽ തീവ്രമായ) ഡാറ്റ നിരീക്ഷിക്കാനുള്ള സാധ്യതയാണ് പി-മൂല്യം.
വ്യാഖ്യാനം:
- പി 10 മൾട്ടികോളിനെരിറ്റിയെ സൂചിപ്പിക്കുന്നു
- സാധാരണത്വത്തിനായുള്ള Q-Q പ്ലോട്ടുകൾ
മെഷീൻ ലേണിംഗ് ചോദ്യങ്ങൾ
എം എൽ ഫണ്ടമെന്റലുകൾ
1. ബയസ്-വേരിയൻസ് ട്രേഡ് ഓഫ് വിശദീകരിക്കുക.
പരിഹാരം:
- പക്ഷപാതം: അനുമാനങ്ങൾ ലളിതമാക്കുന്നതിൽ പിശക് (അണ്ടർഫിറ്റിംഗ്)
- വ്യത്യാസം: പരിശീലന ഡാറ്റയിലേക്കുള്ള സംവേദനക്ഷമതയിൽ നിന്ന് പിശക് (ഓവർഫിറ്റിംഗ്)
- ട്രേഡ് ഓഫ്: കുറഞ്ഞ പക്ഷപാതമുള്ള മോഡലുകൾക്ക് ഉയർന്ന വ്യത്യാസമുണ്ട്, തിരിച്ചും
ഉദാഹരണങ്ങൾ:
- ഉയർന്ന പക്ഷപാതം: നോൺ-ലീനിയർ ഡാറ്റയിൽ ലീനിയർ റിഗ്രഷൻ
- ഉയർന്ന വ്യതിയാനം: ഓവർഫിറ്റിംഗ് ഡിസിഷൻ ട്രീ
പരിഹാരങ്ങൾ:
- രണ്ടും വിലയിരുത്തുന്നതിനുള്ള ക്രോസ്-വാലിഡേഷൻ
- വ്യതിയാനം കുറയ്ക്കുന്നതിന് ക്രമപ്പെടുത്തൽ (L1 / L2)
- രണ്ടും കുറയ്ക്കുന്നതിനുള്ള സംയോജിത രീതികൾ
2. എന്താണ് ക്രോസ്-വാലിഡേഷൻ, എന്തുകൊണ്ടാണ് ഇത് പ്രധാനം?
പരിഹാരം:
ക്രോസ്-വാലിഡേഷൻ മോഡൽ പ്രകടനം വിലയിരുത്തുന്നതിനും ഓവർഫിറ്റിംഗ് തടയുന്നതിനും ഒന്നിലധികം തവണ പരിശീലനവും മൂല്യനിർണ്ണയ സെറ്റുകളുമായി ഡാറ്റയെ വിഭജിക്കുന്നു.
തരങ്ങൾ:
- k-fold CV: ഡാറ്റ k മടക്കുകളായി വിഭജിക്കുക, k-1 ൽ പരിശീലിപ്പിക്കുക, അവശേഷിക്കുന്നവയിൽ സാധൂകരിക്കുക
- ലീവ്-വൺ-ഔട്ട്: k=n (ഓരോ സാമ്പിളും ഒരിക്കൽ സാധൂകരണ സജ്ജമാക്കുന്നു)
- സ്ട്രാറ്റിഫൈഡ് കെ-ഫോൾഡ്: ഓരോ മടക്കിലും ക്ലാസ് വിതരണം നിലനിർത്തുന്നു
പ്രാധാന്യം:
സിംഗിൾ ട്രെയിൻ/ടെസ്റ്റ് സ്പ്ലിറ്റിനേക്കാൾ കൂടുതൽ വിശ്വസനീയമായ പ്രകടന എസ്റ്റിമേറ്റ്
- ഓവർഫിറ്റിംഗ് കണ്ടെത്താൻ സഹായിക്കുന്നു
പരിമിതമായ ഡാറ്റയുടെ ഉപയോഗം പരമാവധി വർദ്ധിപ്പിക്കുന്നു
നിർദ്ദിഷ്ട അൽഗോരിതങ്ങൾ
3. ഒരു തീരുമാന വൃക്ഷം എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് വിശദീകരിക്കുക.
പരിഹാരം:
ഏകതാന ഗ്രൂപ്പുകൾ സൃഷ്ടിക്കുന്നതിന് ഫീച്ചർ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡിസിഷൻ ട്രീകൾ ആവർത്തിച്ച് ഡാറ്റ വിഭജിക്കുന്നു.
പ്രധാന ആശയങ്ങൾ:
- റൂട്ട് നോഡ്: എല്ലാ ഡാറ്റയും ഉള്ള ആരംഭ പോയിന്റ്
- ആന്തരിക നോഡുകൾ: ഫീച്ചർ പരിധികളെ അടിസ്ഥാനമാക്കിയുള്ള തീരുമാന പോയിന്റുകൾ
- ലീഫ് നോഡുകൾ: അന്തിമ പ്രവചനങ്ങൾ (വർഗ്ഗീകരണം) അല്ലെങ്കിൽ മൂല്യങ്ങൾ (റിഗ്രഷൻ)
- സ്പ്ലിറ്റിംഗ് മാനദണ്ഡം: ജിനി അശുദ്ധി (വർഗ്ഗീകരണം), വേരിയൻസ് റിഡക്ഷൻ (റിഗ്രഷൻ)
ഗുണങ്ങൾ: വ്യാഖ്യാനിക്കാവുന്ന, മിക്സഡ് ഡാറ്റാ തരങ്ങൾ കൈകാര്യം ചെയ്യുന്നു, ഫീച്ചർ സ്കെയിലിംഗ് ആവശ്യമില്ല
പോരായ്മകൾ: ചെറിയ ഡാറ്റാ മാറ്റങ്ങളാൽ അമിതമായി ഫിറ്റിംഗിന് സാധ്യതയുള്ള, അസ്ഥിരത
4. ബാഗിംഗും ബൂസ്റ്റിംഗും തമ്മിലുള്ള വ്യത്യാസം എന്താണ്?
പരിഹാരം:
- ബാഗിംഗ് (ബൂട്ട്സ്ട്രാപ്പ് അഗ്രഗേറ്റിംഗ്): റാൻഡം ഡാറ്റാ സബ്സെറ്റുകളിൽ ഒന്നിലധികം മോഡലുകൾ സൃഷ്ടിക്കുന്നു, ശരാശരി പ്രവചനങ്ങൾ. വ്യതിയാനം കുറയ്ക്കുന്നു, അമിതമായി പൊരുതുന്നു. ഉദാഹരണം: റാൻഡം ഫോറസ്റ്റ്.
- ബൂസ്റ്റിംഗ്: മോഡലുകൾ തുടർച്ചയായി പരിശീലിപ്പിക്കുന്നു, ഓരോന്നും മുമ്പത്തെ തെറ്റുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. പക്ഷപാതം കുറയ്ക്കുന്നു, കൃത്യത മെച്ചപ്പെടുത്തുന്നു. ഉദാഹരണം: AdaBoost, XGBoost.
പ്രധാന വ്യത്യാസങ്ങൾ:
- ബാഗിംഗ്: സമാന്തരം, വ്യതിയാനം കുറയ്ക്കുന്നു
- ബൂസ്റ്റിംഗ്: തുടർച്ചയായി, പക്ഷപാതം കുറയ്ക്കുന്നു
- ബാഗിംഗ്: സ്വതന്ത്ര മോഡലുകൾ
- ബൂസ്റ്റിംഗ്: പിശകുകളിൽ നിന്ന് പഠിക്കുന്ന ആശ്രിത മോഡലുകൾ
SQL ചോദ്യങ്ങൾ
ബേസിക് എസ്ക്യുഎൽ
1. എംപ്ലോയീ ടേബിളിൽ നിന്ന് ഏറ്റവും ഉയർന്ന രണ്ടാമത്തെ ശമ്പളം കണ്ടെത്തുക.
പരിഹാരങ്ങൾ:
'''SQL
- രീതി 1: സബ്ക്വറി
രണ്ടാമത്തേത്ഏറ്റവും ഉയർന്ന ശമ്പളം എന്ന നിലയിൽ മാക്സിമം (ശമ്പളം) തിരഞ്ഞെടുക്കുക
ജീവനക്കാരനിൽ നിന്ന്
എവിടെയാണ് ശമ്പളം