ഡാറ്റാ സയൻസ് അഭിമുഖ ചോദ്യങ്ങൾ: DS റോളുകൾക്കായുള്ള സമ്പൂർണ്ണ ഗൈഡ് (2025) | കർമ്മ സഖ

Failed to render content. Please refresh the page. Showing plain-text fallback.

"@/components/CTA" എന്നതിൽ നിന്ന് CTA ഇംപോർട്ട് ചെയ്യുക

ഡാറ്റാ സയൻസ് അഭിമുഖ ചോദ്യങ്ങൾ: DS റോളുകൾക്കായുള്ള സമ്പൂർണ്ണ ഗൈഡ് (2025)

അവസാനം പുതുക്കപ്പെട്ടത്: ഫെബ്രുവരി 7, 2025

പ്രധാന ടേക്ക് എവേകൾ - ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങൾ സ്റ്റാറ്റിസ്റ്റിക്സ്, മെഷീൻ ലേണിംഗ്, എസ്ക്യുഎൽ, ബിസിനസ്സ് വിവേകം എന്നിവ ഉൾക്കൊള്ളുന്നു - ആശയങ്ങൾ ലളിതമായി വിശദീകരിക്കുകയും യഥാർത്ഥ ലോക പ്രശ്നങ്ങൾ പരിഹരിക്കുകയും പരിശീലിക്കുക - മാസ്റ്റർ എ / ബി ടെസ്റ്റിംഗ്, പരീക്ഷണാത്മക രൂപകൽപ്പന, കാര്യകാരണ നിഗമനം - സാങ്കേതിക വൈദഗ്ധ്യവും ബിസിനസ്സ് സ്വാധീനവും പ്രദർശിപ്പിക്കുക - കേസ് പഠനങ്ങൾക്കും ഉൽപ്പന്ന ബോധ ചോദ്യങ്ങൾക്കും തയ്യാറെടുക്കുക

🎯 പ്രോ ടിപ്പ്: ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങൾ ഡാറ്റയിൽ നിന്ന് ഉൾക്കാഴ്ചകൾ വേർതിരിച്ചെടുക്കാനും ബിസിനസ്സ് തീരുമാനങ്ങൾ എടുക്കാനുമുള്ള നിങ്ങളുടെ കഴിവ് വിലയിരുത്തുന്നു. സങ്കീർണ്ണമായ ആശയങ്ങൾ ലളിതമായി വിശദീകരിക്കുന്നതിലും ബിസിനസ്സ് മികവ് കാണിക്കുന്നതിലും എൻഡ്-ടു-എൻഡ് പ്രശ്ന പരിഹാര കഴിവുകൾ പ്രദർശിപ്പിക്കുന്നതിലും ശ്രദ്ധ കേന്ദ്രീകരിക്കുക.

ഡാറ്റാ സയൻസ് ഇന്റർവ്യൂ ഘടന

ഡാറ്റാ സയൻസ് അഭിമുഖങ്ങളിൽ സാധാരണയായി വ്യത്യസ്ത കഴിവുകൾ വിലയിരുത്തുന്ന ഒന്നിലധികം റൗണ്ടുകൾ ഉൾപ്പെടുന്നു:

അഭിമുഖ റൗണ്ടുകൾ: - ഫോൺ സ്ക്രീൻ: അടിസ്ഥാന SQL, സ്ഥിതിവിവരക്കണക്കുകൾ, പെരുമാറ്റ ചോദ്യങ്ങൾ - സാങ്കേതിക അഭിമുഖം: കോഡിംഗ്, സ്ഥിതിവിവരക്കണക്കുകൾ, എംഎൽ അൽഗോരിതങ്ങൾ - കേസ് സ്റ്റഡി: ബിസിനസ്സ് പ്രശ്ന പരിഹാരവും അവതരണവും - ടീം / നേതൃത്വം: സാംസ്കാരിക ഫിറ്റും സഹകരണ വിലയിരുത്തലും

മൂല്യനിർണ്ണയ മേഖലകൾ: - സാങ്കേതിക കഴിവുകൾ: SQL, പൈത്തൺ / ആർ, സ്ഥിതിവിവരക്കണക്കുകൾ, മെഷീൻ ലേണിംഗ് - പ്രശ്ന പരിഹാരം: വിശകലന ചിന്തയും രീതിശാസ്ത്രവും - ബിസിനസ്സ് മികവ്: ബിസിനസ്സ് സ്വാധീനവും മുൻഗണനകളും മനസ്സിലാക്കുന്നു - ആശയവിനിമയം: സാങ്കേതികേതര പങ്കാളികൾക്ക് സാങ്കേതിക ആശയങ്ങൾ വിശദീകരിക്കുന്നു

സ്റ്റാറ്റിസ്റ്റിക്സ് & പ്രോബബിലിറ്റി ചോദ്യങ്ങൾ

അടിസ്ഥാന സ്ഥിതിവിവരക്കണക്കുകൾ

1. ടൈപ്പ് I, ടൈപ്പ് II പിശകുകൾ തമ്മിലുള്ള വ്യത്യാസം വിശദീകരിക്കുക.

പരിഹാരം: - ടൈപ്പ് I പിശക് (തെറ്റായ പോസിറ്റീവ്): ശൂന്യ സിദ്ധാന്തം ശരിയാകുമ്പോൾ അത് നിരസിക്കുന്നു (α പിശക്) - ടൈപ്പ് II പിശക് (തെറ്റായ നെഗറ്റീവ്): ശൂന്യ സിദ്ധാന്തം തെറ്റാകുമ്പോൾ അത് നിരസിക്കുന്നതിൽ പരാജയപ്പെടൽ (β പിശക്)

ഉദാഹരണം: സ്പാം കണ്ടെത്തലിൽ: - ടൈപ്പ് I: നിയമാനുസൃതമായ ഇമെയിലിനെ സ്പാം ആയി അടയാളപ്പെടുത്തുന്നു - ടൈപ്പ് II: കാണാതായ സ്പാം ഇമെയിൽ (അത് അനുവദിക്കുന്നു)

ശക്തി = 1 - β (തെറ്റായ ശൂന്യ സിദ്ധാന്തം ശരിയായി നിരസിക്കാനുള്ള സാധ്യത)

2. എന്താണ് പി-മൂല്യം, നിങ്ങൾ അത് എങ്ങനെ വ്യാഖ്യാനിക്കുന്നു?

പരിഹാരം: ശൂന്യമായ സിദ്ധാന്തം ശരിയാണെന്ന് കരുതി, നിരീക്ഷിക്കപ്പെട്ട ഡാറ്റയുടെ അങ്ങേയറ്റം (അല്ലെങ്കിൽ കൂടുതൽ തീവ്രമായ) ഡാറ്റ നിരീക്ഷിക്കാനുള്ള സാധ്യതയാണ് പി-മൂല്യം.

വ്യാഖ്യാനം: - പി 10 മൾട്ടികോളിനെരിറ്റിയെ സൂചിപ്പിക്കുന്നു - സാധാരണത്വത്തിനായുള്ള Q-Q പ്ലോട്ടുകൾ

മെഷീൻ ലേണിംഗ് ചോദ്യങ്ങൾ

എം എൽ ഫണ്ടമെന്റലുകൾ

1. ബയസ്-വേരിയൻസ് ട്രേഡ് ഓഫ് വിശദീകരിക്കുക.

പരിഹാരം: - പക്ഷപാതം: അനുമാനങ്ങൾ ലളിതമാക്കുന്നതിൽ പിശക് (അണ്ടർഫിറ്റിംഗ്) - വ്യത്യാസം: പരിശീലന ഡാറ്റയിലേക്കുള്ള സംവേദനക്ഷമതയിൽ നിന്ന് പിശക് (ഓവർഫിറ്റിംഗ്) - ട്രേഡ് ഓഫ്: കുറഞ്ഞ പക്ഷപാതമുള്ള മോഡലുകൾക്ക് ഉയർന്ന വ്യത്യാസമുണ്ട്, തിരിച്ചും

ഉദാഹരണങ്ങൾ: - ഉയർന്ന പക്ഷപാതം: നോൺ-ലീനിയർ ഡാറ്റയിൽ ലീനിയർ റിഗ്രഷൻ - ഉയർന്ന വ്യതിയാനം: ഓവർഫിറ്റിംഗ് ഡിസിഷൻ ട്രീ

പരിഹാരങ്ങൾ: - രണ്ടും വിലയിരുത്തുന്നതിനുള്ള ക്രോസ്-വാലിഡേഷൻ - വ്യതിയാനം കുറയ്ക്കുന്നതിന് ക്രമപ്പെടുത്തൽ (L1 / L2) - രണ്ടും കുറയ്ക്കുന്നതിനുള്ള സംയോജിത രീതികൾ

2. എന്താണ് ക്രോസ്-വാലിഡേഷൻ, എന്തുകൊണ്ടാണ് ഇത് പ്രധാനം?

പരിഹാരം: ക്രോസ്-വാലിഡേഷൻ മോഡൽ പ്രകടനം വിലയിരുത്തുന്നതിനും ഓവർഫിറ്റിംഗ് തടയുന്നതിനും ഒന്നിലധികം തവണ പരിശീലനവും മൂല്യനിർണ്ണയ സെറ്റുകളുമായി ഡാറ്റയെ വിഭജിക്കുന്നു.

തരങ്ങൾ: - k-fold CV: ഡാറ്റ k മടക്കുകളായി വിഭജിക്കുക, k-1 ൽ പരിശീലിപ്പിക്കുക, അവശേഷിക്കുന്നവയിൽ സാധൂകരിക്കുക - ലീവ്-വൺ-ഔട്ട്: k=n (ഓരോ സാമ്പിളും ഒരിക്കൽ സാധൂകരണ സജ്ജമാക്കുന്നു) - സ്ട്രാറ്റിഫൈഡ് കെ-ഫോൾഡ്: ഓരോ മടക്കിലും ക്ലാസ് വിതരണം നിലനിർത്തുന്നു

പ്രാധാന്യം: സിംഗിൾ ട്രെയിൻ/ടെസ്റ്റ് സ്പ്ലിറ്റിനേക്കാൾ കൂടുതൽ വിശ്വസനീയമായ പ്രകടന എസ്റ്റിമേറ്റ് - ഓവർഫിറ്റിംഗ് കണ്ടെത്താൻ സഹായിക്കുന്നു പരിമിതമായ ഡാറ്റയുടെ ഉപയോഗം പരമാവധി വർദ്ധിപ്പിക്കുന്നു

നിർദ്ദിഷ്ട അൽഗോരിതങ്ങൾ

3. ഒരു തീരുമാന വൃക്ഷം എങ്ങനെ പ്രവർത്തിക്കുന്നുവെന്ന് വിശദീകരിക്കുക.

പരിഹാരം: ഏകതാന ഗ്രൂപ്പുകൾ സൃഷ്ടിക്കുന്നതിന് ഫീച്ചർ മൂല്യങ്ങളെ അടിസ്ഥാനമാക്കി ഡിസിഷൻ ട്രീകൾ ആവർത്തിച്ച് ഡാറ്റ വിഭജിക്കുന്നു.

പ്രധാന ആശയങ്ങൾ: - റൂട്ട് നോഡ്: എല്ലാ ഡാറ്റയും ഉള്ള ആരംഭ പോയിന്റ് - ആന്തരിക നോഡുകൾ: ഫീച്ചർ പരിധികളെ അടിസ്ഥാനമാക്കിയുള്ള തീരുമാന പോയിന്റുകൾ - ലീഫ് നോഡുകൾ: അന്തിമ പ്രവചനങ്ങൾ (വർഗ്ഗീകരണം) അല്ലെങ്കിൽ മൂല്യങ്ങൾ (റിഗ്രഷൻ) - സ്പ്ലിറ്റിംഗ് മാനദണ്ഡം: ജിനി അശുദ്ധി (വർഗ്ഗീകരണം), വേരിയൻസ് റിഡക്ഷൻ (റിഗ്രഷൻ)

ഗുണങ്ങൾ: വ്യാഖ്യാനിക്കാവുന്ന, മിക്സഡ് ഡാറ്റാ തരങ്ങൾ കൈകാര്യം ചെയ്യുന്നു, ഫീച്ചർ സ്കെയിലിംഗ് ആവശ്യമില്ല പോരായ്മകൾ: ചെറിയ ഡാറ്റാ മാറ്റങ്ങളാൽ അമിതമായി ഫിറ്റിംഗിന് സാധ്യതയുള്ള, അസ്ഥിരത

4. ബാഗിംഗും ബൂസ്റ്റിംഗും തമ്മിലുള്ള വ്യത്യാസം എന്താണ്?

പരിഹാരം: - ബാഗിംഗ് (ബൂട്ട്സ്ട്രാപ്പ് അഗ്രഗേറ്റിംഗ്): റാൻഡം ഡാറ്റാ സബ്സെറ്റുകളിൽ ഒന്നിലധികം മോഡലുകൾ സൃഷ്ടിക്കുന്നു, ശരാശരി പ്രവചനങ്ങൾ. വ്യതിയാനം കുറയ്ക്കുന്നു, അമിതമായി പൊരുതുന്നു. ഉദാഹരണം: റാൻഡം ഫോറസ്റ്റ്.

- ബൂസ്റ്റിംഗ്: മോഡലുകൾ തുടർച്ചയായി പരിശീലിപ്പിക്കുന്നു, ഓരോന്നും മുമ്പത്തെ തെറ്റുകളിൽ ശ്രദ്ധ കേന്ദ്രീകരിക്കുന്നു. പക്ഷപാതം കുറയ്ക്കുന്നു, കൃത്യത മെച്ചപ്പെടുത്തുന്നു. ഉദാഹരണം: AdaBoost, XGBoost.

പ്രധാന വ്യത്യാസങ്ങൾ: - ബാഗിംഗ്: സമാന്തരം, വ്യതിയാനം കുറയ്ക്കുന്നു - ബൂസ്റ്റിംഗ്: തുടർച്ചയായി, പക്ഷപാതം കുറയ്ക്കുന്നു - ബാഗിംഗ്: സ്വതന്ത്ര മോഡലുകൾ - ബൂസ്റ്റിംഗ്: പിശകുകളിൽ നിന്ന് പഠിക്കുന്ന ആശ്രിത മോഡലുകൾ

SQL ചോദ്യങ്ങൾ

ബേസിക് എസ്ക്യുഎൽ

1. എംപ്ലോയീ ടേബിളിൽ നിന്ന് ഏറ്റവും ഉയർന്ന രണ്ടാമത്തെ ശമ്പളം കണ്ടെത്തുക.

പരിഹാരങ്ങൾ: '''SQL - രീതി 1: സബ്ക്വറി രണ്ടാമത്തേത്ഏറ്റവും ഉയർന്ന ശമ്പളം എന്ന നിലയിൽ മാക്സിമം (ശമ്പളം) തിരഞ്ഞെടുക്കുക ജീവനക്കാരനിൽ നിന്ന് എവിടെയാണ് ശമ്പളം

ഡാറ്റാ സയൻസ് അഭിമുഖ ചോദ്യങ്ങൾ: DS റോളുകൾക്കായുള്ള സമ്പൂർണ്ണ ഗൈഡ് (2026) | കർമ്മ സഖ

Yaman Khetan

Helpful Resources

Explore Related Topics

Take Action on Your Career

Ready to Build Your Perfect Resume?