Следват често задавани въпроси на интервюта за работа за по-свежи, както и опитни Data Scientist.
1. Какво е Data Science?
Data Science е комбинация от алгоритми, инструменти и техника на машинно обучение, която ви помага да намерите често срещани скрити модели от дадените сурови данни.
2. Какво представлява логистичната регресия в Data Science?
Логистичната регресия се нарича още като логит модел. Това е метод за прогнозиране на бинарния резултат от линейна комбинация от предикторски променливи.
3. Назовете три вида отклонения, които могат да възникнат по време на вземане на проби
В процеса на вземане на проби има три вида отклонения, които са:
- Пристрастие при избора
- Под пристрастие на покритието
- Пристрастност към оцеляването
4. Обсъдете алгоритъма на дървото за вземане на решения
Дървото за вземане на решения е популярен контролиран алгоритъм за машинно обучение. Използва се главно за регресия и класификация. Позволява разбиването на набор от данни на по-малки подмножества. Дървото на решенията може да обработва както категорични, така и цифрови данни.
5. Какво представлява вероятността и вероятността за приоритет?
Предишната вероятност е делът на зависимата променлива в набора от данни, докато вероятността е вероятността да се класифицира даден наблюдател в присъствието на друга променлива.
6. Обяснете системите за препоръки?
Това е подклас от техники за филтриране на информация. Помага ви да предскажете предпочитанията или рейтингите, които потребителите могат да дадат на даден продукт.
7. Назовете три недостатъка на използването на линеен модел
Три недостатъка на линейния модел са:
- Допускането за линейност на грешките.
- Не можете да използвате този модел за двоични данни или да броите резултати
- Има много проблеми с преоборудването, които не може да реши
8. Защо трябва да извършите повторно вземане на проби?
Преизборката се извършва в по-долу дадени случаи:
- Оценка на точността на статистиката на извадката чрез произволно изтегляне с подмяна от набор от точки с данни или използване като подмножества на достъпни данни
- Замяна на етикети на точките с данни при извършване на необходимите тестове
- Проверка на модели чрез използване на произволни подмножества
9. Избройте библиотеките в Python, използвани за анализ на данни и научни изчисления.
- SciPy
- Панди
- Matplotlib
- NumPy
- SciKit
- Seaborn
10. Какво е анализ на мощността?
Анализът на мощността е неразделна част от експерименталния дизайн. Помага ви да определите размера на извадката, за да разберете ефекта на даден размер от кауза със специфично ниво на сигурност. Той също така ви позволява да разположите определена вероятност в ограничение на размера на извадката.
11. Обяснете съвместното филтриране
Съвместно филтриране, използвано за търсене на правилни модели чрез съвместни гледни точки, множество източници на данни и различни агенти.
12. Какво е пристрастие?
Пристрастието е грешка, въведена във вашия модел поради опростяването на алгоритъма за машинно обучение. "Това може да доведе до недостатъчно оборудване.
13. Обсъждане на „наивно“ в алгоритъм на наивния Байес?
Моделът на наивния Байесов алгоритъм се основава на теоремата на Байес. Той описва вероятността от събитие. Тя се основава на предварително познаване на условията, които могат да бъдат свързани с конкретното събитие.
14. Какво е линейна регресия?
Линейната регресия е метод за статистическо програмиране, при който резултатът от променлива „A“ се прогнозира от резултата на втора променлива „B“. B се означава като предикторска променлива, а A като критериална променлива.
15. Посочете разликата между очакваната стойност и средната стойност
Те не са много разлики, но и двата термина се използват в различен контекст. Като средна стойност обикновено се говори, когато обсъждате вероятностно разпределение, докато очакваната стойност се посочва в контекста на случайна променлива.
16. Каква е целта на провеждането на A / B тестване?
AB тестване, използвано за провеждане на произволни експерименти с две променливи, A и B. Целта на този метод за тестване е да открие промени в уеб страница, за да максимизира или увеличи резултата от стратегията.
17. Какво е ансамбно обучение?
Ансамбълът е метод за комбиниране на разнообразен набор от учащи заедно, за да импровизира върху стабилността и предсказуемата сила на модела. Два вида методи за обучение в ансамбъл са:
Торбичка
Методът на пакетиране ви помага да приложите подобни обучаващи се на малки популации. Помага ви да правите по-близки прогнози.
Повишаване
Подсилването е итеративен метод, който ви позволява да регулирате тежестта на наблюдението в зависимост от последната класификация. Повишаването намалява грешката на пристрастието и ви помага да изградите силни прогнозни модели.
18. Обяснете собствена стойност и собствен вектор
Собствените вектори са за разбиране на линейни трансформации. Изследователят на данни трябва да изчисли собствените вектори за ковариационна матрица или корелация. Собствените стойности са указанията заедно с използване на специфични актове на линейна трансформация чрез компресиране, обръщане или разтягане.
19. Дефинирайте термина кръстосана проверка
Кръстосаното валидиране е техника за валидиране за оценка на това как ще се обобщят резултатите от статистическия анализ за независим набор от данни. Този метод се използва в среди, където се прогнозира целта, и трябва да се прецени колко точно ще изпълни даден модел.
20. Обяснете стъпките за проект за анализ на данни
По-долу са важни стъпки, включени в проект за анализ:
- Разберете бизнес проблема
- Проучете данните и ги изучете внимателно.
- Подгответе данните за моделиране, като намерите липсващи стойности и трансформирате променливи.
- Започнете да пускате модела и анализирайте резултата от големите данни.
- Проверете модела с нов набор от данни.
- Внедрете модела и проследете резултата, за да анализирате работата на модела за определен период.
21. Обсъдете изкуствените невронни мрежи
Изкуствените невронни мрежи (ANN) са специален набор от алгоритми, които революционизираха машинното обучение. Помага ви да се адаптирате според променящия се вход. Така мрежата генерира възможно най-добрия резултат, без да препроектира критериите за изход.
22. Какво представлява размножаването на гърба?
Обратното размножаване е същността на обучението по невронни мрежи. Това е методът за настройка на тежестите на невронната мрежа зависи от степента на грешки, получена през предходната епоха. Правилната настройка на помага ви помага да намалите процента грешки и да направите модела надежден, като увеличите обобщението му.
23. Какво е случайна гора?
Случайната гора е метод за машинно обучение, който ви помага да изпълнявате всички видове задачи за регресия и класификация. Също така се използва за лечение на липсващи стойности и по-далечни стойности.
24. Каква е важността на пристрастието към селекцията?
Пристрастието при подбора се появява, когато не е постигната конкретна рандомизация, докато се избират индивиди или групи или данни за анализ. Това предполага, че дадената извадка не представлява точно популацията, която е била предназначена за анализ.
25. Какво представлява методът на групиране на K-средства?
К-клъстерирането е важен метод за учене без надзор. Това е техниката за класифициране на данни с помощта на определен набор от клъстери, която се нарича K клъстери. Той е разположен за групиране, за да се открие сходството в данните.
26. Обяснете разликата между Data Science и Data Analytics
Учените по данни трябва да разделят данните, за да извлекат ценна информация, която анализаторът на данни може да приложи към реални бизнес сценарии. Основната разлика между двете е, че учените по данни имат повече технически познания от бизнес анализаторите. Освен това те не се нуждаят от разбиране за бизнеса, необходим за визуализация на данните.
27. Обяснете р-стойността?
Когато провеждате тест за хипотеза в статистиката, р-стойността ви позволява да определите силата на вашите резултати. Това е числово число между 0 и 1. Въз основа на стойността ще ви помогне да обозначите силата на конкретния резултат.
28. Дефинирайте термина дълбоко обучение
Дълбокото обучение е подвид на машинното обучение. Той се занимава с алгоритми, вдъхновени от структурата, наречена изкуствени невронни мрежи (ANN).
29. Обяснете метода за събиране и анализ на данни, за да използвате социалните медии за прогнозиране на метеорологичното състояние.
Можете да събирате данни в социалните медии, като използвате Facebook, Twitter, API на Instagram. Например за високочестотния говорител можем да изградим характеристика от всеки туит като дата на туитове, ретуитове, списък с последователи и др. След това можете да използвате модел на многовариантни часови редове, за да предскажете метеорологичното състояние.
30. Кога трябва да актуализирате алгоритъма в науката за данни?
Трябва да актуализирате алгоритъм в следната ситуация:
- Искате вашият модел на данни да се развива като потоци от данни, използващи инфраструктура
- Основният източник на данни се променя
Ако е нестационарна
31. Какво е нормално разпределение
Нормалното разпределение е набор от непрекъсната променлива, разпространена през нормална крива или под формата на крива на камбана. Можете да го разглеждате като непрекъснато разпределение на вероятностите, което е полезно в статистиката. Полезно е да анализираме променливите и техните взаимоотношения, когато използваме нормалната крива на разпределение.
32. Кой език е най-подходящ за анализ на текст? R или Python?
Python ще е по-подходящ за анализ на текст, тъй като се състои от богата библиотека, известна като панди. Тя ви позволява да използвате инструменти за анализ на данни на високо ниво и структури от данни, докато R не предлага тази функция.
33. Обяснете ползите от използването на статистически данни от Data Scientist
Статистиката помага на учения за данни да получи по-добра представа за очакванията на клиента. Използвайки статистическия метод Учените за данни могат да получат знания относно интереса на потребителите, поведението, ангажираността, задържането и др. Той също така ви помага да изградите мощни модели на данни, за да потвърдите определени изводи и прогнози.
34. Назовете различни видове Рамки за дълбоко обучение
- Питорх
- Познавателен инструментариум на Microsoft
- TensorFlow
- Кафе
- Верига
- Керас
35. Обяснете Auto-Encoder
Автокодерите са учебни мрежи. Помага ви да трансформирате входовете в изходи с по-малък брой грешки. Това означава, че ще получите максимално близо до изхода.
36. Определете машината на Boltzmann
Машините на Boltzmann са прост алгоритъм за обучение. Той ви помага да откриете онези функции, които представляват сложни закономерности в данните за обучение. Този алгоритъм ви позволява да оптимизирате теглата и количеството за дадения проблем.
37. Обяснете защо почистването на данните е от съществено значение и кой метод използвате, за да поддържате чисти данни
Мръсните данни често водят до неправилна вътрешност, което може да навреди на перспективата за всяка организация. Например, ако искате да проведете целенасочена маркетингова кампания. Нашите данни обаче неправилно ви казват, че конкретен продукт ще бъде търсен от вашата целева аудитория; кампанията ще се провали.
38. Какво е изкривено разпределение и равномерно разпределение?
Косото разпределение се случва, когато ако данните се разпределят от която и да е страна на графиката, докато еднородното разпределение се идентифицира, когато данните се разпространяват, е равно на диапазона.
39. Когато недостигът се появява в статичен модел?
Недостигането се случва, когато статистически модел или алгоритъм за машинно обучение не е в състояние да улови основната тенденция на данните.
40. Какво е учебно усилване?
Подсилващото обучение е учебен механизъм за това как да се съпоставят ситуациите с действията. Крайният резултат трябва да ви помогне да увеличите бинарния сигнал за награда. При този метод на учащия не се казва кое действие да предприеме, а вместо това трябва да открие кое действие предлага максимална награда. Тъй като този метод се основава на механизма за награда / наказание.
41. Назовете често използваните алгоритми.
Четири най-често използвани алгоритъма на Dataentist са:
- Линейна регресия
- Логистична регресия
- Случайна гора
- KNN
42. Какво е прецизност?
Прецизността е най-често използваният показател за грешка е n механизъм за класификация. Неговият диапазон е от 0 до 1, където 1 представлява 100%
43. Какво представлява едномерният анализ?
Анализ, който се прилага за нито един атрибут в даден момент, е известен като едномерен анализ. Boxplot е широко използван, еднофамилен модел.
44. Как преодолявате предизвикателствата пред вашите констатации?
За да се преодолеят предизвикателствата на моето намиране, трябва да се насърчи дискусията, да се демонстрира лидерство и зачитане на различни варианти.
45. Обяснете техниката на клъстерното вземане на проби в науката за данни
Метод за клъстерно вземане на проби се използва, когато е предизвикателство да се изследва разпределението на целевата популация и не може да се приложи проста произволна извадка.
46. Посочете разликата между комплект за проверка и тест
Комплект за валидиране, който най-вече се разглежда като част от обучителния набор, тъй като се използва за избор на параметри, което ви помага да избегнете прекалено монтиране на изградения модел.
Докато тест набор се използва за тестване или оценка на ефективността на обучен модел за машинно обучение.
47. Обяснете понятието биномна формула на вероятността?
„Биномиалното разпределение съдържа вероятностите за всеки възможен успех при N опити за независими събития, които имат вероятност да се случат π.“
48. Какво е изземване?
Изземването е съотношение на истинския положителен процент спрямо действителния положителен процент. Тя варира от 0 до 1.
49. Обсъдете нормалното разпределение
Нормалното разпределение, равномерно разпределено като такова, средната стойност, медиана и режим са равни.
50. Докато работите върху набор от данни, как можете да изберете важни променливи? Обяснете
Можете да използвате следните методи за избор на променлива:
- Премахнете корелираните променливи, преди да изберете важни променливи
- Използвайте линейна регресия и изберете променливи, които зависят от тези p стойности.
- Използвайте селекция назад, напред и стъпка наред
- Използвайте Xgboost, Random Forest и начертайте диаграма с променлива важност.
- Измерете печалбата на информация за дадения набор от функции и изберете съответно най-добрите n функции.
51. Възможно ли е да се улови корелацията между непрекъснатата и категориалната променлива?
Да, можем да използваме анализ на техниката на ковариацията, за да уловим връзката между непрекъснатите и категориалните променливи.
52. Третирането на категориална променлива като непрекъсната променлива би довело до по-добър предсказващ модел?
Да, категоричната стойност трябва да се разглежда като непрекъсната променлива само когато променливата е с пореден характер. Така че това е по-добър прогнозен модел.