Тук са често задавани въпроси за интервю за инженер на данни за по-свежи, както и опитни кандидати, за да получат подходящата работа.
1) Обяснете инженеринг на данни.
Инженерингът на данни е термин, използван в големите данни. Той се фокусира върху прилагането на събирането на данни и изследванията. Данните, генерирани от различни източници, са просто сурови данни. Инженерингът на данни помага да конвертирате тези сурови данни в полезна информация.
2) Какво е моделиране на данни?
Моделирането на данни е метод за документиране на сложен софтуерен дизайн като диаграма, така че всеки да може лесно да разбере. Това е концептуално представяне на обекти от данни, които са свързани между различни обекти от данни и правилата.
3) Избройте различни видове схеми за проектиране в Моделирането на данни
В моделирането на данни има основно два типа схеми: 1) схема със звезда и 2) схема на снежинка.
4) Разграничаване между структурирани и неструктурирани данни
Следва разлика между структурирани и неструктурирани данни:
Параметър | Структурирани данни | Неструктурирани данни |
Съхранение | СУБД | Неуправлявани файлови структури |
Стандартен | ADO.net, ODBC и SQL | STMP, XML, CSV и SMS |
Инструмент за интеграция | ELT (извличане, преобразуване, зареждане) | Ръчно въвеждане на данни или групова обработка, която включва кодове |
мащабиране | Мащабирането на схемата е трудно | Мащабирането е много лесно. |
5) Обяснете всички компоненти на приложението Hadoop
Следват компонентите на приложението Hadoop:
- Hadoop Common: Това е общ набор от помощни програми и библиотеки, които се използват от Hadoop.
- HDFS: Това приложение на Hadoop е свързано с файловата система, в която се съхраняват данните на Hadoop. Това е разпределена файлова система с висока честотна лента.
- Hadoop MapReduce: Базиран е според алгоритъма за осигуряване на мащабна обработка на данни.
- Hadoop YARN: Използва се за управление на ресурси в рамките на клъстера Hadoop. Може да се използва и за планиране на задачи за потребители.
6) Какво е NameNode?
Той е в центъра на HDFS. Той съхранява данни на HDFS и проследява различни файлове в клъстерите. Тук действителните данни не се съхраняват. Данните се съхраняват в DataNodes.
7) Определете Hadoop стрийминг
Това е помощна програма, която позволява създаването на картата и намалява работните места и ги изпраща в определен клъстер.
8) Каква е пълната форма на HDFS?
HDFS означава Hadoop Distributed File System.
9) Дефинирайте Block and Block Scanner в HDFS
Блоковете са най-малката единица на файл с данни. Hadoop автоматично разделя огромни файлове на малки парчета.
Block Scanner проверява списъка с блокове, представени в DataNode.
10) Какви стъпки се случват, когато Block Scanner открие повреден блок с данни?
Следват стъпките, които се случват, когато Block Scanner открие повреден блок с данни:
1) На първо място, когато Block Scanner открие повреден блок с данни, DataNode докладва на NameNode
2) NameNode стартира процеса на създаване на нова реплика, използвайки реплика на повредения блок.
3) Броят на репликациите на правилните реплики се опитва да съвпадне с фактора на репликация. Ако съвпадението е намерено, повреденият блок данни няма да бъде изтрит.
11) Посочете две съобщения, които NameNode получава от DataNode?
Има две съобщения, които NameNode получава от DataNode. Те са 1) Блок отчет и 2) Сърдечен ритъм.
12) Избройте различни XML конфигурационни файлове в Hadoop?
В Hadoop има пет XML конфигурационни файла:
- Mapred-сайт
- Основен сайт
- HDFS-сайт
- Прежда-сайт
13) Кои са четири V на големи данни?
Четири V на големи данни са:
- Скорост
- Разнообразие
- Сила на звука
- Достоверност
14) Обяснете характеристиките на Hadoop
Важни характеристики на Hadoop са:
- Това е рамка с отворен код, която е достъпна безплатно.
- Hadoop е съвместим с много видове хардуер и е лесен за достъп до нов хардуер в рамките на определен възел.
- Hadoop поддържа по-бързо разпределена обработка на данни.
- Той съхранява данните в клъстера, който е независим от останалите операции.
- Hadoop позволява създаването на 3 реплики за всеки блок с различни възли.
15) Обяснете основните методи на Редуктор
- setup (): Използва се за конфигуриране на параметри като размера на входните данни и разпределения кеш.
- cleanup (): Този метод се използва за почистване на временни файлове.
- reduce (): Това е сърцето на редуктора, което се извиква веднъж на клавиш със съответната намалена задача
16) Какво е съкращението на COSHH?
Съкращението на COSHH е График, базиран на класификация и оптимизация за хетерогенни системи Hadoop.
17) Обяснете схемата на звездата
Star Schema или Star Join Schema е най-простият тип схема на Data Warehouse. Известна е като звездна схема, защото нейната структура е като звезда. В схемата на звездата центърът на звездата може да има една таблица с факти и множество свързани таблици с измерения. Тази схема се използва за заявки за големи набори от данни.
18) Как да разположим решение за големи данни?
Следвайте следните стъпки, за да внедрите решение за големи данни.
1) Интегрирайте данни, използвайки източници на данни като RDBMS, SAP, MySQL, Salesforce
2) Съхранявайте извлечени данни в базата данни NoSQL или HDFS.
3) Внедрете решение за големи данни, използвайки рамки за обработка като Pig, Spark и MapReduce.
19) Обяснете FSCK
Проверка на файлова система или FSCK е команда, използвана от HDFS. Командата FSCK се използва за проверка на несъответствия и проблеми във файла.
20) Обяснете схемата на снежинката
Схемата на снежинката е продължение на звездна схема и добавя допълнителни размери. Тя е така наречена снежинка, защото нейната диаграма прилича на снежинка. Таблиците с измерения са нормализирани, което разделя данните в допълнителни таблици.
21) Разграничете схемата на звезда и снежинка
Звезда | Схема SnowFlake |
Йерархиите на измеренията се съхраняват в таблица с размери. | Всяка йерархия се съхранява в отделни таблици. |
Шансовете за излишък на данни са високи | Шансовете за излишък на данни са ниски. |
Той има много прост дизайн на DB | Той има сложен DB дизайн |
Осигурете по-бърз начин за обработка на куба | Обработката на куба е бавна поради сложното съединение. |
22) Обяснете Hadoop разпределена файлова система
Hadoop работи с мащабируеми разпределени файлови системи като S3, HFTP FS, FS и HDFS. Разпределената файлова система Hadoop е създадена във файловата система Google. Тази файлова система е проектирана по начин, който може лесно да работи на голям клъстер на компютърната система.
23) Обяснете основните отговорности на инженер по данни
Инженерите на данни имат много отговорности. Те управляват системата източник на данни. Инженерите на данни опростяват сложната структура на данните и предотвратяват редупликацията на данни. Много пъти те също осигуряват ELT и трансформация на данни.
24) Каква е пълната форма на ПРЕЖДА?
Пълната форма на преждата е още един преговарящ за ресурси.
25) Избройте различни режими в Hadoop
Режимите в Hadoop са 1) Самостоятелен режим 2) Псевдо разпределен режим 3) Напълно разпределен режим.
26) Как да постигнем сигурност в Hadoop?
Изпълнете следните стъпки, за да постигнете сигурност в Hadoop:
1) Първата стъпка е да защитите канала за удостоверяване на клиента към сървъра. Предоставете на клиента печат във времето.
2) Във втората стъпка клиентът използва получената отметка за време, за да поиска TGS за билет за услуга.
3) В последната стъпка клиентът използва билет за услуга за самоудостоверяване до определен сървър.
27) Какво представлява Heartbeat в Hadoop?
В Hadoop NameNode и DataNode комуникират помежду си. Heartbeat е сигналът, изпращан от DataNode до NameNode редовно, за да покаже присъствието му.
28) Разграничаване между NAS и DAS в Hadoop
NAS | DAS |
Капацитетът за съхранение е 10 9 до 10 12 байта. | Капацитетът за съхранение е 10 9 байта. |
Разходите за управление на GB са умерени. | Разходите за управление на GB са високи. |
Предавайте данни чрез Ethernet или TCP / IP. | Предавайте данни чрез IDE / SCSI |
29) Избройте важни полета или езици, използвани от инженера на данни
Ето няколко полета или езици, използвани от инженера на данни:
- Вероятност, както и линейна алгебра
- Машинно обучение
- Анализ и регресия на тенденциите
- Hive QL и SQL бази данни
30) Какво представляват големите данни?
Това е голямо количество структурирани и неструктурирани данни, които не могат лесно да бъдат обработени от традиционните методи за съхранение на данни. Инженерите на данни използват Hadoop за управление на големи данни.
31) Какво представлява FIFO планирането?
Това е алгоритъм за планиране на Hadoop Job. В този график на FIFO репортер избира работни места от работна опашка, първо най-старата работа.
32) Споменете номерата на портовете по подразбиране, на кои проследяващи задачи, NameNode и проследяващи задачи се изпълняват в Hadoop
Номерата на портовете по подразбиране, на които проследяващият задачи, NameNode и проследяващият задачи се изпълняват в Hadoop, са както следва:
- Проследяването на задачи работи на порт 50060
- NameNode работи на порт 50070
- Job Tracker работи на порт 50030
33) Как да деактивирам Block Scanner на HDFS Data Node
За да деактивирате Block Scanner на HDFS Data Node, задайте dfs.datanode.scan.period.hours на 0.
34) Как да определим разстоянието между два възела в Hadoop?
Разстоянието е равно на сумата от разстоянието до най-близките възли. Методът getDistance () се използва за изчисляване на разстоянието между два възела.
35) Защо да използваме стоков хардуер в Hadoop?
Хардуерът за стоки е лесен за получаване и е достъпен. Това е система, която е съвместима с Windows, MS-DOS или Linux.
36) Определете коефициента на репликация в HDFS
Коефициентът на репликация е общ брой реплики на файл в системата.
37) Какви данни се съхраняват в NameNode?
Namenode съхранява метаданните за HDFS като информация за блокове и информация за пространство от имена.
38) Какво имаш предвид под осведоменост за багажник?
В клъстер Haddop Namenode използва Datanode, за да подобри мрежовия трафик, докато чете или записва всеки файл, който е по-близо до близкия багажник, за да чете или пише заявка. Namenode поддържа идентификационния номер на стелажа на всеки DataNode, за да постигне информация за багажника. Тази концепция се нарича Rack Awareness in Hadoop.
39) Какви са функциите на Secondary NameNode?
Следват функциите на Secondary NameNode:
- FsImage, който съхранява копие на EditLog и FsImage файл.
- Срив на NameNode: Ако NameNode се срине, тогава FsImage на Secondary NameNode може да се използва за пресъздаване на NameNode.
- Checkpoint: Използва се от Secondary NameNode, за да потвърди, че данните не са повредени в HDFS.
- Актуализация: Той автоматично актуализира файла EditLog и FsImage. Помага да се поддържа актуализиран файл FsImage на Secondary NameNode.
40) Какво се случва, когато NameNode не работи и потребителят изпрати нова работа?
NameNode е единичната точка на отказ в Hadoop, така че потребителят не може да изпрати нова работа, не може да изпълни. Ако NameNode не работи, тогава заданието може да се провали, поради това потребителят трябва да изчака NameNode да се рестартира, преди да изпълни която и да е работа.
41) Кои са основните фази на редуктора в Hadoop?
Има три основни фази на редуктор в Hadoop:
1. Разбъркване: Тук Reducer копира изхода от Mapper.
2. Сортиране: При сортиране Hadoop сортира входа към Редуктор, използвайки същия ключ.
3. Намаляване: В тази фаза изходните стойности, свързани с ключ, се намаляват, за да консолидират данните в крайния изход.
42) Защо Hadoop използва Context object?
Hadoop framework използва Context обект с класа Mapper, за да взаимодейства с останалата система. Контекстният обект получава подробности за конфигурацията на системата и работа в своя конструктор.
Използваме обект Context, за да предадем информацията в методите setup (), cleanup () и map (). Този обект предоставя жизненоважна информация по време на операциите с картата.
43) Определете Combiner в Hadoop
Това е незадължителна стъпка между Map и Reduce. Combiner взема изхода от функцията Map, създава двойки ключови стойности и подава на Hadoop Reducer. Задачата на Combiner е да обобщи крайния резултат от Map в обобщени записи с идентичен ключ.
44) Какъв е коефициентът на репликация по подразбиране, наличен в HDFS Какво показва?
Коефициентът на репликация по подразбиране в наличния в HDFS е три. Фактор на репликация по подразбиране показва, че ще има три реплики на всяка информация.
45) Какво искаш да кажеш Местоположение на данни в Hadoop?
В системата за големи данни размерът на данните е огромен и затова няма смисъл да се преместват данни в мрежата. Сега Hadoop се опитва да премести изчисленията по-близо до данните. По този начин данните остават локални за съхраненото място.
46) Определете балансьор в HDFS
В HDFS балансьорът е администратор, използван от администраторския персонал за повторно балансиране на данни в DataNodes и премества блокове от прекалено използвани към недостатъчно използвани възли.
47) Обяснете безопасен режим в HDFS
Това е режим само за четене на NameNode в клъстер. Първоначално NameNode е в Safemode. Той предотвратява писането във файлова система в Safemode. Понастоящем той събира данни и статистически данни от всички DataNodes.
48) Какво е значението на разпределения кеш в Apache Hadoop?
Hadoop има полезна помощна функция, така наречения разпределен кеш, която подобрява производителността на задачите чрез кеширане на файловете, използвани от приложенията. Приложението може да посочи файл за кеша, използвайки JobConf конфигурация.
Hadoop framework прави реплика на тези файлове на възлите, които трябва да бъдат изпълнени. Това се прави преди изпълнението на задачата да започне. Разпределеният кеш поддържа разпространението на файлове само за четене, както и на ципове и буркани.
49) Какво представлява Metastore in Hive?
Той съхранява схемата, както и местоположението на таблицата на кошер.
Таблицата на кошерите определя, съпоставяния и метаданни, които се съхраняват в Metastore. Това може да се съхранява в RDBMS, поддържани от JPOX.
50) Какво означават под SerDe в Hive?
SerDe е кратко име за сериализатор или десериализатор. В Hive, SerDe позволява да четете данни от таблицата и да записвате в определено поле във всеки формат, който искате.
51) Списък на компонентите, налични в модела данни на Hive
В модела на данни на Hive има следните компоненти:
- Маси
- Прегради
- Кофи
52) Обяснете използването на Hive в екосистемата Hadoop.
Hive осигурява интерфейс за управление на данните, съхранявани в екосистемата на Hadoop. Hive се използва за картографиране и работа с HBase таблици. Заявките за кошери се преобразуват в задания MapReduce, за да се скрие сложността, свързана със създаването и изпълнението на задачите MapReduce.
53) Списък с различни сложни типове данни / събиране се поддържат от Hive
Hive поддържа следните сложни типове данни:
- Карта
- Структура
- Масив
- Съюз
54) Обяснете как се използва .hiverc файл в Hive?
В Hive, .hiverc е файлът за инициализация. Този файл първоначално се зарежда, когато стартираме интерфейс на командния ред (CLI) за Hive. Можем да зададем началните стойности на параметрите във .hiverc файл.
55) Възможно ли е да създадете повече от една таблица в Hive за един файл с данни?
Да, можем да създадем повече от една схема на таблица за файл с данни. Hive записва схема в Hive Metastore. Въз основа на тази схема можем да извлечем различни резултати от същите данни.
56) Обяснете различни реализации на SerDe, налични в Hive
В Hive има много реализации на SerDe. Можете също да напишете своя собствена реализация на SerDe. Следват някои известни реализации на SerDe:
- OpenCSVSerde
- RegexSerDe
- Разграничен JSONSerDe
- ByteStreamTypedSerDe
57) Списък на функции за генериране на таблици, налични в Hive
Следва списък с функции за генериране на таблици:
- Explode (масив)
- JSON_tuple ()
- Стек ()
- Explode (карта)
58) Какво е изкривена маса в кошера?
Наклонената таблица е таблица, която по-често съдържа стойности на колони. В Hive, когато посочим таблица като SKEWED по време на създаването, изкривените стойности се записват в отделни файлове, а останалите стойности отиват в друг файл.
59) Избройте обекти, създадени чрез оператор create в MySQL.
Обектите, създадени чрез инструкция create в MySQL, са както следва:
- База данни
- Индекс
- Таблица
- Потребител
- Процедура
- Задействане
- Събитие
- Изглед
- Функция
60) Как да видя структурата на базата данни в MySQL?
За да видите структурата на базата данни в MySQL, можете да използвате
Команда DESCRIBE. Синтаксисът на тази команда е DESCRIBE Име на таблицата ;.
61) Как да търся конкретен низ в колоната на таблицата MySQL?
Използвайте оператора на регулярни изрази, за да търсите String в колоната MySQL. Тук можем също да дефинираме различни видове регулярни изрази и да търсим използването на регулярни изрази.
62) Обяснете как анализът на данните и големите данни могат да увеличат приходите на компанията?
Следват начините, по които анализът на данните и големите данни могат да увеличат приходите на компанията:
- Използвайте данните ефективно, за да сте сигурни, че растежът на бизнеса.
- Увеличете стойността на клиента.
- Превръщайки се в аналитични за подобряване на прогнозите за нивото на персонала.
- Намаляване на производствените разходи на организациите.