Топ 25 въпроси за интервю за тестване на ETL & Отговори

Следват често задавани въпроси в интервюта за по-пресни, както и опитен ETL тестер и разработчик.

1) Какво е ETL?

В архитектурата за съхранение на данни ETL е важен компонент, който управлява данните за всеки бизнес процес. ETL означава „ Извличане, трансформиране и зареждане“ . Extract прави процеса на четене на данни от база данни. Transform преобразува данните във формат, който може да е подходящ за отчитане и анализ. Докато load извършва процеса на запис на данните в целевата база данни.

2) Обяснете какво включват тестовите операции на ETL?

ETL тестването включва

Проверете дали данните се трансформират правилно в съответствие с бизнес изискванията
Уверете се, че проектираните данни са заредени в хранилището на данни без никакви съкращения и загуба на данни
Уверете се, че приложението ETL отчита невалидни данни и заменя със стойности по подразбиране
Уверете се, че данните се зареждат в очаквания период от време, за да се подобри мащабируемостта и производителността

3) Споменете какви са видовете приложения за съхранение на данни и каква е разликата между извличането на данни и съхранението на данни?

Видовете приложения за съхранение на данни са

Обработка на информация
Аналитична обработка
Извличане на данни

Извличането на данни може да се определи като процес на извличане на скрита предсказваща информация от големи бази данни и интерпретиране на данните, докато съхранението на данни може да използва мина за данни за аналитична обработка на данните по-бързо. Съхранението на данни е процес на обединяване на данни от множество източници в едно общо хранилище

4) Какви са различните инструменти, използвани в ETL?

Поток за вземане на решения Cognos
Oracle Warehouse Builder
Бизнес обекти XI
Бизнес склад на SAS
SAS Enterprise ETL сървър

5) Какво е факт? Какви са видовете факти?

Това е централен компонент на многоизмерен модел, който съдържа мерките за анализ. Фактите са свързани с измерения.

Видовете факти са

Аддитивни факти
Полуадитивни факти
Факти без добавка

6) Обяснете какво представляват кубчетата и OLAP кубчетата?

Кубчетата са единици за обработка на данни, състоящи се от таблици с факти и измерения от хранилището на данни. Той осигурява многоизмерен анализ.

OLAP означава онлайн обработка на анализи, а OLAP кубът съхранява големи данни в многоизмерна форма за целите на отчитането. Състои се от факти, наречени мерки, категоризирани по измерения.

7) Обяснете какво е ниво на проследяване и какви са типовете?

Нивото на проследяване е количеството данни, съхранявани в регистрационните файлове. Нивото на проследяване може да бъде класифицирано в две Нормално и Многословно. Нормално ниво обяснява подробно нивото на проследяване, докато подробно обяснява нивата на проследяване на всеки ред.

8) Обяснете какво е Grain of Fact?

Зърнен факт може да се определи като ниво, на което се съхранява информацията за факта. Известна е още като фактическа гранулираност

9) Обяснете какво е безсмислена схема за факти и какво е Мерки?

Фактическа таблица без мерки е известна като Factless fact table. Той може да преглежда броя на настъпващите събития. Например, той се използва за записване на събитие като преброяване на служители във фирма.

Числовите данни, базирани на колони в таблица с факти, са известни като Мерки

10) Обяснете какво е трансформация?

Трансформацията е обект на хранилище, който генерира, модифицира или предава данни. Трансформацията бива два вида Активна и Пасивна

11) Обяснете използването на Lookup Transformation?

Преобразуването на справка е полезно за

Получаване на свързана стойност от таблица, като се използва стойност на колона
Актуализирайте бавно променящата се таблица с размери
Проверете дали записите вече съществуват в таблицата

12) Обяснете какво е разделяне, разделяне на хеш и разделяне на кръг?

За да се подобри производителността, транзакциите се подразделят, това се нарича Разделяне. Разделянето позволява на Informatica Server да създава множество връзки към различни източници

Видовете дялове са

Разделяне с кръг Робин:

Чрез informatica данните се разпределят равномерно между всички дялове
Във всеки дял, където броят на редовете за обработка е приблизително еднакъв, това разделяне е приложимо

Разделяне на хеш:

За целите на разделянето на ключове за групиране на данни между дялове, сървърът Informatica прилага хеш функция
Използва се, когато се гарантира, че трябва да се осигурят групите редове с един и същ ключ за разделяне в същия дял

13) Споменете какво е предимството на използването на DataReader Destination Adapter?

Предимството на използването на DataReader Destination Adapter е, че той попълва ADO набор от записи (състоящ се от записи и колони) в паметта и излага данните от задачата DataFlow чрез внедряване на интерфейса DataReader, така че друго приложение да може да консумира данните.

14) Използване на SSIS (SQL Server Integration Service) какви са възможните начини за актуализиране на таблицата?

За да актуализирате таблицата с помощта на SSIS, възможните начини са:

Използвайте SQL команда
Използвайте инсценираща маса
Използвайте кеша
Използвайте скриптова задача
Използвайте пълното име на базата данни за актуализиране, ако се използва MSSQL

15) В случай че имате не OLEDB (обект за свързване и вграждане на база данни) източник за търсене, какво бихте направили?

В случай, че имате не OLEBD източник за търсене, тогава трябва да използвате кеш за зареждане на данни и да го използвате като източник

16) В кой случай използвате динамичен кеш и статичен кеш в свързани и несвързани трансформации?

Динамичен кеш се използва, когато трябва да актуализирате основната таблица и бавно променящи се размери (SCD) тип 1
За плоски файлове се използва статичен кеш

17) Обяснете какви са разликите между Несвързано и Свързано търсене?

Свързано търсене	Несвързано търсене
Свързаното търсене участва в картографирането	- Използва се, когато се използва функция за търсене вместо преобразуване на израза по време на картографиране
Могат да бъдат върнати множество стойности	- Връща само един изходен порт
Той може да бъде свързан с друга трансформация и връща стойност	Друга трансформация не може да бъде свързана
За свързано търсене може да се използва статичен или динамичен кеш	Не е свързан като само статичен кеш
Свързаното търсене поддържа дефинирани от потребителя стойности по подразбиране	Несвързаното търсене не поддържа дефинирани от потребителя стойности по подразбиране
В Connected Lookup множество колони могат да бъдат върнати от същия ред или да бъдат вмъкнати в кеша за динамично търсене	Несвързаното търсене обозначава един връщащ порт и връща по една колона от всеки ред

18) Обяснете какво е изглед на източник на данни?

Изглед на източник на данни позволява да се дефинира релационната схема, която ще се използва в базите данни на услугите за анализ. Вместо директно от обекти с източник на данни, размерите и кубовете се създават от изгледите на източника на данни.

19) Обяснете каква е разликата между OLAP инструментите и ETL инструментите?

Разликата между ETL и OLAP инструмент е в това

Инструментът ETL е предназначен за извличане на данни от старите системи и зареждане в определена база данни с някакъв процес на почистване на данни.

Пример: Етап от данни, Informatica и др.

Докато OLAP е предназначен за отчитане в данните на OLAP, налични в многопосочен модел.

Пример: Бизнес обекти, Cognos и др.

20) Как можете да извлечете SAP данни, използвайки Informatica?

С опцията power connect извличате SAP данни, използвайки informatica
Инсталирайте и конфигурирайте инструмента PowerConnect
Импортирайте източника в Source Analyzer. Между Informatica и SAP Powerconnect действат като шлюз. Следващата стъпка е да се генерира ABAP код за картографиране, след което само informatica може да изтегли данни от SAP
За свързване и импортиране на източници от външни системи се използва Power Connect

21) Споменете каква е разликата между Power Mart и Power Center?

Център за захранване	Power Mart
Да предположим да обработим огромен обем данни	Да предположим, че ще обработим малък обем данни
Той поддържа ERP източници като SAP, хора, меки и т.н.	Той не поддържа ERP източници
Той поддържа локално и глобално хранилище	Той поддържа локално хранилище
Той преобразува локалното в глобално хранилище	Той няма спецификация за преобразуване на локално в глобално хранилище

22) Обяснете какво представлява площадката и каква е целта на тази сцена?

Постановката на данни е област, в която държите данните временни на сървъра на хранилището за данни. Постановката на данни включва следните стъпки

Извличане на данни и трансформация на данни (преструктуриране)
Трансформация на данни (почистване на данни, трансформация на стойност)
Присвояване на сурогатни ключове

23) Какво е автобусна схема?

За различните бизнес процеси за идентифициране на общите измерения се използва BUS схема. Той идва със съответстващи измерения, заедно със стандартизирано определение на информацията

24) Обяснете какво е прочистване на данни?

Пречистването на данни е процес на изтриване на данни от хранилището на данни. Той изтрива нежелани данни като редове с нулеви стойности или допълнителни интервали.

25) Обяснете какво представляват обектите на схемата?

Обектите на схемата са логическата структура, която директно се отнася до данните в базите данни. Обектите на схемата включват таблици, изгледи, синоними на последователности, индекси, клъстери, функционални пакети и връзки към база данни

26) Обяснете тези термини Session, Worklet, Mapplet и Workflow?

Mapplet: Той подрежда или създава набори от трансформация
Worklet: Той представлява специфичен набор от зададени задачи
Работен поток: Това е набор от инструкции, които казват на сървъра как да изпълнява задачи
Сесия: Това е набор от параметри, който казва на сървъра как да премести данните от източници към целта

Безплатно изтегляне на PDF: Въпроси и отговори за интервю за тестване на ETL