Топ 88 въпроси и отговори за интервю за моделиране на данни

Anonim

Ето въпроси за интервю за моделиране на данни за по-свежи, както и опитни кандидати.

1) Какво представлява моделирането на данни?

Моделирането на данни е процесът на създаване на модел за съхранение на данните в база данни. Това е концептуално представяне на обектите от данни, асоциацията между различни обекти на данни и правилата.

2) Обяснете различни видове модели на данни

Има главно три различни типа модели на данни:

Концептуално: Концептуалният модел на данни определя какво трябва да съдържа системата. Този модел обикновено се създава от заинтересовани страни в бизнеса и архитекти на данни. Целта е да се организират, обхванат и дефинират бизнес концепции и правила.

Логично: Определя как системата трябва да бъде внедрена независимо от СУБД. Този модел обикновено се създава от архитекти на данни и бизнес анализатори. Целта е да се разработи техническа карта на правила и структури от данни.

Физически: Този модел на данни описва как системата ще бъде внедрена с помощта на специфична система на СУБД. Този модел обикновено се създава от DBA и разработчици. Целта е действителното внедряване на базата данни.

3) Обяснете таблицата с факти и факти

Фактът представлява количествени данни. Например нетната сума, която се дължи. Фактическата таблица съдържа цифрови данни, както и външни ключове от таблици с размери.

4) Избройте различни схеми за проектиране при моделиране на данни

Има два различни типа схеми за моделиране на данни: 1) звездна схема и 2) схема на снежинка

5) Кога трябва да помислите за денормализация?

Денормализацията се използва, когато има голямо участие на таблицата при извличане на данни. Използва се за изграждане на хранилище за данни.

6) Обяснете измерение и атрибут

Размерите представляват качествени данни. Например продукт, клас, план и др. Таблицата с измерения има текстови или описателни атрибути. Например категорията на продукта и името на продукта са два атрибута на таблицата с измерения на продукта.

7) Кой е фактът, по-малко факт?

Факт по-малко факт е таблица без измерване на факти. Той съдържа само ключовете за измерение.

8) Какво представлява анализът в паметта?

Анализът в паметта е процес на кеширане на базата данни в RAM.

9) Каква е разликата между OLTP и OLAP?

OLTP OLAP
OLTP е система за онлайн транзакции. OLAP е онлайн анализ и процес на извличане на данни.
Характеризира се с голям брой кратки онлайн транзакции. Характеризира се с голям обем данни.
OLTP използва традиционна СУБД. OLAP използва хранилище за данни.
Таблиците в базата данни OLTP са нормализирани. Таблиците в OLAP не са нормализирани.
Времето за реакция е в милисекунда. Времето за реакция е в секунда до минути.
OLTP е предназначен за бизнес операции в реално време. OLAP е предназначен за анализ на бизнес мерките по категории и атрибути.

10) Какво е маса?

Колекцията от редове и колони се нарича таблица. Всяка колона има тип данни. Таблицата съдържа свързани данни в табличен формат.

11) Какво е колона?

Колона или поле е вертикална подредба на данни, които съдържат свързана информация.

12) Определете рядкостта на данните

Разредеността на данните е термин, използван за това колко данни имате за обект / измерение на модела.

13) Какво представлява съставният първичен ключ?

Композитният първичен ключ се отнася до случая, когато повече от една колона на таблица се използва като част от първичния ключ.

14) Какво е първичен ключ?

Първичен ключ е колона или група колони, които неравномерно идентифицират всеки ред в таблицата. Стойността на първичния ключ не трябва да е нула. Всяка таблица трябва да съдържа един първичен ключ.

15) Обяснете външния ключ

Външният ключ е група атрибути, която се използва за свързване на родителска и дъщерна таблица. Стойността на колоната с външен ключ, която е налична в дъщерната таблица, се отнася към стойността на първичния ключ в родителската таблица.

16) Какво представляват метаданните?

Метаданните описват данните за данните. Той показва какъв тип данни всъщност се съхраняват в системата на базата данни.

17) Какво е data mart?

Data mart е съкратена версия на хранилище за данни и е предназначена за използване от определен отдел, звено или група потребители в организацията. Например, маркетингови продажби, човешки ресурси или финанси.

18) Какво е OLTP?

Обработката на онлайн транзакции, известна накратко като OLTP, поддържа ориентирано към транзакции приложение в 3-степенна архитектура. OLTP администрира ежедневната транзакция на компания или организация.

19) Какви са примерите на системата OLTP?

Примери за OLTP система са:

  • Изпращане на текстово съобщение
  • Добавете книга в кошницата
  • Онлайн резервация на самолетни билети
  • Онлайн банкиране
  • Вписване на поръчка

20) Какво е ограничение за проверка?

Ограничението за проверка се използва за проверка на диапазон от стойности в колона.

21) Избройте видовете нормализация?

Видовете нормализации са: 1) първа нормална форма, 2) втора нормална форма, 3) трети нормални форми, 4) boyce-codd четвърта и 5) пета нормални форми.

22) Какво представлява инженерингът на пренос на данни?

Форвард инженеринг е технически термин, използван за описание на процеса на автоматично преобразуване на логически модел във физически инструмент.

23) Какво е PDAP?

Това е куб за данни, който съхранява данни като обобщение. Помага на потребителя да анализира данните бързо. Данните в PDAP се съхраняват по начин, по който отчитането може да бъде направено с лекота.

24) Обяснете дизайна на базата данни на схемата за снежна люспа

Схема на снежинка е подреждане на таблица с измерения и таблица с факти. Като цяло и двете таблици се разбиват допълнително на таблици с повече измерения.

25) Обяснете услугата за анализ

Услугата за анализ дава комбиниран изглед на данните, които се използват при извличане на данни или OLAP.

26) Какво е алгоритъм за групиране на последователности?

Алгоритъмът за групиране на последователности събира пътища, които са сходни или свързани помежду си, и последователности от данни, които имат събития.

27) Какво представляват дискретни и непрекъснати данни?

Дискретни данни са крайни данни или дефинирани данни. Например, пол, телефонни номера. Непрекъснатите данни са данни, които се променят непрекъснато и подредено. Например, възраст.

28) Какъв е алгоритъмът от времеви редове?

Алгоритъмът за времеви редове е метод за прогнозиране на непрекъснати стойности на данните в таблицата. Например, изпълнение Един служител може да прогнозира печалбата или влиянието.

29) Какво е бизнес разузнаване?

BI (Business Intelligence) е набор от процеси, архитектури и технологии, които превръщат суровите данни в значима информация, която движи печеливши бизнес действия. Това е набор от софтуер и услуги за трансформиране на данните в разумна информация и знания.

30) Какво е битов картографиран индекс?

Растерните индекси са специален тип индекс на база данни, който използва растерни карти (битови масиви), за да отговори на заявки чрез изпълнение на битови операции.

31) Обяснете подробно складирането на данни

Съхранението на данни е процес за събиране и управление на данни от различни източници. Той предоставя смислена информация за бизнес предприятията. Съхранението на данни обикновено се използва за свързване и анализ на данни от разнородни източници. Това е ядрото на BI системата, която е изградена за анализ на данни и отчитане.

32) Какво е измерение на боклука?

Нежеланото измерение комбинира две или повече свързани мощности в едно измерение. Обикновено това са логически или флагови стойности.

33) Обяснете схемата за данни

Схемата за данни е схематично представяне, което илюстрира връзките и структурите на данните.

34) Обяснете честотата на събиране на данни

Честотата на събиране на данни е скоростта на събиране на данните. Преминава и през различни етапи. Тези етапи са: 1) извличане от различни източници, 3) трансформиране, 4) прочистване и 5) съхраняване.

35) Какво представлява мощността на базата данни?

Кардиналността е числов атрибут на връзката между две обекти или набори от обекти.

36) Какви са различните видове кардинални отношения?

Различните видове ключови кардинални отношения са:

  • Взаимоотношения един към един
  • Взаимоотношения един към много
  • Връзки много към един
  • Връзки много към много

37) Определете критичния фактор за успех и избройте четирите му типа

Критичният фактор за успех е благоприятен резултат от всяка дейност, необходима на организацията да постигне целта си.

Четири типа критичен фактор за успех са:

  • Индустриални CSF
  • Стратегически CSF
  • Екологични CSF
  • Временни CSF

38) Какво представлява извличането на данни?

Извличането на данни е мултидисциплинарно умение, което използва машинно обучение, статистика, AI и технология на бази данни. Всичко е свързано с откриването на неподозирани / неизвестни преди връзки между данните.

39) Каква е разликата между схема на звезда и схема на снежинка?

Схема на звездите Схема на снежинка
Йерархиите за размерите се съхраняват в таблицата с размери. Йерархиите са разделени на отделни таблици.
Той съдържа таблица с факти, заобиколена от таблици с размери. Една таблица с факти, заобиколена от таблица с размери, която от своя страна е заобиколена от таблица с размери
В звездна схема само едно съединение създава връзката между таблицата с факти и всякакви таблици с измерения. Схема на снежинка изисква много съединения за извличане на данните.
Той има прост дизайн на база данни Той има сложен дизайн на база данни
Денормализираната структура на данните и заявката също се изпълняват по-бързо. Нормализирана структура на данните.
Високо ниво на излишък на данни Излишък на данни от много ниско ниво
Предлага заявки с по-висока ефективност, използващи оптимизация на заявките Star Join Query. Масите могат да бъдат свързани с множество измерения. Схемата Snow Flake е представена от централизирана таблица с факти, която е малко вероятно да е свързана с множество измерения.

40) Какво е идентифициране на връзката?

Идентифицирането на връзки на обекти в СУБД се използва за идентифициране на връзка между две обекти: 1) силен обект и 2) слаб обект.

41) Какво е саморекурсивна връзка?

Рекурсивната връзка е самостоятелна колона в таблица, която е свързана с първичния ключ на същата таблица.

42) Обяснете моделирането на релационни данни

Релационното моделиране на данни е представяне на обекти в релационна база данни, което обикновено се нормализира.

43) Какво представлява аналитиката за прогнозно моделиране?

Процесът на валидиране или тестване на модел, който ще се използва за прогнозиране на тестване и валидиране на резултатите. Може да се използва за машинно обучение, изкуствен интелект, както и за статистика.

44) Каква е разликата между логическия модел на данни и физическия модел на данни?

Логически модел на данни Физически модел на данни
Логическият модел на данни може логично да проектира изискванията за бизнес. Физическият модел на данни предоставя информация за целевия източник на база данни и неговите свойства.
Той отговаря за действителното внедряване на данни, които се съхраняват в базата данни. Физическият модел на данни ви помага да създадете нов модел на база данни от съществуващ и да приложите ограничението на референтната цялост.
Той съдържа обект, атрибути на първичен ключ, инверсионни ключове, алтернативен ключ, правило, бизнес връзка, дефиниция и т.н. Физически модел данни съдържа таблица, ключови ограничения, уникален ключ, колони, външен ключ, индекси, стойности по подразбиране и т.н.

45) Какви са различните видове ограничения?

Различен тип ограничение може да бъде уникален, нулеви стойности, външни ключове, композитен ключ или ограничение за проверка и т.н.

46) Какво представлява инструментът за моделиране на данни?

Инструментът за моделиране на данни е софтуер, който помага при изграждането на потока от данни и връзката между данните. Примери за такива инструменти са Borland Together, Altova Database Spy, casewise, Case Studio 2 и др.

47) Какво представлява йерархичната СУБД?

В йерархичната база данни данните на модела са организирани в дървовидна структура. Данните се съхраняват в йерархичен формат. Данните се представят чрез връзката родител-дете. В йерархичната СУБД родителят може да има много деца, децата имат само един родител.

48) Какви са недостатъците на йерархичния модел на данни?

Недостатъците на йерархичния модел на данни са:

  • Той не е гъвкав, тъй като отнема време, за да се адаптира към променящите се нужди на бизнеса.
  • Структурата поставя въпроса в междуведомствената комуникация, вертикалната комуникация, както и междуведомствената комуникация.
  • Йерархичният модел на данни може да създаде проблеми на разединението.

49) Обяснете процесния подход на моделиране на данни

Подходът, управляван от процеса, използван при моделирането на данни, следва стъпка по стъпка метод за връзката между модела на обект-връзка и организационния процес.

50) Какви са предимствата от използването на моделиране на данни?

Предимствата на използването на моделиране на данни при складиране на данни са:

  • Той ви помага да управлявате бизнес данни, като ги нормализирате и дефинирате техните атрибути.
  • Моделирането на данни интегрира данните от различни системи, за да намали излишъка на данни.
  • Това позволява да се създаде ефективен дизайн на база данни.
  • Моделирането на данни помага на организационния отдел да функционира като екип.
  • Той улеснява достъпа до данни с лекота.

51) Какви са недостатъците на използването на моделиране на данни?

Недостатъците на използването на моделиране на данни са:

  • Той има по-малка структурна независимост
  • Той може да направи системата сложна.

52) Какво е индекс?

Индексът се използва за колона или група колони за бързо извличане на данни.

53) Какви са характеристиките на логическия модел на данни?

Характеристиките на логическия модел на данни са:

  • Описва нуждите от данни за един проект, но би могъл да се интегрира с други логически модели на данни въз основа на обхвата на проекта.
  • Проектиран и разработен независимо от СУБД.
  • Атрибутите на данните ще имат типове данни с точна точност и дължина.
  • Процесите на нормализиране към модела, който обикновено се прилагат обикновено до 3NF.

54) Какви са характеристиките на физическия модел на данни?

Характеристиките на физическия модел на данните са:

  • Физическият модел на данни описва нуждата от данни за един проект или приложение. Той може да бъде интегриран с други модели на физически данни въз основа на обхвата на проекта.
  • Моделът на данните съдържа връзки между таблици, които се отнасят до мощността и зануляването на връзките.
  • Разработено за конкретна версия на СУБД, местоположение, съхранение на данни или технология, която да се използва в проекта.
  • Колоните трябва да имат точни типове данни, зададени дължини и стойности по подразбиране.
  • Определят се първични и външни ключове, изгледи, индекси, профили за достъп и разрешения и т.н.

55) Кои са двата вида техники за моделиране на данни?

Два типа техники за моделиране на данни са: 1) Модел за връзка на обект (ER) и 2) UML (Унифициран език за моделиране).

56) Какво е UML?

UML (Unified Modeling Language) е универсален език за разработване на бази данни, език за моделиране в областта на софтуерното инженерство. Основното намерение е да се осигури обобщен начин за визуализиране на дизайна на системата.

57) Обяснете обектно-ориентиран модел на база данни

Обектно-ориентираният модел на база данни е колекция от обекти. Тези обекти могат да имат свързани функции, както и методи.

58) Какво представлява мрежовият модел?

Това е модел, който е изграден върху йерархичен модел. Той позволява повече от една връзка да свързва записи, което показва, че има множество записи. Възможно е да се изгради набор от родителски записи и дъщерни записи. Всеки запис може да принадлежи на множество набори, които ви позволяват да извършвате сложни взаимоотношения на таблици.

59) Какво е хеширане?

Хеширането е техника, която се използва за търсене на цялата стойност на индекса и извличане на желаните данни. Помага да се изчисли прякото местоположение на данните, които се записват на диск, без да се използва структурата на индекса.

60) Какво е бизнес или естествени ключове?

бизнес или естествени ключове е поле, което уникално идентифицира обект. Например идентификатор на клиента, номер на служител, имейл и т.н.

61) Какво е сложен ключ?

Когато за представяне на ключ се използват повече от едно поле, то се нарича сложен ключ.

62) Какво е първата нормална форма?

Първата нормална форма или 1NF е свойство на връзка, налична в релационна система за управление на база данни. Всяка връзка се нарича първа нормална форма, ако домейнът на всеки атрибут съдържа стойности, които са атомни. Той съдържа една стойност от този домейн.

63) Каква е разликата между първичен ключ и външен ключ?

Първичен ключ Външен ключ
Първичният ключ ви помага да идентифицирате уникално запис в таблицата. Външният ключ е поле в таблицата, което е основният ключ на друга таблица.
Първичният ключ никога не приема нулеви стойности. Чуждестранният ключ може да приеме множество нулеви стойности.
Първичният ключ е клъстериран индекс и данните в таблицата на СУБД са физически организирани в последователността на клъстерирания индекс. Чуждестранният ключ не може автоматично да създаде индекс, клъстериран или неклъстериран. Можете обаче ръчно да създадете индекс на външния ключ.
Можете да имате единичен първичен ключ в таблица. Можете да имате множество външни ключове в таблица.

64) Какви са изискванията на втората нормална форма?

Изискванията на втората нормална форма са:

  • Трябва да е в първа нормална форма.
  • Той не съдържа никакъв непрости атрибут, който е функционално зависим от която и да е подмножина от кандидат-ключ на релацията на таблицата.

65) Какви са правилата за третата нормална форма?

Правилата за трети нормални форми са:

  • Трябва да е във втора нормална форма
  • Той няма преходни функционални зависимости.

66) Какво значение има използването на ключове?

  • Клавишите ви помагат да идентифицирате всеки ред данни в таблица. В реално приложение таблица може да съдържа хиляди записи.
  • Ключовете гарантират, че можете да идентифицирате уникално запис на таблица въпреки тези предизвикателства.
  • Позволява ви да установите връзка между и да идентифицирате връзката между таблици
  • Помогнете ви да наложите идентичност и почтеност във връзката.

67) Какво е сурогатен ключ?

Изкуствен ключ, който има за цел да идентифицира уникално всеки запис, се нарича сурогатен ключ. Тези видове ключове са уникални, защото се създават, когато нямате естествен първичен ключ. Те не придават никакво значение на данните в таблицата. Сурогатният ключ обикновено е цяло число.

68) Обяснете подробно алтернативния ключ

Алтернативен ключ е колона или група колони в таблица, която уникално идентифицира всеки ред в тази таблица. Таблица може да има множество възможности за избор на първичен ключ, но само един може да бъде зададен като първичен ключ. Всички ключове, които не са първичен ключ, се наричат ​​Алтернативен ключ.

69) Каква е четвъртата нормална форма в СУБД?

Четвъртата нормална форма е ниво на нормализиране на базата данни, при което не трябва да има нетривиална зависимост, различна от кандидат-ключ.

70) Какво представлява системата за управление на база данни?

Системата за управление на база данни или СУБД е софтуер за съхранение и извличане на потребителски данни. Състои се от група програми, които манипулират базата данни.

71) Какво е правилото на петата нормална форма?

Таблица е в 5 -та нормална форма само ако е в 4 -та нормална форма и не може да бъде разложена на произволен брой по-малки таблици без загуба на данни.

72) Какво е нормализиране?

Нормализирането е техника за проектиране на база данни, която организира таблици по начин, който намалява излишъка и зависимостта на данните. Той разделя по-големите таблици на по-малки таблици и ги свързва чрез връзки.

73) Обяснете характеристиките на системата за управление на база данни

  • Осигурява сигурност и премахва излишъка
  • Самоописан характер на системата от бази данни
  • Изолация между програми и абстракция на данни
  • Поддръжка на множество изгледи на данни.
  • Споделяне на данни и обработка на транзакции за много потребители
  • СУБД позволява на обекти и връзки между тях да формират таблици.
  • Той следва концепцията на ACID (атомност, консистенция, изолация и трайност).
  • СУБД поддържа многопотребителска среда, която позволява на потребителите паралелно да имат достъп и да управляват данни.

74) Избройте популярния софтуер на СУБД

Популярният софтуер на СУБД е:

  • MySQL
  • Microsoft Access
  • Oracle
  • PostgreSQL
  • dbase
  • FoxPro
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Обяснете концепцията за RDBMS

Релационната система за управление на база данни е софтуер, който се използва за съхраняване на данни под формата на таблици. В този вид система данните се управляват и съхраняват в редове и колони, което е известно като кортежи и атрибути. RDBMS е мощна система за управление на данни и се използва широко в целия свят.

76) Какви са предимствата на модела на данни?

Предимства на модела на данни са:

  • Основната цел на модела за проектиране на данни е да гарантира, че обектите от данни, предлагани от функционалния екип, са представени точно.
  • Моделът на данните трябва да бъде достатъчно подробен, за да се използва за изграждане на физическата база данни.
  • Информацията в модела на данни може да се използва за определяне на връзката между таблици, първични и външни ключове и съхранени процедури.
  • Data Model помага на бизнеса да комуникира в рамките на и между организациите.
  • Моделът на данните помага за документиране на картографиране на данни в процеса на ETL
  • Помогнете да разпознаете правилните източници на данни за попълване на модела

77) Какви са недостатъците на модела за данни?

Недостатъците на модела на данни са:

  • За да се разработи модел на данни, човек трябва да знае физическите данни, съхранявани характеристики.
  • Това е навигационна система, която произвежда сложна разработка на приложения, управление. По този начин се изисква познаване на биографичната истина.
  • Още по-малки промени в структурата изискват модификация в цялото приложение.
  • В СУБД няма набор от езици за манипулиране на данни.

78) Обяснете различни видове таблици с факти

Има три вида таблици с факти:

  • Добавка: Това е мярка, която се добавя към всяко измерение.
  • Неадитивен: Това е мярка, която не може да бъде добавена към нито едно измерение.
  • Полуадитивен: Това е мярка, която може да се добави към няколко измерения.

79) Какво е обобщена таблица?

Обобщената таблица съдържа обобщени данни, които могат да бъдат изчислени с помощта на функции като: 1) Средно 2) МАКС, 3) Брой, 4) СУММА, 5) СУММА и 6) МИН.

80) Какво е потвърдено измерение?

Съобразеното измерение е измерение, което е проектирано по начин, който може да се използва в много таблици с факти в различни области на хранилището на данни.

81) Избройте видовете йерархии в моделирането на данни

Има два типа йерархии: 1) Йерархии, базирани на ниво и 2) Йерархии родител-дете.

82) Каква е разликата между март за данни и хранилище за данни?

Data mart Склад за данни
Data mart се фокусира върху една предметна област на бизнеса. Складовата база данни се фокусира върху множество области на бизнеса.
Използва се за вземане на тактически решения за растеж на бизнеса. Той помага на собствениците на бизнес да вземат стратегическо решение
Data mart следва модела отдолу нагоре Хранилището за данни следва модел отгоре надолу
Източникът на данни идва от един източник на данни Източникът на данни идва от повече от един хетерогенен източник на данни.

83) Какво е XMLA?

XMLA е XML анализ, който се счита за стандарт за достъп до данни при онлайн аналитична обработка (OLAP).

84) Обяснете измерението на боклука

Размерът на боклука помага да се съхраняват данни. Използва се, когато данните не е правилно да се съхраняват в схема.

85) Обяснете веригирана репликация на данни

Ситуацията, когато вторичен възел избира цел, използвайки време за пинг или когато най-близкият възел е вторичен, се нарича като верижна репликация на данни.

86) Обяснете виртуално съхранение на данни

Виртуалният склад за данни дава колективен изглед на завършените данни. Виртуалният склад за данни няма исторически данни. Разглежда се като логически модел на данни с метаданни.

87) Обяснете моментна снимка на хранилището за данни

Snapshot е пълна визуализация на данните в момента, когато започва процесът на извличане на данни.

88) Какво представлява двупосочен екстракт?

Способността на системата да извлича, почиства и прехвърля данни в две посоки се нарича насочен екстракт.