Концепции за хранилище на данни
Основната концепция на Data Warehouse е да улесни една версия на истината за една компания за вземане на решения и прогнозиране. Хранилището за данни е информационна система, която съдържа исторически и комутативни данни от единични или множество източници. Концепциите на хранилището за данни опростяват процеса на отчитане и анализ на организациите.
Характеристики на хранилището за данни
Концепциите за хранилището на данни имат следните характеристики:
- Тематично ориентирани
- Интегриран
- Вариант на времето
- Нелетливи
Тематично ориентирани
Хранилището за данни е предметно ориентирано, тъй като предлага информация относно дадена тема вместо текущите операции на компаниите. Тези теми могат да бъдат продажби, маркетинг, дистрибуции и т.н.
Хранилището за данни никога не се фокусира върху текущите операции. Вместо това той наблегна на моделирането и анализа на данните за вземане на решения . Той също така предоставя прост и кратък поглед върху конкретния предмет, като изключва данни, които не са полезни в подкрепа на процеса на вземане на решение.
Интегриран
В Data Warehouse интеграцията означава установяване на обща мерна единица за всички подобни данни от различната база данни. Данните също трябва да се съхраняват в Datawarehouse по общ и универсално приемлив начин.
Хранилището за данни е разработено чрез интегриране на данни от различни източници като мейнфрейм, релационни бази данни, плоски файлове и др. Освен това той трябва да поддържа последователни конвенции за именуване, формат и кодиране.
Тази интеграция помага за ефективен анализ на данните. Трябва да се осигури последователност в конвенциите за именуване, мерките за атрибути, структурата на кодиране и т.н. Помислете за следния пример:
В горния пример има три различни приложения, обозначени с A, B и C. Информацията, съхранявана в тези приложения, е Пол, Дата и Баланс. Данните на всяко приложение обаче се съхраняват по различен начин.
- В приложение Полето за пол съхранява логически стойности като M или F
- В приложение Б полето пол е числова стойност,
- В приложението C полето за пол се съхранява под формата на стойност на знака.
- Същият е случаят с Дата и баланс
След процеса на преобразуване и почистване обаче всички тези данни се съхраняват в общ формат в хранилището за данни.
Вариант на времето
Времевият хоризонт за съхранение на данни е доста обширен в сравнение с операционните системи. Данните, събрани в хранилище за данни, се разпознават за определен период и предлагат информация от историческа гледна точка. Той съдържа елемент на времето, изрично или неявно.
Едно такова място, където вариацията на времето за показване на данни на Datawarehouse е в структурата на ключа за запис. Всеки първичен ключ, съдържащ се в DW, трябва да има или имплицитно, или изрично елемент от времето. Като деня, седмицата, месеца и т.н.
Друг аспект на вариацията във времето е, че след като данните се вкарат в склада, те не могат да бъдат актуализирани или променени.
Нелетливи
Хранилището за данни също е нестабилно, което означава, че предишните данни не се изтриват, когато в него се въвеждат нови данни.
Данните са само за четене и периодично се обновяват. Това също помага да се анализират исторически данни и да се разбере какво и кога се е случило. Не изисква процес на транзакция, възстановяване и механизми за контрол на паралелността.
Дейности като изтриване, актуализиране и вмъкване, които се извършват в оперативна среда на приложение, са пропуснати в средата на хранилището за данни. Само два вида операции с данни, извършени в Складирането на данни, са
- Зареждане на данни
- Достъп до данни
Ето някои основни разлики между приложението и хранилището на данни
Оперативно приложение | Склад за данни |
Сложната програма трябва да бъде кодирана, за да се гарантира, че процесите за надграждане на данни поддържат висока цялост на крайния продукт. | Този вид проблеми не се случват, тъй като не се извършва актуализация на данни. |
Данните се поставят в нормализирана форма, за да се осигури минимална излишък. | Данните не се съхраняват в нормализиран вид. |
Технологията, необходима за поддържане на проблеми с транзакции, възстановяване на данни, връщане назад и разрешаване, тъй като блокирането е доста сложно. | Предлага относителна простота в технологията. |
Архитектура на хранилището на данни
Архитектурата на хранилището на данни е сложна, тъй като представлява информационна система, която съдържа исторически и комутативни данни от множество източници. Има 3 подхода за изграждане на слоевете на хранилището на данни: Едно ниво, Двустепенно и Тристепенно. Тази тристепенна архитектура на Data Warehouse е обяснена по-долу.
Едностепенна архитектура
Целта на един слой е да се сведе до минимум количеството съхранявани данни. Тази цел е да се премахне излишъкът от данни. Тази архитектура не се използва често на практика.
Двустепенна архитектура
Двуслойната архитектура е един от слоевете Data Warehouse, който разделя физически наличните източници и хранилището на данни. Тази архитектура не може да се разширява и също така не поддържа голям брой крайни потребители. Освен това има проблеми с връзката поради мрежови ограничения.
Архитектура на тристепенна база данни
Това е най-използваната архитектура на хранилището за данни.
Състои се от горното, средното и долното ниво.
- Bottom Tier: Базата данни на сървърите на Datawarehouse като най-долното ниво. Обикновено това е релационна система от бази данни. Данните се почистват, трансформират и зареждат в този слой с помощта на back-end инструменти.
- Средно ниво: Средното ниво в хранилището на данни е OLAP сървър, който е реализиран с помощта на ROLAP или MOLAP модел. За потребител това ниво на приложение представя абстрахиран изглед на базата данни. Този слой също действа като посредник между крайния потребител и базата данни.
- Най-високо ниво: Най-високото ниво е клиентски слой от предния край. Най-високото ниво са инструментите и API, които свързвате и извеждате данни от хранилището за данни. Това може да са инструменти за заявки, инструменти за отчитане, инструменти за управлявани заявки, инструменти за анализ и инструменти за извличане на данни.
Компоненти на Datawarehouse
Ще научим за компонентите на Datawarehouse и архитектурата на Data Warehouse с диаграма, както е показано по-долу:

Хранилището на данни се основава на RDBMS сървър, който е централно хранилище на информация, което е заобиколено от някои ключови компоненти за съхранение на данни, за да направи цялата среда функционална, управляема и достъпна.
Има главно пет компонента на хранилището за данни:
База данни на база данни
Централната база данни е основата на средата за съхранение на данни. Тази база данни е внедрена по RDBMS технология. Въпреки това, този вид изпълнение се ограничава от факта, че традиционната RDBMS система е оптимизирана за обработка на транзакционни бази данни, а не за съхранение на данни. Например, ad-hoc заявките, обединяванията на множество таблици, агрегатите изискват много ресурси и забавят производителността.
Следователно се използват алтернативни подходи към базата данни, както са изброени по-долу -
- В хранилище за данни релационните бази данни се разполагат паралелно, за да се даде възможност за мащабируемост. Паралелните релационни бази данни също позволяват споделена памет или споделен модел на различни мултипроцесорни конфигурации или масово паралелни процесори.
- Нови индексни структури се използват за заобикаляне на сканирането на релационни таблици и подобряване на скоростта.
- Използване на многомерна база данни (MDDB) за преодоляване на всякакви ограничения, които са поставени поради релационните модели за съхранение на данни. Пример: Essbase от Oracle.
Инструменти за снабдяване, придобиване, почистване и трансформация (ETL)
Инструментите за източник на данни, трансформация и миграция се използват за извършване на всички преобразувания, обобщения и всички промени, необходими за трансформиране на данни в единен формат в хранилището за данни. Те се наричат още инструменти за извличане, преобразуване и зареждане (ETL).
Тяхната функционалност включва:
- Анонимизиране на данните съгласно регулаторните разпоредби.
- Елиминиране на нежелани данни в оперативни бази данни от зареждане в хранилището на данни.
- Търсете и заменете общи имена и дефиниции за данни, пристигащи от различни източници.
- Изчисляване на обобщения и получени данни
- В случай на липсващи данни, попълнете ги по подразбиране.
- Дедублирани повтарящи се данни, пристигащи от множество източници на данни.
Тези инструменти за извличане, преобразуване и зареждане могат да генерират cron задачи, фонови задачи, програми Cobol, скриптове на черупки и др., Които редовно актуализират данни в хранилището за данни. Тези инструменти също са полезни за поддържане на метаданните.
Тези ETL инструменти трябва да се справят с предизвикателствата на базата данни и хетерогенността на данните.
Метаданни
Името Meta Data предполага някои технологични концепции за съхранение на данни на високо ниво. Това обаче е съвсем просто. Метаданните са данни за данни, които определят хранилището на данни. Използва се за изграждане, поддържане и управление на хранилището на данни.
В архитектурата на хранилището на данни метаданните играят важна роля, тъй като определят източника, употребата, стойностите и характеристиките на данните от хранилището на данни. Той също така определя как данните могат да бъдат променяни и обработвани. Тя е тясно свързана със хранилището за данни.
Например ред в базата данни за продажби може да съдържа:
4030 KJ732 299.90
Това са безсмислени данни, докато не се консултираме с Мета, която ни казва, че е била
- Номер на модела: 4030
- Идентификатор на търговския агент: KJ732
- Обща сума на продажбите от $ 299.90
Следователно, метаданните са основни съставки при трансформацията на данните в знания.
Метаданните помагат да се отговори на следните въпроси
- Какви таблици, атрибути и ключове съдържа хранилището на данни?
- Откъде идват данните?
- Колко пъти данните се презареждат?
- Какви трансформации бяха приложени с прочистване?
Метаданните могат да бъдат класифицирани в следните категории:
- Технически мета данни : Този вид метаданни съдържа информация за склад, който се използва от дизайнерите и администраторите на хранилището за данни.
- Бизнес метаданни: Този вид метаданни съдържа детайли, които дават на крайните потребители лесен за разбиране информация, съхранявана в хранилището за данни.
Инструменти за заявки
Един от основните цели на съхранението на данни е да предоставя информация на бизнеса за вземане на стратегически решения. Инструментите за заявки позволяват на потребителите да взаимодействат със системата за съхранение на данни.
Тези инструменти попадат в четири различни категории:
- Инструменти за заявки и отчитане
- Инструменти за разработка на приложения
- Инструменти за извличане на данни
- OLAP инструменти
1. Инструменти за заявки и отчитане:
Инструментите за заявки и отчитане могат да бъдат допълнително разделени на
- Инструменти за отчитане
- Инструменти за управлявани заявки
Инструменти за отчитане:
Инструментите за отчитане могат да бъдат допълнително разделени на инструменти за отчитане на производството и писател на десктоп.
- Автори на доклади: Този вид инструменти за докладване са инструменти, предназначени за крайни потребители за техния анализ.
- Отчитане на производството: Този вид инструменти позволяват на организациите да генерират редовни оперативни отчети. Той също така поддържа партидни задачи с голям обем като печатане и изчисляване. Някои популярни инструменти за отчитане са Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Инструменти за управлявани заявки:
Този вид инструменти за достъп помага на крайните потребители да разрешават закъсненията в базата данни и SQL и структурата на базата данни чрез вмъкване на мета-слой между потребители и база данни.
2. Инструменти за разработка на приложения:
Понякога вградените графични и аналитични инструменти не задоволяват аналитичните нужди на организацията. В такива случаи се разработват персонализирани отчети с помощта на инструменти за разработка на приложения.
3. Инструменти за извличане на данни:
Извличането на данни е процес на откриване на значими нови корелации, шаблони и тенденции чрез извличане на голямо количество данни. Инструментите за извличане на данни се използват, за да направят този процес автоматичен.
4. OLAP инструменти:
Тези инструменти се основават на концепции за многомерна база данни. Позволява на потребителите да анализират данните, използвайки сложни и сложни многоизмерни изгледи.
Склад за данни Архитектура на автобуса
Хранилище за данни Bus определя потока от данни във вашия склад. Потокът от данни в хранилище за данни може да бъде категоризиран като Inflow, Upflow, Downflow, Outflow и Meta flow.
Докато се проектира шина за данни, трябва да се вземат предвид споделените измерения, факти в областта на данните.
Маркери с данни
Data mart е слой за достъп, който се използва за извеждане на данни до потребителите. Представен е като опция за голям размер хранилище за данни, тъй като отнема по-малко време и пари за изграждане. Въпреки това, няма стандартна дефиниция на данни март се различава от човек на човек.
С проста дума Data mart е дъщерно дружество на хранилище за данни. Data mart се използва за разделяне на данни, което се създава за конкретната група потребители.
Марти за данни могат да бъдат създадени в същата база данни като Datawarehouse или физически отделна база данни.
Най-добри практики за архитектура на хранилище за данни
За да проектирате архитектура на хранилище на данни, трябва да следвате по-долу дадени най-добри практики:
- Използвайте модели за съхранение на данни, които са оптимизирани за извличане на информация, която може да бъде измерен режим, денормализиран или хибриден подход.
- Изберете подходящия подход за проектиране като подход отгоре надолу и отдолу нагоре в хранилището на данни
- Трябва да се уверите, че данните се обработват бързо и точно. В същото време трябва да възприемете подход, който консолидира данните в една версия на истината.
- Внимателно проектирайте процеса на събиране и почистване на данни за хранилището на данни.
- Проектирайте архитектура на MetaData, която позволява споделяне на метаданни между компонентите на Data Warehouse
- Помислете за внедряване на ODS модел, когато нуждата от извличане на информация е близо до дъното на пирамидата за абстракция на данни или когато има много оперативни източници, които трябва да бъдат достъпни.
- Човек трябва да се увери, че моделът на данни е интегриран, а не просто консолидиран. В този случай трябва да помислите за модел на данни 3NF. Също така е идеален за придобиване на инструменти за почистване на ETL и данни
Резюме:
- Хранилището за данни е информационна система, която съдържа исторически и комутативни данни от единични или множество източници. Тези източници могат да бъдат традиционни хранилища за данни, хранилища за данни в облак или виртуални хранилища за данни.
- Хранилището за данни е предметно ориентирано, тъй като предлага информация относно темата, вместо текущите операции на организацията.
- В Data Warehouse интеграцията означава установяване на обща мерна единица за всички подобни данни от различните бази данни
- Хранилището за данни също е нестабилно, което означава, че предишните данни не се изтриват, когато в него се въвеждат нови данни.
- Datawarehouse е вариант на времето, тъй като данните в DW имат висок срок на годност.
- Основно има 5 компонента на архитектурата на хранилището на данни: 1) База данни 2) Инструменти ETL 3) Мета данни 4) Инструменти за заявки 5) DataMarts
- Това са четири основни категории инструменти за заявки 1. Заявки и отчитане, инструменти 2. Инструменти за разработка на приложения, 3. Инструменти за извличане на данни 4. OLAP инструменти
- Инструментите за източник на данни, трансформация и миграция се използват за извършване на всички преобразувания и обобщения.
- В архитектурата на хранилището на данни метаданните играят важна роля, тъй като определят източника, употребата, стойностите и характеристиките на данните от хранилището на данни.