Какво е Data Lake?
Езерото за данни е хранилище за съхранение, което може да съхранява голямо количество структурирани, полуструктурирани и неструктурирани данни. Това е място за съхраняване на всеки тип данни в собствения му формат без фиксирани ограничения за размера на файла или файла. Той предлага голямо количество данни за увеличаване на аналитичната производителност и нативната интеграция.
Data Lake е като голям контейнер, който много прилича на истинското езеро и реки. Точно както в езерото пристигат множество притоци, езерото с данни има структурирани данни, неструктурирани данни, машина към машина, трупи, преминаващи през реално време.
Data Lake демократизира данните и е рентабилен начин за съхраняване на всички данни на организацията за по-нататъшна обработка. Research Analyst може да се съсредоточи върху намирането на смислови модели в данните, а не върху самите данни.
За разлика от йерархичната къща за данни, където данните се съхраняват във файлове и папки, Data Lake има плоска архитектура. Всеки елемент от данни в Data Lake получава уникален идентификатор и се маркира с набор от информация за метаданни.
В този урок ще научите -
- Какво е Data Lake?
- Защо Data Lake?
- Архитектура на езерото с данни
- Основни концепции за езерото с данни
- Зрелостни етапи на езерото с данни
- Най-добри практики за внедряване на езерото с данни:
- Разлика между езерата на данни и хранилището на данни
- Ползи и рискове от използването на Data Lake:
Защо Data Lake?
Основната цел на изграждането на езеро за данни е да предложи нерафиниран изглед на данните на учените по данни.
Причини за използване на Data Lake са:
- С появата на двигатели за съхранение като Hadoop съхраняването на различна информация стана лесно. Не е необходимо да се моделират данни в схема за цялото предприятие с Data Lake.
- С увеличаването на обема на данните, качеството на данните и метаданните, качеството на анализите също се увеличава.
- Data Lake предлага бизнес ловкост
- Машинното обучение и изкуственият интелект могат да се използват за изготвяне на печеливши прогнози.
- Той предлага конкурентно предимство на изпълнителната организация.
- Няма структура на силоза за данни. Data Lake дава 360-градусов изглед на клиентите и прави анализа по-стабилен.
Архитектура на езерото с данни
Фигурата показва архитектурата на езерото за бизнес данни. Долните нива представляват данни, които най-вече са в покой, докато горните нива показват данни за транзакции в реално време. Тези данни преминават през системата без никакво или малко закъснение. Следват важни нива в Data Lake Architecture:
- Ниво на поглъщане : Нивата от лявата страна изобразяват източниците на данни. Данните могат да бъдат заредени в езерото с данни на партиди или в реално време
- Ниво на прозрения: Нивата вдясно представляват изследователската страна, където се използват прозрения от системата. За анализ на данни могат да се използват SQL, NoSQL заявки или дори Excel.
- HDFS е рентабилно решение както за структурирани, така и за неструктурирани данни. Това е зона за кацане на всички данни, които са в покой в системата.
- Дестилационният слой взема данни от гумата за съхранение и ги преобразува в структурирани данни за по-лесен анализ.
- Аналитични алгоритми за обработка на нива и потребителски заявки с променящо се в реално време, интерактивно, пакетно генериране на структурирани данни за по-лесен анализ.
- Единно ниво на операциите управлява управлението и мониторинга на системата. Включва одит и управление на уменията, управление на данни, управление на работния процес.
Основни концепции за езерото с данни
Следват ключови концепции за езерото на данни, които човек трябва да разбере, за да разбере напълно архитектурата на езерото на данни
Поглъщане на данни
Поглъщането на данни позволява на съединителите да получават данни от различни източници на данни и да се зареждат в езерото с данни.
Поглъщането на данни поддържа:
- Всички видове структурирани, полуструктурирани и неструктурирани данни.
- Няколко поглъщания като партида, в реално време, еднократно зареждане.
- Много видове източници на данни като бази данни, уеб сървъри, имейли, IoT и FTP.
Хранилище за данни
Съхранението на данни трябва да бъде мащабируемо, предлага рентабилно съхранение и да позволява бърз достъп до проучване на данни. Той трябва да поддържа различни формати за данни.
Управление на данните
Управлението на данните е процес на управление на наличността, използваемостта, сигурността и целостта на данните, използвани в организацията.
Сигурност
Сигурността трябва да бъде приложена във всеки слой на езерото с данни. Започва със съхранение, изкопаване и консумация. Основната необходимост е да се спре достъпът на неоторизирани потребители. Той трябва да поддържа различни инструменти за достъп до данни с лесен за навигация графичен интерфейс и табла за управление.
Удостоверяването, счетоводството, оторизацията и защитата на данните са някои важни характеристики на сигурността на езерото на данни.
Качество на данните:
Качеството на данните е съществен компонент на архитектурата на Data Lake. Данните се използват за точна бизнес стойност. Извличането на прозрения от данни с лошо качество ще доведе до прозрения с лошо качество.
Откриване на данни
Откриването на данни е друг важен етап, преди да започнете да подготвяте данни или анализ. На този етап се използва техника за маркиране, за да се изрази разбирането на данните чрез организиране и интерпретиране на данните, погълнати в езерото с данни.
Одит на данни
Две основни задачи за одит на данни са проследяването на промените в ключовия набор от данни.
- Проследяване на промените във важни елементи от набора от данни
- Записва как / кога / и кой се променя на тези елементи.
Одитът на данните помага да се оцени рискът и съответствието.
Линия на данните
Този компонент се занимава с произхода на данните. Основно се занимава с това къде се движи с времето и какво се случва с него. Улеснява корекциите на грешки в процеса на анализ на данни от произход до местоназначение.
Изследване на данни
Това е началният етап на анализа на данните. Помага да се идентифицира правилният набор от данни е жизненоважен преди започване на Проучване на данни.
Всички дадени компоненти трябва да работят заедно, за да изиграят важна роля в изграждането на езерото с данни лесно да се развиват и да изследват околната среда.
Зрелостни етапи на езерото с данни
Определението за етапите на зрялост на езерото данни се различава от учебника до учебника. Въпреки че същността остава същата. След зрелостта дефиницията на сцената е от гледна точка на лаици.
Етап 1: Обработвайте и поглъщайте данни в мащаб
Този първи етап на зрялост на данните включва подобряване на способността за трансформиране и анализ на данни. Тук собствениците на фирми трябва да намерят инструментите според набора от умения за получаване на повече данни и да изградят аналитични приложения.
Етап 2: Изграждане на аналитичния мускул
Това е втори етап, който включва подобряване на способността за трансформиране и анализ на данни. На този етап компаниите използват инструмента, който е най-подходящ за техния набор от умения. Те започват да придобиват повече данни и да изграждат приложения. Тук възможностите на корпоративното хранилище за данни и езерото от данни се използват заедно.
Етап 3: EDW и Data Lake работят в унисон
Тази стъпка включва получаване на данни и анализи в ръцете на възможно най-много хора. На този етап езерото с данни и корпоративното хранилище за данни започват да работят в обединение. И двамата играят своята роля в аналитиката
Етап 4: Възможности на предприятието в езерото
В този етап на зрялост на езерото с данни към езерото на данни се добавят корпоративни възможности. Приемане на управление на информацията, възможности за управление на жизнения цикъл на информацията и управление на метаданни. Много малко организации обаче могат да достигнат това ниво на зрялост, но това ще се увеличи в бъдеще.
Най-добри практики за внедряване на езерото с данни:
- Архитектурните компоненти, тяхното взаимодействие и идентифицираните продукти трябва да поддържат естествени типове данни
- Проектирането на Data Lake трябва да се ръководи от наличното, вместо от необходимото. Изискването за схема и данни не се дефинира, докато не бъде поискано
- Дизайнът трябва да се ръководи от компоненти за еднократна употреба, интегрирани със сервизния API.
- Откриването, поглъщането, съхранението, администрирането, качеството, трансформацията и визуализацията на данни трябва да се управляват независимо.
- Архитектурата на Data Lake трябва да бъде съобразена с конкретна индустрия. Той трябва да гарантира, че възможностите, необходими за този домейн, са неразделна част от дизайна
- Важно е по-бързото качване на новооткрити източници на данни
- Data Lake помага на персонализираното управление за извличане на максимална стойност
- Data Lake трябва да поддържа съществуващите техники и методи за управление на корпоративни данни
Предизвикателства пред изграждането на езеро за данни:
- В Data Lake обемът на данните е по-голям, така че процесът трябва да разчита по-скоро на програмно администриране
- Трудно е да се справим с оскъдни, непълни, нестабилни данни
- По-широкият обхват на набора от данни и източник се нуждае от по-голямо управление и подкрепа на данните
Разлика между езерата на данни и хранилището на данни
Параметри | Езера на данни | Склад за данни |
---|---|---|
Данни | Езерните данни съхраняват всичко. | Хранилището за данни се фокусира само върху бизнес процеси. |
Обработка | Данните са основно необработени | Силно обработени данни. |
Тип данни | Тя може да бъде неструктурирана, полуструктурирана и структурирана. | Той е предимно в таблична форма и структура. |
Задача | Споделяйте управлението на данни | Оптимизиран за извличане на данни |
Ловкост | Силно пъргав, конфигурирайте и преконфигурирайте според нуждите. | В сравнение с Data Lake той е по-малко пъргав и има фиксирана конфигурация. |
Потребители | Data Lake се използва най-вече от Data Scientist | Бизнес специалистите широко използват Хранилище за данни |
Съхранение | Проектиране на езера за данни за евтино съхранение. | Използва се скъпо съхранение, което дава бързо време за реакция |
Сигурност | Предлага по-малък контрол. | Позволява по-добър контрол на данните. |
Замяна на EDW | Езерото с данни може да бъде източник за EDW | Допълващ EDW (не заместващ) |
Схема | Схема за четене (без предварително дефинирани схеми) | Схема при запис (предварително дефинирани схеми) |
Обработка на данни | Помага за бързо поглъщане на нови данни. | Отнема много време за въвеждане на ново съдържание. |
Детайлност на данните | Данни с ниско ниво на детайлност или детайлност. | Данни на обобщено или обобщено ниво на детайлност. |
Инструменти | Може да използва отворен код / инструменти като Hadoop / Map Reduce | Предимно търговски инструменти. |
Ползи и рискове от използването на Data Lake:
Ето някои основни предимства при използването на Data Lake:
- Помага напълно с йонизиращи продукти и разширени анализи
- Предлага рентабилна мащабируемост и гъвкавост
- Предлага стойност от неограничени типове данни
- Намалява дългосрочните разходи за притежание
- Позволява икономично съхранение на файлове
- Бързо приспособим към промените
- Основното предимство на езерото за данни е централизацията на различни източници на съдържание
- Потребители от различни отдели, които могат да бъдат разпръснати по целия свят, могат да имат гъвкав достъп до данните
Риск от използване на езерото с данни:
- След известно време Data Lake може да загуби актуалност и инерция
- Съществува по-голям риск при проектирането на Data Lake
- Неструктурираните данни могат да доведат до неуправляван Chao, неизползваеми данни, разнородни и сложни инструменти, сътрудничество в рамките на предприятието, унифицирано, последователно и често
- Той също така увеличава съхранението и изчислява разходите
- Няма начин да се получат прозрения от други, които са работили с данните, тъй като няма отчет за родословните констатации от предишни анализатори
- Най-големият риск от езерата на данни е сигурността и контролът на достъпа. Понякога данните могат да се поставят в езеро без никакъв надзор, тъй като някои от данните може да имат поверителност и регулаторни нужди
Резюме:
- Езерото за данни е хранилище за съхранение, което може да съхранява голямо количество структурирани, полуструктурирани и неструктурирани данни.
- Основната цел на изграждането на езеро за данни е да предложи нерафиниран изглед на данните на учените по данни.
- Унифициран операционен слой, ниво на обработка, ниво на дестилация и HDFS са важни слоеве от архитектурата на езерото на данни
- Поглъщане на данни, съхранение на данни, качество на данните, одит на данни, проучване на данни, откриване на данни са някои важни компоненти на Data Lake Architecture
- Проектирането на Data Lake трябва да се ръководи от наличното, вместо от необходимото.
- Data Lake намалява дългосрочните разходи за притежание и позволява икономично съхранение на файлове
- Най-големият риск от езерата на данни е сигурността и контролът на достъпа. Понякога данните могат да се поставят в езеро без никакъв надзор, тъй като някои от данните може да имат поверителност и регулаторни нужди.