ETL срещу ELT: Трябва да се знаят разликите

Съдържание:

Anonim

Какво е ETL?

ETL е съкращение от Extract, Transform and Load. В този процес инструмент за ETL извлича данните от различни системи източници на RDBMS, след което трансформира данните като прилагане на изчисления, конкатенации и т.н. и след това зарежда данните в системата за съхранение на данни.

В ETL данните са потоци от източника към целта. В процеса на трансформация на ETL двигателят се грижи за всички промени в данните.

Какво е ELT?

ELT е различен метод за разглеждане на инструменталния подход към движението на данните. Вместо да трансформира данните, преди да бъдат записани, ELT позволява на целевата система да извърши трансформацията. Данните първо се копират в целта и след това се трансформират на място.

ELT обикновено се използва с бази данни без Sql като клъстер Hadoop, уред за данни или инсталация в облак.

КЛЮЧОВА РАЗЛИКА

  • ETL означава Extract, Transform и Load, докато ELT означава Extract, Load, Transform.
  • ETL зарежда данни първо в подготвителния сървър и след това в целевата система, докато ELT зарежда данни директно в целевата система.
  • Моделът ETL се използва за локални, релационни и структурирани данни, докато ELT се използва за мащабируеми облачни структурирани и неструктурирани източници на данни.
  • ETL се използва главно за малко количество данни, докато ELT се използва за големи количества данни.
  • ETL не осигурява поддръжка на езеро за данни, докато ELT осигурява поддръжка на езеро за данни.
  • ETL е лесен за изпълнение, докато ELT изисква нишови умения за внедряване и поддържане.

Разлика между ETL срещу ELT

ETL и ELT процесът се различават по следните параметри:

Параметри ETL ELT
Процес Данните се трансформират в сървъра за подреждане и след това се прехвърлят в DB на Datawarehouse. Данните остават в DB на Datawarehouse.
Използване на кода Използвани за
  • Изчислително интензивни трансформации
  • Малко количество данни
Използва се за големи количества данни
Трансформация Трансформациите се извършват в ETL сървър / подреждане. Трансформациите се извършват в целевата система
Времево натоварване Данните първо се зареждат в подреждане, а по-късно се зареждат в целевата система. Интензивно във времето. Данните се зареждат в целевата система само веднъж. По-бързо.
Трансформация на времето ETL процесът трябва да изчака трансформацията да завърши. С нарастването на размера на данните времето за трансформация се увеличава. В ELT процеса скоростта никога не зависи от размера на данните.
Поддръжка на времето Той се нуждае от високи поддръжки, тъй като трябва да изберете данни за зареждане и трансформиране. Ниска поддръжка, тъй като данните са винаги на разположение.
Сложност на изпълнението На ранен етап, по-лесен за изпълнение. За прилагане на ELT организацията на процеса трябва да има задълбочени познания за инструменти и експертни умения.
Поддръжка за хранилище за данни Модел ETL, използван за локални, релационни и структурирани данни. Използва се в мащабируема облачна инфраструктура, която поддържа структурирани, неструктурирани източници на данни.
Поддръжка на Data Lake Не поддържа. Позволява използването на Data Lake с неструктурирани данни.
Сложност Процесът ETL зарежда само важните данни, идентифицирани по време на проектиране. Този процес включва разработване от изхода назад и зареждане само на съответните данни.
Разходи Високи разходи за малкия и средния бизнес. Ниски входни разходи при използване на онлайн софтуер като платформа за услуги.
Търсене В процеса на ETL, както фактите, така и измеренията трябва да са налични в зоната на постановка. Всички данни ще бъдат достъпни, защото Извличането и зареждането се извършват с едно действие.
Агрегации Повишаването на сложността с допълнителното количество данни в набора от данни. Мощността на целевата платформа може бързо да обработва значително количество данни.
Изчисления Презаписва съществуваща колона или Необходимост да добавите набора от данни и натиснете към целевата платформа. Лесно добавете изчислената колона към съществуващата таблица.
Зрелост Процесът се използва повече от две десетилетия. Той е добре документиран и най-добрите практики са лесно достъпни. Сравнително нова концепция и сложна за изпълнение.
Хардуер Повечето инструменти имат уникални хардуерни изисквания, които са скъпи. Да бъдеш хардуерна цена на Saas не е проблем.
Поддръжка за неструктурирани данни Поддържа предимно релационни данни Лесно достъпна поддръжка за неструктурирани данни.