Какво представлява съгласуването на данните?
Съпоставянето на данни (DR) се определя като процес на проверка на данните по време на миграция на данни. В този процес целевите данни се сравняват с изходните данни, за да се гарантира, че архитектурата за миграция прехвърля данни. Проверка и съгласуване на данните (DVR) означава технология, която използва математически модели за обработка на информация.
В този урок ще научите,
- Какво представлява съгласуването на данните?
- Защо съгласуването на данните е важно?
- Терминология, свързана с изравняване на данни
- История на съгласуването на данни
- Процес на съгласуване на данните
- Най-добри практики за използване на съгласуване на данни
- Инструменти за съгласуване на данни
Защо съгласуването на данните е важно?
В процеса на мигриране на данни е възможно да се допускат грешки в логиката на картографиране и трансформация. Проблеми като грешки по време на изпълнение като отпадане на мрежата или прекъснати транзакции могат да повредят данните.
Този вид грешки могат да доведат до оставяне на данни в невалидно състояние. Те могат да създадат редица проблеми като:
- Липсващи записи
- Липсващи стойности
- Неправилни стойности
- Дублирани записи
- Лошо форматирани стойности
- Прекъснати връзки между таблици или системи
Тук има важни причини за използване на процеса на съгласуване на данни:
- Използването на Data Reciliation ви помага да извличате точна и надеждна информация за състоянието на индустриалния процес от сурови измервателни данни.
- Той също така ви помага да създадете един последователен набор от данни, представляващи най-вероятната операция на процеса.
- Това също води до неточна информация и проблеми с обслужването на клиенти.
- Съгласуването на данните също е важно за интеграцията на контрола на предприятието.
Отделно от горе има много предимства / ползи от съгласуването на данни.
Терминология, свързана с изравняване на данни
Груба грешка | Груби грешки в измерванията. Той отразява само грешки на пристрастия, неизправности на инструмента или необичайни скокове на шума, ако използвате само кратък период на осредняване. |
Наблюдаемост | Анализът на наблюдението може да ви даде подробности за това какви променливи могат да бъдат определени за даден набор от ограничения и набор от измервания. |
Дисперсия | Дисперсията е мярка за променливостта на датчика. |
Съкращаване | Той ви помага да определите кои измервания трябва да бъдат оценени от други променливи, като използвате уравненията на ограничението. |
История на съгласуването на данни
Тук са основни ориентири от историята на Съпоставянето на данни.
- DVR (Data validation and Reconciliation) стартира в началото на 60-те години. Тя беше насочена към затваряне на материални баланси в производството, където бяха налични измервания за всички променливи.
- В края на 60-те години всички неизмерени променливи бяха взети предвид в процеса на съгласуване на данните.
- Динамиката на квазистационарно състояние за филтриране и паралелна оценка на параметрите във времето е въведена през 1977 г. от Стенли и Мах.
- Динамичният DVR е разработен като нелинеен оптимизационен модел, издаден от Liebman през 1992 година
Процес на съгласуване на данните
Видовете методи за съгласуване на данни са:
Съгласуване на основните данни
Съпоставянето на основните данни е техника за съгласуване само на основните данни между източника и целта. Основните данни са предимно непроменящи се или бавно променящи се по природа и не се извършва операция по агрегиране на набора от данни.
Няколко често срещани примера за съгласуване на основните данни са:
- Общ брой редове
- Общо клиент в източника и целта
- Общ брой елементи в източника и целта
- Общ брой на редовете въз основа на дадено условие
- Брой активни потребители
- Брой неактивни потребители и т.н.
Точност на дейността
- Трябва да се уверите, че транзакциите са валидни и са правилни по предназначение.
- Трябва да проверите дали транзакциите са били надлежно разрешени.
Сравнение на транзакционните данни
Транзакционните данни правят основата на BI отчетите. Следователно всяко несъответствие в данните за транзакциите може пряко да повлияе на надеждността на отчета и на цялата BI система като цяло.
Методът за съгласуване на транзакционните данни се използва по отношение на общата сума, която предотвратява всяко несъответствие, причинено от промяна на детайлността на отговарящите на изискванията размери.
Примери за мерки, използвани за съгласуване на данните за транзакциите, трябва да бъдат:
- Сума от общия доход, изчислен от източника и целта
- Сума от целия продаден артикул, изчислена от източника и целта и т.н.
Автоматично съгласуване на данни:
В голямата система за управление на хранилището на данни е удобно да автоматизирате процеса на съгласуване на данните, като направите това като неразделна част от зареждането на данни. Тя ви позволява да поддържате отделни таблици за зареждане на метаданни. Освен това автоматизираното съгласуване ще информира всички заинтересовани страни за валидността на докладите.
Най-добри практики за използване на съгласуване на данни
- Процесът на съгласуване на данните трябва да е насочен към коректни грешки в измерването.
- Грубите грешки трябва да са нула, за да направи процеса на съгласуване на данните ефективен.
- Стандартният подход за съгласуване на данни разчита на просто преброяване на записи, за да се проследи дали целевият брой записи са мигрирали или не.
- Решението за мигриране на данни предоставя подобни възможности за съгласуване и функционалност за прототипиране на данни, което предлага тестване на съгласуване на данни в пълен обем.
Инструменти за съгласуване на данни
1) OpenRefine
OpenRefine, който е известен по-рано като Google Refine, е полезна рамка за съгласуване на базата данни. Тя ви позволява да почиствате и прехвърляте разхвърляни данни.
Връзка за изтегляне: https://openrefine.org/
2) TIBCO Яснота
Този инструмент за съгласуване на данни предлага софтуерни услуги при поискване от мрежата под формата на софтуер като услуга. Позволява на потребителите да валидират данните и да ги почистват. Той осигурява пълни функции за тестване на съгласуване. Широко се използва в ETL процес.
Връзка за изтегляне: https://clarity.cloud.tibco.com/landing/index.html
3) Winpure
Winpure е достъпен и точен софтуер за почистване на данни. Тя ви позволява да почиствате голямо количество данни, премахвайки дубликати, коригирайки и стандартизирайки, за да проектирате окончателния набор от данни.
Връзка за изтегляне: https://winpure.com/
Обобщение
- Валидирането и съгласуването на данни (DVR) е технология, която използва математически модели за обработка на информация.
- Използването на съгласуване на данни ви помага да извлечете точна и надеждна информация за състоянието на индустриалния процес от сурови данни за измерване.
- Брутната грешка, наблюдаемостта, отклонението, резервирането са важни термини, използвани в процеса на съгласуване на данните
- Проверката и съгласуването на данните започнаха в началото на 60-те години.
- Три вида методи за съгласуване на данни са 1) Съгласуване на основните данни 2) Съгласуване на транзакционни данни 3) Автоматизирано съгласуване на данни
- Грубите грешки трябва да са нула, за да направи процеса на съгласуване на данните ефективен.
- Някои важни инструменти за съгласуване на данни са: 1) OpenRefine 2) TIBCO 3) Winpure
- Този метод се използва широко за мониторинг на производителността и процесите в рафинирането на петрол / ядрената / химическата промишленост