Какво е ГОЛЕМИ ДАННИ? Въведение, типове, характеристики, пример

Съдържание:

Anonim

Преди да преминем към въведение в Big Data, първо трябва да знаете

Какво е Данни?

Количествата, символите или символите, върху които се извършват операции от компютър, които могат да се съхраняват и предават под формата на електрически сигнали и да се записват на магнитен, оптичен или механичен записващ носител.

Сега да научим въвеждането на големите данни

Какво представляват големите данни?

Големите данни са колекция от данни, която е огромна по обем, но нараства експоненциално с времето. Това са данни с толкова голям размер и сложност, че никой от традиционните инструменти за управление на данни не може да ги съхранява или обработва ефективно. Големите данни също са данни, но с огромен размер.

В този урок ще научите,

  • Какво е Данни?
  • Какво представляват големите данни?
  • Примери за големи данни
  • Видове големи данни
  • Характеристики на големите данни
  • Предимства на обработката на големи данни

Примери за големи данни

Следват някои от примерите за големи данни -

На борсата в Ню Йорк генерира около един терабайт на нови данни за търговията на ден.

Социална медия

Статистиката показва, че 500 + терабайта нови данни се поглъщат в базите данни на сайта на социалните медии Facebook , всеки ден. Тези данни се генерират главно по отношение на качване на снимки и видео, обмен на съобщения, пускане на коментари и др.

Един двигател Jet може да генерира 10 + терабайта данни за 30 минути полетно време. С много хиляди полета на ден, генерирането на данни достига до много петабайта.

Видове големи данни

Следват типовете големи данни:

  1. Структуриран
  2. Неструктуриран
  3. Полуструктурирана

Структуриран

Всички данни, които могат да бъдат съхранявани, достъпни и обработвани под формата на фиксиран формат, се наричат ​​„структурирани“ данни. С течение на времето талантът в компютърните науки постигна по-голям успех в разработването на техники за работа с такъв тип данни (където форматът е добре известен предварително) и също така извлича стойност от това. В днешно време обаче предвиждаме проблеми, когато размерът на такива данни нараства до огромна степен, типичните размери са в яростта на множество зетабайта.

Знаеш ли? 10 21 байта, равни на 1 зетабайт или един милиард терабайта, образуват зетабайт .

Разглеждайки тези цифри, лесно можете да разберете защо се дава името Big Data и да си представите предизвикателствата, свързани с неговото съхранение и обработка.

Знаеш ли? Данните, съхранявани в релационна система за управление на база данни, са един пример за „структурирани“ данни.

Примери за структурирани данни

Таблица „Служител“ в база данни е пример за структурирани данни

Служител_ID Име на служителя Пол Отдел Заплата_В_лаци
2365 Раджеш Кулкарни Мъжки Финанси 650000
3398 Пратибха Джоши Женски пол Администратор 650000
7465 Шушил Рой Мъжки Администратор 500000
7500 Шубходжит Дас Мъжки Финанси 500000
7699 Прия Сане Женски пол Финанси 550000

Неструктуриран

Всички данни с неизвестна форма или структура се класифицират като неструктурирани данни. Освен че размерът е огромен, неструктурираните данни поставят множество предизвикателства по отношение на тяхната обработка за извличане на стойност от тях. Типичен пример за неструктурирани данни е хетерогенен източник на данни, съдържащ комбинация от прости текстови файлове, изображения, видеоклипове и т.н. Сега дневните организации разполагат с богата информация, но за съжаление те не знаят как да извлекат стойност от тях тези данни са в суров вид или неструктуриран формат.

Примери за неструктурирани данни

Резултатът, върнат от „Търсене в Google“

Полуструктурирана

Полуструктурираните данни могат да съдържат и двете форми на данни. Можем да видим полуструктурирани данни като структурирани по форма, но всъщност те не са дефинирани например с дефиниция на таблица в релационна СУБД. Пример за полуструктурирани данни са данни, представени в XML файл.

Примери за полуструктурирани данни

Лични данни, съхранявани в XML файл-

Prashant RaoMale35Seema R.Female41Satish ManeMale29Subrato RoyMale26Jeremiah J.Male35

Растеж на данни през годините

Моля, имайте предвид, че данните на уеб приложенията, които са неструктурирани, се състоят от регистрационни файлове, файлове с история на транзакциите и т.н. OLTP системите са изградени за работа със структурирани данни, в които данните се съхраняват в релации (таблици).

Характеристики на големите данни

Големите данни могат да бъдат описани със следните характеристики:

  • Сила на звука
  • Разнообразие
  • Скорост
  • Променливост

(i) Обем - Самото име Big Data е свързано с размер, който е огромен. Размерът на данните играе изключително важна роля при определянето на стойността на данните. Също така дали конкретни данни всъщност могат да се считат за големи данни или не, зависи от обема на данните. Следователно „обемът“ е характеристика, която трябва да се има предвид при работа с големи данни.

(ii) Разнообразие - Следващият аспект на големите данни е неговото разнообразие .

Разнообразието се отнася до разнородни източници и естеството на данните, както структурирани, така и неструктурирани. По-рано електронните таблици и бази данни бяха единствените източници на данни, разглеждани от повечето приложения. В наши дни в приложенията за анализ се разглеждат и данни под формата на имейли, снимки, видеоклипове, устройства за наблюдение, PDF файлове, аудио и др. Това разнообразие от неструктурирани данни поставя определени проблеми за съхранение, добив и анализ на данни.

(iii) Скорост - Терминът „скорост“ се отнася до скоростта на генериране на данни. Колко бързо се генерират и обработват данните, за да отговорят на изискванията, определя реалния потенциал на данните.

Big Data Velocity се занимава със скоростта, с която данните се вливат от източници като бизнес процеси, регистрационни файлове на приложения, мрежи и сайтове за социални медии, сензори, мобилни устройства и др. Потокът от данни е масивен и непрекъснат.

(iv) Променливост - Това се отнася до несъвместимостта, която може да се покаже от данните понякога, като по този начин възпрепятства процеса на ефективна обработка и управление на данните.

Предимства на обработката на големи данни

Възможността за обработка на големи данни носи множество предимства, като например

    • Бизнесът може да използва външна информация, докато взема решения

Достъпът до социални данни от търсачките и сайтове като facebook, twitter позволяват на организациите да прецизират своите бизнес стратегии.

    • Подобрено обслужване на клиентите

Традиционните системи за обратна връзка с клиентите се заменят с нови системи, проектирани с технологиите за големи данни. В тези нови системи се използват големи данни и технологии за обработка на естествен език за четене и оценка на отговорите на потребителите.

    • Ранно идентифициране на риска за продукта / услугите, ако има такъв
    • По-добра оперативна ефективност

Технологиите за големи данни могат да се използват за създаване на подреждаща зона или зона за кацане за нови данни, преди да се идентифицират какви данни трябва да бъдат преместени в хранилището за данни. В допълнение, такава интеграция на технологиите за големи данни и хранилището на данни помага на организацията да разтовари рядко достъпни данни.

Обобщение

  • Определение за големи данни: Големите данни се определят като данни с огромен размер. Bigdata е термин, използван за описване на колекция от данни, която е с огромни размери и въпреки това нараства експоненциално с времето.
  • Примерите за анализ на големи данни включват фондови борси, сайтове за социални медии, реактивни двигатели и др.
  • Големите данни могат да бъдат 1) Структурирани, 2) Неструктурирани, 3) Полуструктурирани
  • Обем, разнообразие, скорост и променливост са няколко характеристики на големите данни
  • Подобреното обслужване на клиентите, по-добрата оперативна ефективност, по-доброто вземане на решения са малко предимства на Bigdata