Машинно обучение без надзор: Какво е, алгоритми, пример

Съдържание:

Anonim

Учене без надзор

Неуправляваното обучение е техника за машинно обучение, при която потребителите не трябва да контролират модела. Вместо това позволява на модела да работи самостоятелно, за да открие модели и информация, които преди това не са били открити. Основно се занимава с немаркирани данни.

Алгоритми за учене без надзор

Алгоритмите за учене без надзор позволяват на потребителите да изпълняват по-сложни задачи за обработка в сравнение с контролираното обучение. Въпреки това, ученето без надзор може да бъде по-непредсказуемо в сравнение с други естествени методи на обучение. Алгоритмите за учене без надзор включват групиране, откриване на аномалии, невронни мрежи и др.

В този урок ще научите:

  • Пример за машинно обучение без надзор
  • Защо обучение без надзор?
  • Видове обучение без надзор
  • Групиране
  • Видове клъстери
  • Асоциация
  • Контролирано срещу ненаблюдавано машинно обучение
  • Приложения на машинно обучение без надзор
  • Недостатъци на ученето без надзор

Пример за машинно обучение без надзор

Нека вземем случая с бебе и семейното й куче.

Тя познава и идентифицира това куче. Няколко седмици по-късно семеен приятел води куче и се опитва да играе с бебето.

Бебе не е виждало това куче по-рано. Но той разпознава много характеристики (2 уши, очи, ходене на 4 крака) са като нейното домашно куче. Тя идентифицира новото животно като куче. Това е учене без надзор, където не ви учат, но се учите от данните (в случая данни за куче.) Ако това беше контролирано обучение, семейният приятел би казал на бебето, че това е куче.

Защо обучение без надзор?

Ето основните причини за използването на обучение без надзор:

  • Ненаблюдаваното машинно обучение открива всички видове неизвестни модели в данните.
  • Методите без надзор ви помагат да намерите функции, които могат да бъдат полезни за категоризиране.
  • Провежда се в реално време, така че всички входни данни да бъдат анализирани и етикетирани в присъствието на обучаеми.
  • По-лесно е да получите немаркирани данни от компютър, отколкото етикетирани данни, които се нуждаят от ръчна намеса.

Видове обучение без надзор

Проблеми с ученето без надзор, допълнително групирани в проблеми с клъстериране и асоцииране.

Групиране

Клъстерирането е важна концепция, когато става въпрос за учене без надзор. Основно се занимава с намирането на структура или модел в колекция от некатегоризирани данни. Алгоритмите за клъстериране ще обработят вашите данни и ще намерят естествени клъстери (групи), ако те съществуват в данните. Можете също така да промените колко клъстери трябва да идентифицират вашите алгоритми. Тя ви позволява да регулирате детайлността на тези групи.

Има различни видове клъстериране, които можете да използвате:

Изключително (разделяне)

В този метод на клъстериране данните са групирани по такъв начин, че дадени данни могат да принадлежат само на един клъстер.

Пример: K-средства

Агломеративен

В тази техника на клъстериране всяка информация е клъстер. Итеративните обединения между двата най-близки клъстера намаляват броя на клъстерите.

Пример: Йерархично групиране

Припокриване

При тази техника се използват размити множества за групиране на данни. Всяка точка може да принадлежи на два или повече клъстера с отделни степени на членство.

Тук данните ще бъдат свързани с подходяща стойност на членството. Пример: Размити C-средства

Вероятностна

Тази техника използва разпределение на вероятностите за създаване на клъстери

Пример: Следване на ключови думи

  • „мъжка обувка“.
  • „дамска обувка“.
  • „дамска ръкавица“.
  • „мъжка ръкавица“.

могат да бъдат групирани в две категории „обувки“ и „ръкавица“ или „мъж“ и „жени“.

Видове клъстери

  • Йерархично групиране
  • K-означава групиране
  • K-NN (k най-близки съседи)
  • Анализ на главния компонент
  • Разлагане на единична стойност
  • Независим анализ на компонентите

Йерархично клъстериране:

Йерархичното клъстериране е алгоритъм, който изгражда йерархия на клъстерите. Започва с всички данни, които са присвоени на собствен клъстер. Тук два близки клъстера ще бъдат в един и същ клъстер. Този алгоритъм приключва, когато е останал само един клъстер.

K-означава клъстериране

K означава, че това е итеративен алгоритъм на клъстериране, който ви помага да намерите най-високата стойност за всяка итерация. Първоначално се избира желаният брой клъстери. В този метод на клъстериране трябва да групирате точките от данни в k групи. По-голямото k означава по-малки групи с повече детайлност по същия начин. По-ниско k означава по-големи групи с по-малко гранулиране.

Резултатът от алгоритъма е група от "етикети". Той присвоява точка с данни на една от k групите. В k-означава групиране, всяка група се дефинира чрез създаване на центроид за всяка група. Центроидите са като сърцето на клъстера, което улавя най-близките до тях точки и ги добавя към клъстера.

K-средната клъстеризация допълнително дефинира две подгрупи:

  • Агломеративно групиране
  • Дендрограма

Агломеративно групиране:

Този тип K-означава групиране започва с фиксиран брой клъстери. Той разпределя всички данни в точния брой клъстери. Този метод на клъстериране не изисква броя на клъстерите K като вход. Процесът на агломерация започва чрез формиране на всяка информация като един клъстер.

Този метод използва някаква мярка за разстояние, намалява броя на клъстерите (по един във всяка итерация) чрез процес на обединяване. И накрая, имаме един голям клъстер, който съдържа всички обекти.

Дендрограма:

В метода на клъстериране на Dendrogram всяко ниво ще представлява възможен клъстер. Височината на дендрограмата показва нивото на сходство между два съединителни клъстера. Колкото по-близо до дъното на процеса, те са по-сходни клъстер, който е откриването на групата от дендрограмата, което не е естествено и предимно субективно.

К- Най-близки съседи

K- най-близкият съсед е най-простият от всички класификатори за машинно обучение. Той се различава от другите техники за машинно обучение по това, че не създава модел. Това е прост алгоритъм, който съхранява всички налични случаи и класифицира нови екземпляри въз основа на мярка за сходство.

Работи много добре, когато има разстояние между примери. Скоростта на обучение е ниска, когато тренировъчният набор е голям и изчисляването на разстоянието е нетривиално.

Анализ на основните компоненти:

В случай, че искате пространство с по-големи размери. Трябва да изберете основа за това пространство и само 200-те най-важни оценки от тази основа. Тази база е известна като основен компонент. Подгрупата, която изберете, представлява ново пространство, което е с малък размер в сравнение с оригиналното пространство. Той поддържа възможно най-много сложността на данните.

Асоциация

Правилата за асоцииране ви позволяват да установявате асоциации между обекти от данни в големи бази данни. Тази техника без надзор е за откриване на интересни връзки между променливи в големи бази данни. Например хората, които купуват нов дом, най-вероятно ще купят нови мебели.

Други примери:

  • Подгрупа от пациенти с рак, групирани по техните измервания на генната експресия
  • Групи купувачи въз основа на тяхната история на сърфиране и покупки
  • Филмова група по рейтинг, даден от зрителите на филми

Контролирано срещу ненаблюдавано машинно обучение

Параметри Техника на машинно обучение под наблюдение Техника на машинно обучение без надзор
Входни данни Алгоритмите се обучават с помощта на етикетирани данни. Алгоритмите се използват срещу данни, които не са етикетирани
Изчислителна сложност Ученото под наблюдение е по-прост метод. Ученето без надзор е изчислително сложно
Точност Изключително точен и надежден метод. По-малко точен и надежден метод.

Приложения на машинно обучение без надзор

Някои приложения на техниките за машинно обучение без надзор са:

  • Клъстерирането автоматично разделя набора от данни на групи въз основа на техните прилики
  • Откриването на аномалии може да открие необичайни точки от данни във вашия набор от данни. Полезно е за намиране на измамни транзакции
  • Асоциативното копаене идентифицира набори от елементи, които често се срещат заедно във вашия набор от данни
  • Латентните променливи модели се използват широко за предварителна обработка на данни. Като намаляване на броя на функциите в набор от данни или разлагане на набора от данни на множество компоненти

Недостатъци на ученето без надзор

  • Не можете да получите точна информация относно сортирането на данните, а изходът като данни, използвани в обучение без надзор, е етикетиран и неизвестен
  • По-малко точност на резултатите е, защото входните данни не са известни и не са етикетирани от хората предварително. Това означава, че машината изисква да направи това сама.
  • Спектралните класове не винаги съответстват на информационните класове.
  • Потребителят трябва да отдели време за тълкуване и етикетиране на класовете, които следват тази класификация.
  • Спектралните свойства на класовете също могат да се променят с течение на времето, така че не можете да имате една и съща информация за класа, докато се премествате от едно изображение на друго.

Обобщение

  • Неуправляваното обучение е техника за машинно обучение, при която не е необходимо да контролирате модела.
  • Неуправляваното машинно обучение ви помага да намерите всички видове неизвестни модели в данните.
  • Клъстерирането и асоциирането са два вида учене без надзор.
  • Четири типа методи за клъстериране са 1) Изключителен 2) Агломеративен 3) Припокриващи се 4) Вероятностен.
  • Важни видове клъстериране са: 1) Йерархично клъстериране 2) K-означава клъстериране 3) K-NN 4) Анализ на основен компонент 5) Разлагане на единична стойност 6) Независим анализ на компоненти.
  • Правилата за асоцииране ви позволяват да установявате асоциации между обекти от данни в големи бази данни.
  • В контролираното обучение алгоритмите се обучават с помощта на етикетирани данни, докато в контролираното обучение алгоритмите се използват срещу данни, които не са етикетирани.
  • Откриването на аномалии може да открие важни точки от данни във вашия набор от данни, което е полезно за намиране на измамни транзакции.
  • Най-големият недостатък на обучението без надзор е, че не можете да получите точна информация относно сортирането на данни.