Матрица за объркване в машинно обучение с ПРИМЕР

Съдържание:

Anonim

Какво представлява Confusion Matrix?

Матрицата за объркване е техника за измерване на производителността за класификация на машинното обучение. Това е вид таблица, която ви помага да разберете ефективността на класификационния модел на набор от тестови данни, за които са известни истинските стойности. Самият термин „объркана матрица“ е много прост, но свързаната с него терминология може да бъде малко объркваща. Тук е дадено малко просто обяснение за тази техника.

В този урок ще научите,

  • Какво представлява матрицата на объркването?
  • Четири резултата от матрицата на объркването
  • Пример за матрица на объркване:
  • Как да изчислим матрица на объркване
  • Други важни условия, използващи матрица за объркване
  • Защо се нуждаете от матрица за объркване?

Четири резултата от матрицата на объркването

Матрицата на объркването визуализира точността на класификатора чрез сравняване на действителните и прогнозираните класове. Матрицата на двоичното объркване се състои от квадрати:

Таблица за объркване
  • TP: Истински положителни: Прогнозираните стойности са правилно предсказани като действителни положителни
  • FP: Прогнозираните стойности неправилно предсказват действително положително. т.е. отрицателните стойности се предвиждат като положителни
  • FN: False Negative: Положителните стойности се предвиждат като отрицателни
  • TN: Вярно отрицателно: Прогнозираните стойности са правилно предсказани като действително отрицателни

Можете да изчислите теста за точност от матрицата на объркването:

Пример за объркана матрица:

Confusion Matrix е полезен метод за машинно обучение, който ви позволява да измервате кривата Recall, Precision, Accuracy и AUC-ROC. По-долу е даден пример за познаване на термините Истински положителни, Истински отрицателни, Фалшиви отрицателни и Истински отрицателни.

Истински положителни:

Прогнозирахте положително и то се оказа вярно. Например, бяхте предвидили, че Франция ще спечели световната купа и тя спечели.

Вярно отрицателно:

Когато сте предсказали отрицателно, и това е вярно. Бяхте предвидили, че Англия няма да спечели и загуби.

Фалшиво положително:

Вашата прогноза е положителна и е невярна.

Бяхте предвидили, че Англия ще спечели, но загуби.

Фалшиво отрицателно:

Вашата прогноза е отрицателна и резултатът също е невярна.

Бяхте предвидили, че Франция няма да спечели, но победи.

Не забравяйте, че ние описваме предсказаните стойности или като True, или False, или като положителни и отрицателни.

Как да изчислим матрица на объркване

Тук е стъпка по стъпка процес за изчисляване на матрица на объркване при извличане на данни

  • Стъпка 1) Първо, трябва да тествате набор от данни с очакваните стойности на резултата.
  • Стъпка 2) Предскажете всички редове в тестовия набор от данни.
  • Стъпка 3) Изчислете очакваните прогнози и резултати:
  1. Общата сума на правилните прогнози за всеки клас.
  2. Общата сума на неправилните прогнози за всеки клас.

След това тези числа се организират по долупосочените методи:

  • Всеки ред от матрицата се свързва с предвиден клас.
  • Всяка колона на матрицата съответства на действителен клас.
  • Общият брой на правилната и неправилната класификация се въвежда в таблицата.
  • Сумата от правилни прогнози за клас влиза в предсказаната колона и очаквания ред за стойността на този клас.
  • Сумата от неправилни прогнози за клас отива в очаквания ред за тази стойност на класа и в предсказаната колона за тази конкретна стойност на класа.

Други важни условия, използващи матрица за объркване

  • Положителна прогнозна стойност (PVV): Това е много близо до точността. Една съществена разлика между двусрочните е, че PVV взема предвид разпространението. В ситуацията, когато класовете са напълно балансирани, положителната прогнозна стойност е същата като точността.
  • Null Error Rate: Този термин се използва, за да определи колко пъти вашата прогноза би била погрешна, ако можете да предскажете мажоритарния клас. Можете да го разгледате като базов показател за сравняване на вашия класификатор.
  • F Резултат: F1 резултатът е среднопретеглена оценка на истинския положителен (изземване) и точност.
  • Крива на Roc: Кривата на Roc показва истинските положителни проценти спрямо фалшиво положителните проценти при различни точки на отрязване. Той също така демонстрира компромис между чувствителността (изземване и специфичност или истинският отрицателен процент).
  • Прецизност: Метриката за прецизност показва точността на положителния клас. Той измерва колко вероятно е прогнозирането на положителния клас да е правилно.

Максималният резултат е 1, когато класификаторът перфектно класифицира всички положителни стойности. Точността сама по себе си не е много полезна, защото пренебрегва отрицателния клас. Метриката обикновено се сдвоява с метрика за извикване. Изземването се нарича още чувствителност или истински положителен процент.

  • Чувствителност : Чувствителността изчислява съотношението на положително засечените класове правилно. Тази метрика показва колко добър е моделът за разпознаване на положителен клас.

Защо се нуждаете от матрица за объркване?

Ето плюсовете / ползите от използването на матрица за объркване.

  • Той показва как всеки модел на класификация е объркан, когато прави прогнози.
  • Матрицата за объркване не само ви дава представа за грешките, допуснати от вашия класификатор, но и за типовете грешки, които се допускат.
  • Тази разбивка ви помага да преодолеете ограничението да използвате само точността на класификацията.
  • Всяка колона на матрицата за объркване представлява екземплярите на този предсказан клас.
  • Всеки ред от матрицата на объркването представлява екземплярите на действителния клас.
  • Той предоставя прозрение не само за грешките, допуснати от класификатор, но и за грешките, които се допускат.