Ясла за статистически грешки и достоверността на алгоритмите

Споделете поста "яслите за статистически грешки и достоверността на алгоритмите."

Най-важното нещо в статистиката - е да се знае как грешиш. Следователно, има много различни начини за изчисляване на грешката на алгоритъма да се разбере как точно си мислиш, това, което си мислите, и това, което в действителност. В този пост, аз написах за парадокса Симпсън, тип I и грешки от тип II, точността и силата на алгоритми.







Защото всяко нещо, което може да се каже, така и така да се каже на хората да разберат, ние ще разгледаме един интересен пример (или дори защото примерите за болести и диагнози ме добре).

Целева в САЩ, това е като нашата лента. Въз основа на анализ на данни (много голям обем), те препоръчват продукти, отстъпки изпращане обикновена поща (САЩ, не забравяйте!). И там е един баща е бил изненадан, че дъщеря ми идва от мишената с каталог, а има и отстъпки за продукти за бременни ... По принцип той дойде да ги викам ... И те помоли да стартирате теста направено. В общи линии, да променят предпочитанията на покупката, те са имали най-много момичета са се научили, че е време да се погрижи за количката.

В този случай ние Въведените съответства на реалната ситуация и прогнози. Това се нарича действително положителни опция.

Ако едно момиче е купил на личния си карта (или кредитна карта, в зависимост от това как прикрепен към Target'e информация) неща за бременната си приятелка, а тя щеше да бъде изпратен след тази директория, тогава алгоритъмът би било грешка от първи вид (фалшиво положителни разтвор).







Ако директорията, за бременни, че не е било изпратено чрез анализиране на закупуването му, че би било грешка от втори ред (фалшиво отрицателни опция). В класическия обяснение на темата, винаги казват, че фалшиво отрицателни - вероятно се счита за болен човек здрав, когато се изгради хипотези.

Е, това остава като вариант, като тя не е бременна, а тя не изпрати каталога - алгоритъма правилно обработени и нищо не се е случило. Вярно ли е, липса на опция.

Нивото на значението и силата на тест (или алгоритъм)

Каква е статистическата грешка

Вероятността за грешка от първи вид се нарича ниво на значимост. Като правило, това ниво и се ръководим, избирайки алгоритми за тестване на хипотези в статистиката. Тя представлява вероятността да се отхвърли хипотезата, че всъщност е вярно (на снимката в ляво - точните стойности)

Вероятността за грешка от втория вид - е вероятността за приемане на хипотезата, когато тя всъщност не е вярно. Но само по себе си не е необходимо вероятността от втори вид грешка на никого, и желаната стойност 1 - тази вероятност. Това е - мощност на теста. Тя показва колко добре алгоритъма разделя края на хипотезата, когато класове са много сходни.

В нашия пример, подобряване на чувствителността на алгоритъм ще доведе до повишен риск от тип I грешка (фалшива тревога, фалшиво положителни) и намаляването на чувствителността - да увеличи риска от грешки тип II (фалшиво отрицателни, като прескочите тези хора, които могат да дадат отстъпки за продукти, които те могат да бъдат лихви).

ROC-крива, грешки на кривата

Стойността на грешката от първи вид или втория вид не дава информация за това как добър алгоритъм, като цяло. има голям показател, за да се разбере колко добър алгоритъм или критерий - ROC-крива. Тя показва незабавно и делът на правилно разпознати класове и да споделят погрешно отхвърлят хипотези. В този случай, най-горния номер тук - AUC - площ под кривата. Нещо повече, по-добре, при 0.5 отговаря на лесен предположение, и 1 - 100% точни прогнози.

Споделете поста "яслите за статистически грешки и достоверността на алгоритмите."