Файл: 5 тарау. Кп абатты перцептрондар.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 22.11.2023

Просмотров: 123

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Әрбір адамның гендері оларды бірегей түрде анықтайтындықтан (бірдей ағайындыларды елемей), барлық деректер жинағын есте сақтауға болады.

Біз модельіміздің: «Бұл Боб! Мен оны есіме аламын! Оның деменциясы бар!» деп айтқанын қаламаймыз. Себебі өте қарапайым. Болашақта модельді қолданған кезде біз модель бұрын көрмеген науқастарды кездестіреміз. Біздің болжамдарымыз тек біздің модель жалпы үлгіні анықтаған жағдайда ғана пайдалы болады.

Егер біз формальды түрде қорытындыласақ, біздің мақсатымыз - оқу жиынтығынан алынған негізгі популяциядағы заңдылықтарды көрсететін үлгілерді анықтау. Егер біз осы іс-әрекетте сәттілікке жететін болсақ, онда біз бұрын-соңды кездестірмеген адамдар үшін де қауіпті сәтті бағалай аламыз.

Бұл мәселе - жалпылама заңдылықтарды қалай анықтауға болады? деген сұрақ - машиналық оқытудың негізгі мәселесі.

Туындаған қауіптілік ол – үлгілерді оқыту кезінде біз деректердің шағын үлгісіне ғана қол жеткізе аламыз. Ең үлкен жалпыға ортақ кескін деректер жиыны шамамен бір миллион кескінді қамтиды. Көбінесе біз мыңдаған немесе он мыңдаған деректер нүктелерінен ғана үйренуіміз керек. Үлкен аурухана жүйесінде біз жүздеген мың медициналық жазбаларға қол жеткізе аламыз. Ақырғы үлгілермен жұмыс істегенде, біз көбірек деректер жинаған кезде расталмайтын айқын ассоциацияларды табу қаупін тудырамыз.

Если вы изменили структуру модели или гиперпараметры во время эксперимента, вы могли заметить, что с достаточным количеством нейронов, слоев и эпох обучения модель может в конечном итоге достичь идеальной точности на обучающем наборе, даже если точность тестовых данных ухудшается Жаттығу деректерін негізгі үлестірімге сәйкестендіріп қою құбылысы шамадан тыс қайта оқыту деп аталады, ал шамадан тыс қайта оқытумен күресу үшін қолданылатын әдістер регуляризация деп аталады. Алдыңғы бөлімдерде бұл әсерді FashionMNIST деректер жинағымен тәжірибе жасау арқылы байқауға болады. Тәжірибе барысында модель құрылымын немесе гиперпараметрлерді өзгертсеңіз, жеткілікті нейрондар, қабаттар және жаттығу дәуірлері болған кезде, сынақ деректерінің дәлдігі төмендесе де, модель ақыр соңында жаттығу жиынында дәл дәлдікке қол жеткізе алатынын байқауыңыз мүмкін.


      1. Оқыту қатесі және жалпылау қатесі

Бұл құбылысты формальды түрде талқылау үшін оқыту қатесі мен жалпылау қатесін ажыратуымыз керек. оқыту қатесі - оқыту деректер жинағында есептелген біздің үлгі қатесі, ал жалпылау қатесі - егер біз оны бастапқы іріктеу сияқты бірдей негізгі деректер үлестірімінен алынған қосымша мәліметтер нүктелерінің шексіз ағынына қолдансақ, біздің модельдегі қатені күту.

Туындайтын мәселе бұл біз ешқашан жалпылау қатесін дәл есептей алмаймыз. Себебі шексіз деректер ағыны ойдан шығарылған нысан болып табылады. Тәжірибеде біз жалпылау қатесін біздің оқыту жинағына қосылмаған деректер нүктелерінің кездейсоқ жиынынан тұратын тәуелсіз сынақ жиынына моделімізді қолдану арқылы бағалауымыз керек.

Келесі үш ойлау эксперименті бұл жағдайды жақсырақ шешуге көмектеседі. Колледж студентінің қорытынды емтиханға дайындалып жатқанын елестетіп көріңіз. Еңбекқор студент жақсы жаттығуға және өткен жылдардағы емтихандарда өз қабілеттерін сынауға тырысады. Дегенмен, өткен емтихандардағы жақсы нәтижелер оның қажет болған кезде тағы да жақсы болатынына кепілдік бермейді. Мысалы, студент емтиханның жауаптарын есте сақтауға тырысуы мүмкін. Бұл оқушының көп нәрсені есте сақтауын талап етеді. Мүмкін ол тіпті өткен емтихандардағы жауаптарды жақсы есте сақтайды. Басқа оқушы белгілі бір жауаптардың себептерін түсінуге тырысып, дайындалады. Көп жағдайда соңғы студент әлдеқайда жақсы нәтижеге қол жеткізеді.

Сол сияқты, сұрақтарға жауап беру үшін жай іздеу кестесін қолданатын үлгіні қарастырыңыз. Егер жарамды кірістер жиыны дискретті және жеткілікті аз болса, онда көптеген оқыту мысалдарын қарағаннан кейін бұл тәсіл жақсы жұмыс істейді. Дегенмен, бұл модель бұрын-соңды көрмеген мысалдармен бетпе-бет келгенде кездейсоқ болжаудан жақсы нәтиже бере алмайды. Шын мәнінде, енгізу өрістері әрбір болжанатын енгізуге сәйкес жауаптарды есте сақтау үшін тым үлкен. Мысалы, 28×28 қара-ақ кескінді қарастырайық. Егер әрбір пиксель 256 сұр реңктің біреуін қабылдай алатын болса, онда 256 784 мүмкін кескін бар. Бұл ғаламдағы атомдарға қарағанда ажыратымдылығы төмен сұр реңктері мен миниатюралық кескіндердің әлдеқайда көп екенін білдіреді. Мұндай деректерге тап болған күннің өзінде, біз іздеу кестесін сақтауға ешқашан мүмкіндігіміз жоқ.

Соңында, қол жетімді болуы мүмкін кейбір контекстік мүмкіндіктерге негізделген монета лақтыру нәтижелерін (0-класс: тиын беті, 1-класс: елтаңба жағы) жіктеуге тырысу мәселесін қарастырамыз. Монета симметриялы деп есептейік.



Қандай алгоритм ойлап тапсақ та, жалпылау қатесі әрқашан 1/2 болады. Дегенмен, көптеген алгоритмдер үшін бізде ешқандай мүмкіндік болмаса да, ұтыс ойынының сәттілігіне байланысты жаттығу қателігі айтарлықтай төмен болады деп күтуіміз керек! {0, 1, 1, 1, 0, 1} деректер жиынын қарастырайық.

Біздің функционалды емес алгоритміміз әрдайым шектеулі іріктеуден көрінетін 1-ге тең көпшілік классты болжауға жүгінуі керек еді. Бұл жағдайда әрдайым 1-сыныпты болжайтын модель 1/3 қатеге әкеледі, бұл біздің жалпылау қателігімізден әлдеқайда жақсы. Деректер саны өскен сайын, тиын бетінің үлесі 1/2-ден айтарлықтай ауытқу ықтималдығы төмендейді және біздің оқыту қателігіміз жалпылау қатесіне сәйкес келеді.

Статистикалық оқыту теориясы

Жалпылау машиналық оқытудағы іргелі мәселе болғандықтан, көптеген математиктер мен теоретиктердің осы құбылысты сипаттау үшін формальды теорияларды әзірлеуге өз өмірін арнағанын білгенде таң қалмауыңыз мүмкін. Гливенко мен Кантелли өздерінің аттас теоремасында оқу қатесінің жалпылау қатесіне жақындау жылдамдығын шығарды. Негізгі мақалалар сериясында Вапник пен Червоненкис бұл теорияны функциялардың жалпы кластарына дейін кеңейтті.

Бұл жұмыс статистикалық оқыту теориясының негізін қалады. Біз осы уақытқа дейін сілтеме жасап келген және осы кітаптың көп бөлігінде ұстанатын стандартты бақыланатын оқыту қондырғысында біз оқыту және тестілеу деректері бірдей үлестірімдерден тәуелсіз алынған деп есептейміз. Бұл әдетте i.i.d. болжау деп аталады, бұл біздің деректерімізді алатын процесте жады жоқ дегенді білдіреді. Басқаша айтқанда, екінші сызылған және үшінші сызылған мысал екінші және екі миллион долларлық өрнектерден артық емес.

Жақсы машина үйренуші болу үшін сіз сыни тұрғыдан ойлауыңыз керек және сіз бұл болжам орындалмайтын жалпы жағдайларды ойлап табу арқылы осы болжамда тесіктерді бұрғылауыңыз керек. Егер біз UCSF медициналық орталығындағы пациенттерден жиналған деректер негізінде өлім қаупін болжаушыны үйретіп, оны Массачусетс жалпы ауруханасындағы емделушілерге қолдансақ ше? Бұл бөлу жай ғана бірдей емес. Сонымен қатар, ұтыстарды уақыт бойынша корреляциялауға болады. Егер біз твиттер тақырыптарын жіктесек ше?

Жаңалықтар циклі тәуелсіздік туралы кез келген болжамдарды бұза отырып, талқыланатын тақырыптарда уақытша тәуелділіктер жасайды.

Кейде біз i.i.d. болжамының шамалы бұзылуынан құтыла аламыз және біздің үлгілеріміз керемет жақсы жұмыс істей береді. Өйткені, әрбір нақты қолданбада кем дегенде i.i.d. - жорамалының аздап бұзылуы болады, бірақ бізде бетті тану, сөйлеуді тану және тілді аудару сияқты әртүрлі қолданбаларға арналған көптеген пайдалы құралдары бар..


Басқа бұзушылықтар міндетті түрде қиындық тудырады. Мысалы, біз бетті тану жүйесін тек университет студенттеріне арнап оқытуға тырысамыз, содан кейін оны қарттар үйінде гериатрияны бақылау құралы ретінде орналастырғымыз келеді. Оның жұмыс істеуі екіталай, өйткені колледж студенттері әдетте қарт адамдардан ерекшеленеді.

Келесі тарауларда біз і.i.d.-болжамдарды бұзу нәтижесінде туындайтын мәселелерді талқылаймыз. Қазіргі уақытта і.i.d.-болжамды қабылдау, жалпылауды түсіну - үлкен мәселе. Сонымен қатар, терең нейрондық желілердің неге соншалықты жалпыланғанын түсіндіретін нақты теориялық негіздерді білу, оқыту теориясының ең үлкен ақыл-ойларын қарастыру жалғасуда.

Біз модельдерімізді оқытқан кезде, біз оқу мәліметтеріне сәйкес келетін функцияны табуға тырысамыз. Егер функция икемді болса, ол күрделі үлгілерді шынайы қауымдастықтар сияқты оңай ала алады, онда ол көрінбейтін деректерге жақсы жалпыланған модель жасамай-ақ өте жақсы жұмыс істей алады. Бұл біз аулақ болғымыз келетін немесе, кем дегенде, басқарғымыз келетін нәрсе. Терең оқытудың көптеген әдістері - эвристика және қайта оқытудан қорғауға бағытталған әдістер.

Модельдің күрделілігі

Бізде қарапайым модельдер және көптеген деректер болған кезде, жалпылау қатесі жаттығу қатесіне ұқсайды. Күрделі модельдермен және аз мысалдармен жұмыс істегенде, біз оқыту қателігі азаяды деп күтеміз, бірақ жалпылау алшақтығы өседі. Модельдің күрделілігін нақты не құрайтыны күрделі мәселе. Модельдің жақсы жалпыланатынын көптеген факторлар анықтайды. Мысалы, көп параметрлері бар модель күрделірек деп санауға болады. Параметрлері мәндердің кең ауқымын қабылдай алатын модель күрделірек болуы мүмкін . Көбінесе нейрондық желілерде біз көбірек жаттығу итерацияларын қажет ететін модель күрделі, ал ерте тоқтатуды (жаттығу итерациялары аз) талап ететін модель күрделірек деп ойлаймыз.

Модельдердің айтарлықтай әр түрлі сыныптарының элементтерінің күрделілігін салыстыру қиын болуы мүмкін (мысалы, шешім ағаштары және нейрондық желілер). Қарапайым ереже:

Ерікті фактілерді оңай түсіндіре алатын модель - бұл статистикада күрделі деп санайды, ал шектеулі экспрессивті күші бар, бірақ деректерді жақсы түсіндіре алатын модель шындыққа жақын болуы мүмкін.

Философияда бұл ғылыми теорияның бұрмалануының Поппер критерийімен тығыз байланысты: теория деректерге сәйкес келсе және оны бұрмалау үшін қолданылатын арнайы сынақтар болса жақсы. Бұл өте маңызды, өйткені барлық статистикалық бағалаулар
постериори болып табылады, яғни біз фактілерді көргеннен кейін бағалаймыз, яғни олармен байланысты қателіктерге осал боламыз. Бұл арада біз философияны ысырып қойып, нақтырақ мәселелерге тоқталамыз.

Бұл бөлімде сізге түйсік беру үшін біз модель класының жалпылануына әсер ететін бірнеше факторларға тоқталамыз:

  1. Конфигурацияланатын параметрлер саны. Кейде еркіндік дәрежесі деп аталатын реттелетін параметрлердің саны көп болған кезде, модельдер шамадан тыс орнатуға бейім болады.

  2. Параметрлер бойынша қабылданған мәндер. Салмақ мәндердің кең ауқымын қабылдай алатын болса, модельдер шамадан тыс орнатуға бейім болуы мүмкін.

  3. Оқыту мысалдарының саны. Сіздің моделіңіз қарапайым болса да, тек бір немесе екі мысалдан тұратын мәліметтер жиынтығын қайта құру өте оңай. Бірақ миллиондаған мысалдар жиынтығымен қайта даярлау үшін өте икемді модель қажет.


      1. 1   2   3   4   5   6   7   8   9