Файл: Мы живем в эпоху алгоритмов. Всего лишь одно или два поколения назад упоминание слова алгоритм вызвало бы недовольство у большинства людей. Сегодня алгоритмы есть во всех уголках цивилизации.docx

ВУЗ: Не указан

Категория: Не указан

Дисциплина: Не указана

Добавлен: 12.12.2023

Просмотров: 16

Скачиваний: 1

ВНИМАНИЕ! Если данный файл нарушает Ваши авторские права, то обязательно сообщите нам.


Когда мы смотрим на машинное обучение с этой точки зрения, сразу бросаются в глаза две вещи. Во-первых, чем больше у нас данных, тем больше мы можем узнать. Нет данных? Нечего учиться. Большие данные? Есть чему поучиться. Вот почему машинное обучение стало появляться повсюду благодаря экспоненциально растущим горам данных. Если бы машинное обучение можно было купить в супермаркете, его машина говорила бы: «Просто добавьте данные».

Во-вторых, машинное обучение - это меч, которым можно победить монстра сложности. При наличии достаточного количества данных обучающая программа, состоящая всего из нескольких сотен строк, может легко создать программу с миллионами строк, и она может делать это снова и снова для различных задач. Снижение сложности для программиста феноменально. Конечно, как и у Гидры, у сложного монстра появляются новые головы, как только мы отрезаем старые, но они начинаются меньше и вырастают через некоторое время , так что мы все равно получаем большую ногу.

Мы можем думать о машинном обучении как о инверсии программирования, точно так же, как квадратный корень является обратным квадрату, а интегрирование - обратным дифференцированию. Так же, как мы можем спросить: «Какое число в квадрате дает 16?» или «Какая функция имеет производную x + 1?» мы можем спросить: «Какой алгоритм производит этот результат?» Скоро мы увидим, как превратить это понимание в конкретные алгоритмы обучения.

Некоторые учащиеся получают знания, а некоторые - навыки. «Все люди смертны» - это часть знания. Езда на велосипеде - это навык. В машинном обучении знания часто представлены в форме статистических моделей, потому что большая часть знаний - это статистика : класс = "подчеркивание": все люди смертны, но только 4 процента - американцы. Навыки часто имеют форму процедур: если дорога поворачивает налево, поверните колесо налево; если перед вами прыгнет олень, нажмите на тормоза. (К сожалению, на момент написания этой статьи в беспилотных автомобилях Google все еще путают взорванные ветром пластиковые пакеты с оленями.) Часто процедуры довольно просты, а сложными являются их знания. Если вы можете определить, какие электронные письма являются спамом, вы знаете, какие из них нужно удалить. Если вы можете сказать, насколько хороша позиция на доске в шахматах, вы знаете, какой ход сделать (один ход ведет к лучшей позиции).


Машинное обучение принимает множество различных форм и носит множество разных названий: распознавание образов, статистическое моделирование, интеллектуальный анализ данных, обнаружение знаний, прогнозная аналитика, наука о данных, адаптивные системы, самоорганизующиеся системы и многое другое. Каждый из них используется разными сообществами и имеет разные ассоциации. У некоторых длительный период полураспада, у некоторых - меньше. В этой книге я использую термин машинное обучение, чтобы обозначить их все в широком смысле.

Машинное обучение иногда путают с искусственным интеллектом (или сокращенно ИИ). Технически машинное обучение - это подразделение ИИ, но оно стало настолько большим и успешным, что теперь затмевает своего гордого родителя. Цель ИИ - научить компьютеры делать то, что люди в настоящее время делают лучше, и обучение, возможно, является самой важной из этих вещей: без него ни один компьютер не сможет угнаться за человеком ; с ним следует остальное.

В экосистеме обработки информации учащиеся - суперхищники . Базы данных, сканеры, индексаторы и т. Д. - это травоядные животные, терпеливо копающиеся в бесконечных полях данных. Статистические алгоритмы, онлайн-аналитическая обработка и так далее - хищники. Травоядные животные необходимы, поскольку без них не могли бы существовать другие, но суперхищники живут более увлекательной жизнью. Ползунок похож на корову, сеть - это всемирный луг, каждая страница - это травинка. Когда поисковый робот завершает работу, копия Интернета остается на его жестких дисках. Затем индексатор составляет список страниц, на которых появляется каждое слово, во многом аналогично указателю в конце книги. Базы данных, как слоны, большие и тяжелые, и их никогда не забывают. Среди этих терпеливых зверей работают статистические и аналитические алгоритмы, уплотняющие и выбирающие, превращая данные в информацию. Учащиеся поглощают эту информацию, переваривают ее и превращают в знания.

Эксперты по машинному обучению (также известные как машинное обучение) являются элитным священником даже среди компьютерных ученых. Многие компьютерные ученые, особенно представители старшего поколения, не понимают машинное обучение так хорошо, как им хотелось бы. Это связано с тем, что информатика традиционно строилась на детерминированном мышлении, но машинное обучение требует мышления статистически. Если правило, скажем, помечает электронные письма как спам с точностью 99%, это не значит, что оно содержит ошибки; это может быть лучшее, что вы можете сделать, и достаточно хорошее, чтобы быть полезным. Это различие в мышлении - большая часть того, почему Microsoft гораздо труднее догнать Google, чем Netscape. В конце концов, браузер - это просто стандартное программное обеспечение, но поисковая машина требует другого мышления.



Еще одна причина, по которой машинное обучение так сильно увлечено, состоит в том, что в мире их гораздо меньше, чем нужно, даже по и без того ужасным стандартам информатики. По словам технического гуру Тима О'Рейли, «специалист по данным» - самая популярная должность в Кремниевой долине. По оценкам McKinsey Global Institute, к 2018 году только Соединенным Штатам потребуется на 140-190 тысяч больше экспертов по машинному обучению, чем будет доступно, и на 1,5 миллиона больше менеджеров, разбирающихся в данных. Применение машинного обучения стало слишком быстрым, чтобы образование могло успевать за ним, и оно имеет репутацию сложного предмета. Учебники могут вызвать расстройство желудка по математике. Однако эта трудность более очевидна, чем реальна. Все важные идеи машинного обучения можно выразить без математики. Читая эту книгу, вы, возможно, даже изобретаете свои собственные алгоритмы обучения, не обращая внимания ни на какое уравнение.

Промышленная революция автоматизировала ручную работу, а информационная революция сделала то же самое с умственной работой, но машинное обучение автоматизирует саму автоматизацию. Без него программисты становятся узким местом, сдерживающим прогресс. С этим темп прогресса ускоряется. Если вы ленивый и не слишком сообразительный компьютерный ученый, машинное обучение - идеальное занятие, потому что алгоритмы обучения делают всю работу, но позволяют вам взять на себя все заслуги. С другой стороны, алгоритмы обучения могут лишить нас работы, что было бы лишь поэтической справедливостью.

Поднимая автоматизацию на новый уровень, революция машинного обучения вызовет обширные экономические и социальные изменения, как это сделали в свое время Интернет, персональный компьютер, автомобиль и паровой двигатель. Одна из областей, где эти изменения уже очевидны, - это бизнес.

Почему предприятия используют машинное обучение

Почему Google стоит намного больше, чем Yahoo? Оба они зарабатывают деньги на показе рекламы в Интернете, и оба являются популярными направлениями. Оба используют аукционы для продажи рекламы и машинное обучение, чтобы предсказать, насколько вероятно, что пользователь нажмет на объявление (чем выше вероятность, тем ценнее реклама). Но алгоритмы обучения Google намного лучше, чем у Yahoo. Конечно, это не единственная причина разницы в их рыночной капитализации, но она большая. Каждый прогнозируемый клик, которого не происходит, - это упущенная возможность для рекламодателя и упущенная выгода для веб-сайта. При годовом доходе Google в 50 миллиардов долларов каждый 1 процент улучшения предсказания кликов потенциально означает для компании еще полмиллиарда долларов в банке каждый год. Неудивительно, что Google - большой поклонник машинного обучения, а Yahoo и другие стараются наверстать упущенное.


Интернет-реклама - это всего лишь одно из проявлений гораздо большего явления. На каждом рынке производителям и потребителям необходимо установить связь, прежде чем может произойти транзакция. В те времена, когда еще не было Интернета, основными препятствиями на этом пути были физические. Вы могли покупать книги только в местном книжном магазине, а в вашем местном книжном магазине было ограниченное пространство на полках. Но когда вы можете загрузить любую книгу в свою электронную книгу в любое время, проблема становится огромным количеством вариантов. Как вы просматриваете полки книжного магазина, в котором продаются миллионы книг? То же самое и с другими информационными товарами: видео, музыка, новости, твиты, блоги, простые старые веб-страницы. Это также касается всех продуктов и услуг, которые можно приобрести удаленно: обувь, цветы, гаджеты, гостиничные номера, обучение, инвестиции. Это касается даже людей, ищущих работу или свидание. Как вы находите друг друга? Это определяющая проблема информационного века, и машинное обучение - большая часть решения.

По мере роста компании проходят три фазы. Во-первых, они все делают вручную: владельцы семейных магазинов лично знают своих клиентов, соответственно заказывают, демонстрируют и рекомендуют товары. Это хорошо, но не масштабируется. На втором и наименее удачном этапе компания становится достаточно большой, чтобы использовать компьютеры. Приходят программисты, консультанты и менеджеры баз данных, а также пишутся миллионы строк кода для автоматизации всех функций компании, которые можно автоматизировать. Обслуживается гораздо больше людей, но решения принимаются не так, как welclass = "underline", на основе грубых демографических категорий, а компьютерные программы слишком жесткие, чтобы соответствовать бесконечной универсальности людей.

Спустя какое-то время программистов и консультантов для выполнения всего необходимого просто не хватает, и компания неизбежно обращается к машинному обучению. Amazon не может точно закодировать вкусы всех своих клиентов в компьютерной программе, а Facebook не знает, как написать программу, которая будет выбирать лучшие обновления для показа каждому из своих пользователей. Walmart продает миллионы товаров, и каждый день у него есть миллиарды вариантов выбора; если бы программисты из Walmart попытались написать программу, которая бы их создавала, они бы никогда не закончили. Вместо этого эти компании отвлекают алгоритмы обучения от гор накопленных данных и позволяют им угадывать, чего хотят клиенты.


Алгоритмы обучения - это сватовство: они находят производителей и потребителей друг для друга, преодолевая информационную перегрузку. Если они достаточно сообразительны, вы получите лучшее из обоих миров: широкий выбор и низкую стоимость большого масштаба с индивидуальным подходом к маленькому. Учащиеся не идеальны, и последний шаг в принятии решения обычно остается за людьми, но учащиеся разумно сводят свой выбор к тому, чем может управлять человек.