Andrew ng machine learning на русском

Содержание

Как выглядят фермы для майнинга

Несмотря на то, что код протокола криптовалюты и код клиента открыты для всеобщего доступа, создание монет является трудным и дорогостоящим делом. А в случае непрофессионализма команды — это еще и опасно.
Невозможно создать больше биткоинов, чем это предусмотрено разработчиком технологии. Для получения новых монет требуются значительные затраты на оборудование, аренду подходящих помещений, электроэнергию и обеспечение нужного охлаждения.

Поэтому, биткоины называются «цифровым золотом» и изображаются в виде монет. Чем больше устройств для майнинга в сети, тем выше уровень ее защиты от возможных атак. Это главный принцип децентрализации.

Майнингом называется процесс вычисления криптографической подписи блока — массива информации, содержащего данные о транзакциях, попавших в сеть после формирования предыдущего блока.

Говоря простыми словами, майнинг — это поддержание проведения транзакций, а мнение, что он изначально выступает генератором криптовалюты, является ошибочным.
Участник сети, вычисливший подпись блока, становится обладателем вознаграждения в виде криптовалюты. Для того чтобы его получить, приходится перебрать множество неподходящих к блоку хэшей, пока среди них не найдется правильный.
Одним из главных преимуществ биткоина над обычными фиатными валютами является его децентрализация (независимость от единого центра управления или организации). Децентрализация обеспечивается майнерами, рассредоточенными по всему миру.

Если часть вычислительных мощностей перестанет работать, то транзакции в сети все равно не остановятся. Чтобы добиться этого, потребуется отключить абсолютно всех майнеров.
Майнинг выступает основой целостности системы Bitcoin и других видов криптовалют.

Именно благодаря деятельности майнеров обеспечиваются все ключевые функции сети:

  • подтверждаются транзакции;
  • гарантируется защита сети от добавления в нее ложных данных;
  • сеть защищена от различных атак;
  • поддерживается децентрализация в сети.

Существуют несколько типов майнинга. Основные из них:

  • специализированные чипы ASIC — разработаны только для майнинга, обладают высокой производительностью;
  • майнинг на GPU — обычно стандартная ферма состоит из нескольких видеокарт одной модели, материнской платы с несколькими разъемами PCI-Express, блока питания, процессора и системы охлаждения.

Ферму для майнинга можно собрать самостоятельно и эксплуатировать дома или в арендуемом для этой цели офисном помещении, либо отдать ее в управление специалистам.

Недостатки облачного майнинга

Облачный майнинг ведется с помощью мощностей, которые сдаются в аренду майнерам. У этого способа добычи криптовалют есть свои плюсы и минусы.
Недостатки облачного майнинга:

  • обманчивый срок окупаемости;
  • пользователь не может лично контролировать величину прибыли и затрат;
  • пользователь не является собственником оборудования.

Преимуществом облачного майнинга является то, что он очень удобен и не требует практически никаких усилий. Достаточно лишь заплатить компании за оборудование, и она сама его настроит и запустит в эксплуатацию, а пользователь будет получать часть добытой криптовалюты.
Если вы все же решили заняться облачным майнингом, то избегайте сервисов, обещающих завышенную прибыль, и тех, чьи сотрудники и служба техподдержки не отвечают на ваши вопросы.

Необходимо изучить отзывы о выбранном сервисе, почитать, что думают о нем пользователи на форумах. Сначала заводите небольшие суммы, чтобы проверить как работает сервис.
Занимаясь майнингом и операциями с криптовалютой, следует обеспечить надежную защиту вашего интернет-пространства.

Для этого можно воспользоваться следующими программами:

  • McAfee Secure – обеспечивает надежную защиту пользователей сайтов, сохранность финансовых средств и личных данных;
  • Dun&Bradstreet – с помощью этого сервиса можно развивать деловые отношения и контакты по всему миру, искать бизнес-партнеров, поставщиков и клиентов;
  • AVG – система антивирусной защиты от вредоносных программ;
  • Norton AntiVirus – ежедневная проверка сайтов на наличие вредоносных программ, предупреждение пользователей о возможных сбоях в системе;
  • Companies House – официальный регистратор компаний в Великобритании, с помощью которого можно проверить наличие регистрации у компании и легальность ее деятельности;
  • SiteLock – проводит автоматическую проверку сайтов на наличие вредоносных программ и атак хакеров, целостности базы данных, в которой хранится информация о клиентах;
  • DDoS-GUARD – предотвращает сбои в работе сайта, защищает от DDoS-атак и интернет-хулиганства;
  • Geo-Trust – проверяет сайты на наличие вредоносных программ.

С помощью вышеперечисленных сервисов вы сможете значительно повысить безопасность вашей работы в сети интернет.


Что выбрать – GPU или ASIC?

ASIC обладают строгой специализацией, так как разрабатываются для добычи определенных монет. Переключиться на другую криптовалюту не получится. ASIC прост в установке, эксплуатации и обслуживании.

Но с ростом мощности сети возникает необходимость в постоянной модернизации ASIC, что можно считать своеобразной «гонкой вооружений».

Параметры блоков питания, которые необходимо учитывать:

  • блок питания с нужным количеством разъемов, возможность дополнительного питания карт;
  • подсчет потребляемой мощности видеокарт и платформы;
  • уровень шума при майнинге в домашних условиях;
  • внимательно смотреть на TTX;
  • стараться избегать синхронизаторов и скрепок;
  • проверять сертификаты блоков питания.

Характеристика материнских плат:

  • проверенные модели: Asrock H81 Pro BTC R2.0 и Asus z270-p;
  • разъемы в стоке: 4xPCI-E x1, 2xPCI-E x16;
  • мощные материнки и варианты расширения (m2 разъем);
  • поддерживаемые процессоры и Socket процессора.

Также необходимо позаботиться об охлаждении. Стандартный набор для охлаждения включает в себя:

  • куллер, установленный на процессор;
  • дополнительные куллеры для каждой видеокарты (рассчитать расход);
  • правильные настройки для видеокарт (не выше 75 градусов);
  • кондиционер или промышленную вытяжку.

Важность хорошей системы охлаждения трудно переоценить.


Как обеспечить безопасность майнинга

Подготовка к майнингу не ограничивается только лишь покупкой нужного оборудования, его настройкой и выбором криптовалюты. Также необходимо позаботиться о безопасности.

Что необходимо сделать для этого:

  • никому не сообщать о местонахождении фермы;
  • никому не давать доступ к ней;
  • регулярно проводить мониторинг показателей;
  • обеспечить безопасность электроснабжения (контроль мощности, заземление);
  • установить видеонаблюдение;
  • избегать перегрева оборудования и повышенной влажности в помещении;
  • установить систему пожаротушения;
  • не экономить на мелочах и расходных материалах – все должно быть качественным.

Также не следует поддаваться панике и давлению рынка.

Занятие майнингом подходит не всем. Если вы готовы взять на себя хлопоты по поиску поставщиков, покупке оборудования, его сборке и настройке, обслуживанию и обеспечению безопасности, тогда действуйте.

Но есть и другой вариант — поручить все эти заботы специалистам. Тогда вы избавляетесь от множества трудностей, но за такое удобство придется отдавать специалистам определенный процент от полученной прибыли.
Выбирайте подходящий вариант в зависимости от своих возможностей и предпочтений!

2018: Проблемы машинного обучения — IBM

27 февраля 2018 года технический директор IBM Watson Роб Хай (Rob High) заявил, что в настоящее время основная задача машинного обучения – ограничить объем данных, требующихся для обучения нейросетей. Хай полагает, что есть все основания считать эту проблему вполне разрешимой. Его мнение разделяют и коллеги: так руководитель разработки технологий искусственного интеллекта (ИИ) Google Джон Джаннандреа (John Giannandrea) заметил, что его компания также занята этой проблемой.

Как правило, модели машинного обучения работают с огромными массивами данных, чтобы гарантировать точность работы нейросети, однако во многих отраслях крупных баз данных просто не существует.

IBM рассказала о проблемах с машинным обучением

Хай, однако, считает, что это проблема разрешима, ведь мозг людей научился с ней справляться. Когда человек сталкивается с новой задачей, в ход идет накопленный опыт действий в подобных ситуациях. Именно контекстуальное мышление и предлагает использовать Хай. Также в этом может помочь технология переноса обучения (transfer learning), то есть возможность взять уже обученную ИИ-модель и использовать ее данные для обучения другой нейросети, данных для которой существенно меньше.

Однако проблемы с машинным обучением этим не ограничиваются, особенно если речь идет об естественной речи.

Мы пытается понять, как научить ИИ взаимодействовать с людьми, не вызывая недоверия, как влиять на их мышление, — пояснил Хай. – При общении люди воспринимают не только саму информацию, но и жесты, мимику, интонацию, модуляции голоса.

Хай отмечает, что ИИ не обязательно должен отражать эти аспекты в антропоморфной форме, однако какие-то ответные сигналы, например, визуальные, поступать должны. В то же время большинство ИИ должно для начала разобраться в сути вопросов и научиться ориентироваться в контексте, особенно в том, как данный вопрос связан с предыдущими.

Это указывает на следующую проблему. Многие из использующихся сейчас моделей машинного обучения по своей природе предвзяты, поскольку данные, по которым их обучали, ограничены. Что касается подобной предвзятости, то тут Хай выделяет два аспекта.

Во-первых, данные действительно могут быть собраны некорректно, и тем, кто занимается их подбором для систем машинного обучения, следует внимательнее следить за тем, чтобы в них были учтены интересы всех культурных и демографических слоев, — прокомментировал Хай. — С другой стороны, иногда данные сознательно подобраны так, чтобы отражать только определенный аспект проблемы или определенную выборку, поскольку так поставлена задача.

В качестве примера Хай привел совместный проект IBM и онкологического центра Sloan Kettering. Они подготовили ИИ-алгоритм, основанный на работе лучших онкологических хирургов.

Однако врачи онкологического центра Sloan Kettering придерживаются определенного подхода к лечению рака. Это их школа, их марка, и эта философия должна быть отражена в созданном для них ИИ и сохранена во всех последующих его поколениях, которые будут распространяться за пределами данного онкоцентра. Большая часть усилий при создании таких систем направлена на то, чтобы обеспечить верную избирательность данных. Выборка людей и их данных должна отражать более крупную культурную группу, к которой они принадлежат.

Хай также заметил, что представители IBM наконец начали регулярно обсуждать эти проблемы с клиентами. По мнению Хая, это шаг в верном направлении, особенно если учесть, что многие его коллеги предпочитают игнорировать этот вопрос.

Опасения по поводу предвзятости ИИ разделяет и Джаннандреа. Осенью прошлого года он заявил, что боится не восстания разумных роботов, а предвзятости искусственного интеллекта. Эта проблема становится тем значительнее, чем больше технология проникает в такие области, как медицина или юриспруденция, и чем больше людей без технического образования начинают ее использовать.

2017

3% компаний используют машинное обучение — ServiceNow

В октябре 2017 года производитель облачных решений для автоматизации бизнес-процессов ServiceNow опубликовал результаты исследования, посвященного внедрению технологий машинного обучения в компаниях. Совместно с исследовательским центром Oxford Economics было опрошено 500 ИТ-директоров в 11 странах.

Выяснилось, что к октябрю 2017 года 89% компаний, сотрудники которых отвечали на вопросы аналитиков, в разной степени используют механизмы машинного обучения.

Так, 40% организаций и предприятий исследуют возможности и планируют стадии внедрения таких технологий. 26% компаний ведут пилотные проекты, 20% — применяют машинное обучение для отдельных областей бизнеса, а 3% — задействуют его для всей своей деятельности.

По словам 53% ИТ-директоров, машинное обучение является ключевым и приоритетным направлением, для развития которого компании ищут соответствующих специалистов.

К октябрю 2017 года наиболее высокое проникновение машинного обучения имеет место в Северной Америке: 72% компаний находятся на какой-либо стадии изучения, тестирования или использования технологий. В Азии этот показатель составляет 61%, в Европе — 58%.

Около 90% ИТ-директоров говорят, что автоматизация повышает точность и скорость принятия решений. По мнению больше половины (52%) участников опроса, машинное обучение помогает автоматизировать не только рутинные задачи (например, вывод предупреждений о киберугрозах), но и более сложные рабочие нагрузки, такие как способы реагирования на хакерские атаки.

Выше представлена диаграмма, показывающая степень автоматизации различных областей в компаниях в 2017 году и с прогнозом на 2020 год. К примеру, в 2017-м около 24% операций в сфере информационной безопасности полностью или в значительной степени автоматизированы, а в 2020 году показатель может вырасти до 70%.

Самая многообещающая технология. Чем вызвано всеобщее помешательство на машинном обучении?

Машинное обучение, по мнению аналитиков, является самым многообещающим технологическим трендом современности. Как возникла эта технология и почему стала столь востребованной? На каких принципах строится машинное обучение? Какие перспективы открывает для бизнеса? Ответы на эти вопросы дает материал, который для TAdviser подготовил журналист Леонид Черняк.

Признаком наступающей эры когнитивного компьютинга (см. подробнее в отдельной статье) служит повышенный интерес к машинному обучению (Machine Learnng, ML) и многочисленные попытки внедрения ML в самых разных, порой неожиданных областях человеческой деятельности.

Тому свидетельство — «кривая ажиотажа» (Gartner’s Hype Cycle), датированная августом 2016 года. На ней ML занимает позицию на пике ожиданий. В отчете этой аналитической компании подчеркивается, что нынешний всплеск интереса к Искусственному интеллекту (ИИ) вообще и ML, в частности, следует отличать от неоправдавшихся ожиданий прошлых десятилетий, приведших к временному забвению ИИ.

Все то, что происходит в 2016-2017 годах, более прозаично и прагматично, лишено романтических обещаний относительно антропоморфных технологий, имитирующих человеческий мозг. Нет никаких рассуждений о мыслящих машинах и тем более угрозах со стороны роботов. В отчете Gartner цитируется «циничное» и явно неприемлемое для сторонников сильного ИИ высказывание вице-президента IBM по исследованиям Джона Келли:

Успех когнитивного компьютинга не будет измеряться ни тестом Тьюринга, ни какой либо иной способностью компьютера имитировать человеческий мозг. Он будет измеряться такими практическими показателями как возврат инвестиций, новые рыночные возможности, количеством вылеченных людей и спасенных человеческих жизней

«Кривая ажиотажа» Gartner, август 2016 года

Как бы не был велик интерес к ML, неверно отождествлять весь когнитивный компьютинг (Cognitive Computing, CC) исключительно с ML. Собственно CC – это составляющая ИИ, целостная экосистема, частью которой служит ML. К тому же CC включает в себя и автоматическое принятие решений, и распознавание аудио и видео данных, машинное зрение, обработку текстов на естественных языках и еще многое другое.

Впрочем, строгое разделение между отдельными направлениями CC провести сложно. Некоторые из них взаимно пресекаются, но, что точно, ML включает математические алгоритмы, поддерживающие процесс когнитивного обучения.

Искусственный интеллект (AI), когнитивный компьютинг (CC) и машинное обучение (ML)

ML – это обучение систем, обладающих элементами слабого ИИ. Сильным ИИ (Strong AI) называют обобщенный искусственный разум (Artificial general intelligence), который теоретически может быть воплощен некоторой гипотетической машиной, проявляющей мыслительные способности, сравнимые с человеческими способностями.

Сильный ИИ наделяют такими чертами, как:

  • способность ощущать (sentience),
  • способность выносить суждения (sapience),
  • самоанализ (self-awareness) и даже
  • самосознание (consciousness).

А Слабым ИИ (Weak AI) называют не имеющий разума и умственных способностей (Non-sentient computer intelligence), ИИ, ориентированный на решение прикладных задач.

Будучи частью слабого ИИ, ML, тем не менее, имеет общие черты с обучением человека, обнаруженные психологами в начале XX века. Тогда было выявлено несколько теоретически возможных подходов к обучению как процессу передачи знаний. Причем один из подходов, названный когнитивным обучением, напрямую соответствует ML.

Обучаемому, в нашем случае ИИ, предъявляются те или иные образы в доступной ему форме. Для восприятия передаваемых знаний со стороны обучаемого достаточно обладать соответствующими способностями и стимулами. Основа теории когнитивного обучения была разработана швейцарским психологом Жаном Пиаже (1896 – 1980). Он, в свою очередь, использовал труды в области гештальтпсихологии, разработанной немецким и позже американским психологом Вольфгангом Келером (1887—1967).

Теория когнитивного обучения строится на основе предположения, что человек обладает способностью к обучению, имеет необходимые стимулы и может структурировать и сохранять накопленную информацию. То же самое относится к ML. Его можно считать версией когнитивного обучения, но адаптированного для компьютера.

Жан Пиаже

История ML, как и многое другое в искусственном интеллекте, началась, казалось бы, с многообещающих работ в 1950-х — 1960-х годах. Затем последовал длительный период накопления знаний, известный как «зима искусственного интеллекта». В самые последние годы наблюдается взрывной интерес главным образом к одному из направлений — глубинному, или глубокому обучению (deep leаrning).

Первопроходцами ML были Артур Сэмюэль, Джозеф Вейцбаум и Фрэнк Розенблатт. Первый получил широкую известность созданием в 1952 году самообучающейся программы Checkers-playing, умевшей, как следует из названия, играть в шашки. Возможно, более значимым для потомков оказалось его участие вместе с Дональдом Кнутом в проекте TeX, результатом которого стала система компьютерной верстки, вот уже почти 40 лет не имеющая себе равных для подготовки математических текстов. Второй в 1966 году написал виртуального собеседника ELIZA, способного имитировать (а скорее, пародировать) диалог с психотерапевтом. Очевидно, что своим названием программа обязана героине из пьесы Бернарда Шоу. А дальше всех пошел Розенблатт. Он в конце 1950-х в Корнелльском университете построил систему Mark I Perceptron, которую условно можно признать первым нейрокомпьютером.

В шестидесятые-семидесятые XX века сложились основные научные принципы ML. В современном представлении ML объединяет в себе ранее независимые направления:

  • нейронные сети (neural networks),
  • обучение по прецедентам (case-based learning),
  • генетические алгоритмы (genetic algorithms),
  • выводы правил (rule induction) и
  • аналитическое обучение (analytic learning).

Было показано, что практическая передача знаний обучаемой машине (нейронной сети) может строиться на основе теории вычислительного обучения по прецедентам, которая развивается с шестидесятых годов XX века.

Неформально ML можно представить следующим образом. Берутся описания отдельных прецедентов, которые называют обучающей выборкой. Далее по совокупности отдельных фрагментов данных удается выявить общие свойства (зависимости, закономерности, взаимосвязи), присущие не только этой конкретной выборке, использованной для обучения, но и вообще всем прецедентам, в том числе тем, которые ещё не наблюдались. Алгоритмы обучения (learning algorithm) и настройки (fitting) модели по выборке данных позволяют найти оптимальный набор параметров модели, а затем использовать обученную модель для решения тех или иных прикладных задач.

В целом ML можно представить формулой:

Обучение = Представление + Оценка + Оптимизация

где:

  • Представление — представление классифицируемого элемента на формальном языке, который машина может интерпретировать
  • Оценка — функция, позволяющая выделить плохие и хорошие классификаторы
  • Оптимизация – поиск наилучших классификаторов

Главная же цель ML – создать, например, в нейронной сети способность обнаруживать нечто иное, не входящее в набор, использованный для обучения, но обладающее теми же свойствами.

Обучение включает распознавание образов, регрессионный анализ и прогнозирование. Чаще всего используют подход, основанный на построении модели восстанавливаемой зависимости в виде параметрического семейства алгоритмов. Его суть в численной оптимизации параметров модели с целью минимизации число ошибок на заданной обучающей выборке прецедентов.

Обучении состоит в подгонке создаваемой модели под выборку. Но у этого подхода есть врожденная слабость, проявляющаяся в том, что с повышением сложности модели оптимизирующие модель алгоритмы начинают улавливать не только черты восстанавливаемой зависимости, но и ошибки измерения обучающей выборки, и погрешность самой модели. В результате ухудшается качество работы алгоритма.

Выход из этого положения был предложен В. Н. Вапником и А. Я. Червоненкисом в разработанной ими теории восстановления зависимостей, признанной во всем мире в восьмидесятые годы и ставшей одним из наиболее важных разделов теории вычислительного обучения.

Переходу от теории к практике ML, случившемуся в XXI веке, способствовали работы в области глубинных нейронных сетей (Deep Neural Network, DNN). Считается, что собственно термин deep learning был предложен в 1986 году Риной Дехтер, хотя подлинная история его появления, вероятно, сложнее.

К середине 2000-х была накоплена критическая масса знаний в области DNN и, как всегда в таких случаях, кто-то отрывается от пелотона и получает майку лидера. Так было и, видимо, будет в науке всегда. В данном случае в роли лидера оказался Джефри Хинтон, британский ученый, продолживший свою карьеру в Канаде. C 2006 года он сам и вместе с коллегами начал публиковать многочисленные статьи, посвященные DNN, в том числе и в научно-популярном журнале Nature, чем заслужил себе прижизненную славу классика. Вокруг него образовалось сильное и сплоченное сообщество, которое несколько лет работало, как теперь говорят, «в невидимом режиме». Его члены сами называют себя «заговорщиками глубинного обучения» (Deep Learning Conspiracy) или даже «канадской мафией» (Canadian maffia).

Образовалось ведущее трио: Ян Лекун, Иешуа Бенджо и Джефри Хинтон. Их еще называют LBH (LeCun & Bengio & Hinton). Выход LBH из подполья был хорошо подготовлен и поддержан компаниями Google, Facebook и Microsoft. С LBH активно сотрудничал Эндрю Ын, работавший в МТИ и Беркли, а теперь возглавляющий исследования в области искусственного интеллекта в лаборатории Baidu. Он связал глубинное обучение с графическими процессорами.

Джефри Хинтон

Нынешний успех ML и всеобщее признание стали возможны благодаря трем обстоятельствам:

1. Возрастающее в геометрической прогрессии количество данных. Оно вызывает потребность в анализе данных и является необходимым условием для внедрения систем ML. Одновременно это количество данных открывает возможность для обучения, поскольку порождает большое количество образцов (прецедентов), и это достаточное условие.

2. Сформировалась необходимая процессорная база. Известно, что решение задач ML распадается на две фазы. На первой выполняется обучение искусственной нейронной сети (тренировка). На протяжении этого этапа нужно параллельно обработать большое количество образцов. На данный момент для этой цели нет альтернативы графическим процессорам GPU, в подавляющем большинстве случаев используют GPU Nvidia. Для работы обученной нейронной сети могут быть использованы обычные высокопроизводительные процессоры CPU. Это распределение функций между типами процессоров вскоре может претерпеть существенные изменения. Во-первых, уже в 2017 году Intel обещает выпустить на рынок специализированный процессор Nervana, который будет на порядка производительнее, чем GPU. Во-вторых, появляются новые типы программируемых матриц FPGA и больших специализированных схем ASIC, и специализированный процессор Google TensorFlow Processing Unit (TPU).

3. Создание библиотек для программного обеспечения ML. По состоянию на 2017 год их насчитывается более 50. Вот только некоторые, наиболее известные: TensorFlow, Theano, Keras, Lasagne, Caffe, DSSTNE, Wolfram Mathematica. Список можно продолжить. Практически все они поддерживают прикладной интерфейс OpenMP, языки Pyton, Java и C++ и платформу CUDA.

Будущая сфера применения ML, без всякого преувеличения, необозрима. В контексте Четвертой промышленной революции наиболее значимая роль ML заключается в расширении потенциала области Business Intelligence (BI), название которой условно переводится как «бизнес-аналитика».

В дополнение к традиционному в большей мере количественному для BI вопросу: «Что происходит в бизнесе?», с помощь ML можно будет отвечать и на такие: «Что и почему мы делаем?», «Как можем делать это лучше?», «Что нам следует делать?» и подобные качественные и содержательные вопросы.

О машинном обучении на простых примерах

Что такое машинное обучение?

Виды машинного обучения. Данные Microsoft

Это способ программирования, при котором машина сама формирует алгоритм на основании модели, заданной ей человеком, и загруженных в нее данных.

Такой подход отличается от классического программирования: при «обучении» программе показывают много примеров и учат находить в них закономерности. Схожим образом учатся люди — вместо словесного описания собаки ребенку просто показывают собаку и говорят, что это. Если такой программе показать, например, миллион фотографий онкологических образований на коже, она научится диагностировать рак по снимку лучше, чем живой специалист.

Почему обучение моделей настолько сложное?

Представьте, что я обучаю машину, используя группу людей… и здесь золотое правило состоит в том, что они должны быть в равной степени заинтересованы и ознакомлены с процессом, так что, скажем, я не могу взять пять программистов и четырех вчерашних студентов… Нужно стараться подбирать людей либо совершенно в случайном порядке, либо по одинаковым интересам. Есть два способа сделать это. Вы показываете им много, очень много картинок. Вы показываете им изображения гор вперемежку с фотографиями верблюдов, а также изображения предметов, которые практически в точности похожи на горы, например, мороженое в вафельном стаканчике. И вы просите их сказать, что из этих предметов можно назвать горой. При этом машина наблюдает за людьми и на основании их поведения в процессе выбора изображений с горами она также начинает выбирать горы. Такой подход называется эвристическим, — пишет автор PCWeek Майкл Кригсман

Мы смотрим на людей, моделируем их поведение путем наблюдения, а затем пытаемся повторить то, что они делают. Это вид обучения. Такое эвристическое моделирование представляет собой один из способов машинного обучения, однако это не единственный способ.

Но существует множество простых приемов, с помощью которых эту систему можно обмануть. Прекрасный пример — распознавание человеческих лиц. Посмотрите на лица разных людей. Наверное, всем известно, что существуют технологии для моделирования на основе определенных точек на лице, скажем, уголков глаз. Не хочу вдаваться в интеллектуальные секреты, но есть некоторые области, между которыми можно построить углы, и эти углы обычно не особо меняются со временем. Но вот вам показывают фотоснимки людей с широко открытыми глазами или гримасами в области рта. Такие люди пытаются сбить эти алгоритмы с толку, искажая черты своего лица. Вот почему вам нельзя улыбаться на фотографии в паспорте. Но машинное обучение уже ушло далеко вперед. У нас есть такие средства, как Eigenface, и другие технологии для моделирования поворота и искажения лиц, позволяющие определить, что это одно и то же лицо.

Со временем эти инструменты становятся все лучше. И порой, когда люди пытаются запутать процесс обучения, мы также учимся на их поведении. Так что этот процесс саморазвивающийся, и в этом плане идет постоянный прогресс. Рано или поздно цель будет достигнута, и да, машина будет находить только горы. Она не пропустит ни одной горы и никогда не будет сбита с толку стаканчиком мороженого.

Чем это отличается от классического программирования?

Изначально этот процесс происходил в игровой форме или заключался в идентификации изображений. Тогдашние исследователи просили участников играть в игры или помогать в обучении простыми утверждениями вроде «Это гора», «Это не гора», «Это гора Фудзи», «Это гора Килиманджаро». Так что у них накопился набор слов. У них была группа людей, использовавших слова для описания изображений (например, в проекте Amazon Mechanical Turk).

Используя эти методики, они фактически отобрали набор слов и сказали: «Итак, слово „гора` часто ассоциируется с тем-то и тем-то, и между словом „гора` и этим изображением наблюдается высокая статистическая корреляция. Так что если люди ищут информацию о горах, покажите им это изображение. Если они ищут гору Фудзи, покажите им это изображение, а не то». В этом и состоял прием совместного использования человеческого мозга и описательных слов. По состоянию на 2017 год этот прием не единственный. На данный момент существует множество более изощренных методик.

Смогу ли я применить машинное обучение в своем бизнесе?

Машинное обучение имеет высокую практическую значимость для многих отраслей, от госсектора, транспорта и медицины до маркетинга, продаж, финансов и страхования. Существует огромное количество способов его применения – например, прогнозное обслуживание, оптимизация цепи поставок, распознавание мошенничества, персонализация здравоохранения, сокращение дорожного трафика, рациональное планирование расписания полетов и многие другие.

Государственные учреждения используют машинное обучение для интеллектуального анализа данных в целях повышения своей эффективности и экономии денежных средств. Банки применяют машинное обучение для выявления инвестиционных возможностей, высокорисковых клиентов или признаков киберугрозы. В области здравоохранения машинное обучение помогает использовать данные носимых устройств и датчиков для оценки состояния здоровья пациента в режиме реального времени.

Алгоритмы машинного обучения

  • Линейная и логистическая регрессия
  • SVM
  • Решающие деревья
  • Random forest
  • AdaBoost
  • Градиентный бустинг
  • Нейросети
  • K-means
  • EM-алгоритм
  • Авторегрессии
  • Self-organizing maps

Робототехника

  • Интернет вещей Internet of Things (IoT)
  • Интернет вещей, IoT, M2M (мировой рынок)
  • Интернет вещей, IoT, M2M (рынок России)
  • Интернет вещей: успеть нельзя остаться
  • Что такое интернет вещей (Internet of Things, IoT)
  • IIoT — Industrial Internet of Things (Промышленный интернет вещей)
  • Большие данные (Big Data)
  • Большие данные (Big Data) в России
  • Большие данные (Big Data) мировой рынок
  • Специалист по работе с большими данными (big data)
  • Data Mining
  • Директор по данным (Chief Data Officer, CDO)
  • Директор по цифровым технологиям Chief Digital Officer, CDO
  • ИТ-директор (CIO — Chief Information Officer)
  • Директор по информационной безопасности (Chief information security officer, CISO)
  • Финансовый директор (CFO — Chief Financial Officer)

Октябрь 31, 2017 11:42 дп 2 646 views | Комментариев нет

VPS | Amber

Машинное обучение – это подполе искусственного интеллекта (AI). Цель машинного обучения состоит в анализе структур данных и создании на их основе моделей, которые могут понимать и использовать люди.

Машинное обучение является полем в области информатики, однако оно отличается от традиционных вычислительных подходов. В традиционных вычислениях алгоритмы представляют собой наборы явно запрограммированных инструкций, используемых компьютерами для выполнения расчетов или решения проблемы. А алгоритмы машинного обучения позволяют компьютерам обучаться на входных данных и использовать статистический анализ для вывода значений, которые попадают в определенный диапазон. Благодаря этому компьютеры становятся более производительными в построении моделей из выборочных данных, что позволяет автоматизировать процессы принятия решений на основе заданной информации.

Машинное обучение положительно влияет на все современные технологии.

Благодаря технологии распознавания лиц платформы социальных сетей помогают пользователям размещать свои фото и делиться фотографиями друзей. Технология оптического распознавания символов (OCR) преобразует изображения текста в подвижной шрифт. Рекомендательные сервисы, основанные на машинном обучении, подсказывают, какие фильмы или телевизионные шоу могут понравиться пользователю в зависимости от его предпочтений. Беспилотные автомобили, которые используют машинное обучение в навигации, скоро могут стать доступными для широкого круга потребителей.

Машинное обучение постоянно развивается. Потому при работе с методами машинного обучения или прианализе влияния его процессов следует учитывать некоторые нюансы.

В этой статье мы рассмотрим общие методы машинного обучения – с учителем и без учителя – а также познакомимся с основными алгоритмическими подходами к обучению (метод k-ближайшего соседа, дерево принятия решений и глубокое обучение). Вы узнаете, какие языки программирования наиболее часто используются в машинном обучении, и каковы их преимущества и недостатки.

Методы машинного обучения

В машинном обучении задачи обычно подразделяются на широкие категории. Эти категории основаны на том, как проходит обучение или как разработанная система получает обратную связь.

Два наиболее широко используемых метода машинного обучения:

  1. обучение с учителем, где задействованы алгоритмы, основанные на примерах входных и выходных данных, которые маркированы людьми,
  2. и обучение без учителя, где используются алгоритмы без маркированных данных, что позволяет машинам самостоятельно находить структуру внутри своих входных данных.

Рассмотрим эти методы более подробно.

Машинное обучение с учителем

При обучении с учителем компьютер получает образцы входных данных с отмеченными желаемыми результатами. Цель этого метода состоит в том, чтобы алгоритм мог «учиться» путем сравнения своего вывода с заранее отмеченными результатами и соответствующим образом корректировать модель. Таким образом, этот метод обучения использует шаблоны для прогнозирования значений дополнительных немаркированных данных.

К примеру, в машинном обучении с учителем алгоритм может получить набор изображений рыб, маркированных как fish, и набор изображений водоемов, маркированных как water. Изучая эти данные, позже алгоритм должен суметь распознать немаркированные изображения рыб и как fish и немаркированные изображения водоемов как water.

Как правило, машинное обучение с учителем используется для прогнозирования статистически вероятных будущих событий на основе исторических данных. Такие алгоритмы могут использовать историческую информацию о фондовом рынке для прогнозирования предстоящих колебаний или фильтровать спам. При обучении с учителем маркированные фотографии собак могут использоваться в качестве входных данных для классификации немаркированных изображений собак.

Машинное обучение без учителя

При обучении без учителя алгоритм получает немаркированные данные, поэтому ему нужно самостоятельно найти схожесть в его входных данных. Немаркированных данных обычно гораздо больше, чем маркированных, потому особенно полезными сегодня являются методы машинного обучения, которые облегчают обучение без учителя.

Цель обучения без учителя – обнаружение в наборе данных явных и скрытых шаблонов и черт, что позволяет вычислительной машине автоматически обнаруживать схожесть, необходимую для классификации необработанных данных.

Обучение без учителя обычно используется для транзакционных данных. К примеру, у вас может быть большой набор данных о клиентах и их покупках, но как человек вы, вероятно, не сможете обнаружить схожие атрибуты в профилях клиентов и их типах покупок. На основе полученных данных алгоритм обучения без учителя может выяснить, что женщины определенного возрастного диапазона, покупающие мыло без запаха, вероятно, беременны, и потому эта аудитория может стать целевой для маркетинговой кампании, связанной с беременностью и детскими продуктами, что увеличит количество заказов.

Алгоритм, который не знает «правильных» ответов, может анализировать и организовывать более широкие и несвязанные наборы данных. Обучение без учителя часто используется для обнаружения аномалий (в том числе выявления для мошенничества с кредитными картами) и создания систем рекомендаций, которые советуют пользователю, какие продукты купить/ какой фильм посмотреть и т.п. на основе его предпочтений. При обучении без учителя немаркированные изображения собак могут использоваться в качестве входных данных для алгоритма поиска сходств и классификации всех фотографий собак.

Подходы в машинном обучении

Машинное обучение тесно связано с вычислительной статистикой, поэтому наличие базовых знаний в статистике полезно для понимания и использования алгоритмов машинного обучения.

Для исследования взаимосвязи между количественными переменными обычно используются понятия корреляции и регрессии.

Корреляция – это мера сходства между двумя переменными, которые не являются ни зависимыми, ни независимыми. Регрессия на базовом уровне используется для изучения взаимосвязи между одной зависимой и одной независимой переменной. Регрессионная статистика может прогнозировать зависимую переменную, если известна независимая переменная, а потому регрессия позволяет использовать возможности прогнозирования.

Подходы к компьютерному обучению постоянно развиваются. Рассмотрим несколько популярных подходов, которые используются в машинном обучении на сегодняшний день.

Метод k-ближайшего соседа

Метод k-ближайшего соседа (сокращенно k-N) – это модель распознавания шаблонов, которая может использоваться как для классификации, так и для регрессии. Здесь k является положительным целым числом (обычно небольшим). В любой классификации или регрессии вход будет состоять из k-ближайших примеров обучения в пространстве.

Сосредоточимся на методах для классификации объектов в k-NN. Вывод этого метода относит объект к одному из доступных классов. Это присвоит новый объект классу, наиболее часто используемому среди его ближайших соседей. Если k = 1, объект присваивается классу ближайшего соседа.

Для примера представьте, что у нас есть два класса объектов: красные ромбы и синие треугольники.

Если в пространстве появляется новый объект – к примеру, зеленый круг, — алгоритм должен отнести его к определенному классу.

При k = 3 алгоритм находит трех ближайших соседей зеленого круга и классифицирует их. Предположим, тремя ближайшими соседями круга оказались один ромб и два треугольника. В таком случае круг будет отнесен к классу треугольников.

Среди наиболее простых алгоритмов машинного обучения метод k-ближайшего соседа считается «ленивым обучением», поскольку обобщение за пределами данных обучения не происходит до тех пор, пока в системе не появится запрос.

Деревья принятия решений

Обычно деревья решений используются для визуального представления процесса принятия решений. При работе с машинным обучением и добыче данных деревья решений используются как предсказательная модель. Эти модели сопоставляют сведения о данных с выводами о целевом значении данных.

Цель дерева решений – создать модель, которая будет прогнозировать целевое значение на основе входных переменных.

В предсказательной модели атрибуты данных, которые определяются посредством наблюдения, представлены ветвями, а выводы о целевом значении данных представлены в виде листьев.

При изучении дерева исходные данные делятся на подмножества на основе проверки значения атрибута, которая повторяется на каждом из полученных подмножеств рекурсивно. Как только значение подмножества в узле станет эквивалентно его целевому значению, процесс рекурсии будет завершен.

При работе с деревьями принятия решений необходимо определить отдельные аспекты: какие функции выбирать, какие условия использовать для разделения и как понять, когда дерево принятия решений достигло целевого значения.

Глубокое обучение

Глубокое обучение (или глубинное обучение) пытается подражать тому, как человеческий мозг может обрабатывать световые и звуковые стимулы в зрение и слух. Архитектура глубокого обучения вдохновлена биологическими нейронными сетями и состоит из нескольких слоев в искусственной нейронной сети, которая включает в себя ряд аппаратных средств и графических процессоров.

Глубокое обучение использует каскад нелинейных модулей обработки, чтобы извлекать или преобразовывать функции (или представления) данных. Выход одного слоя служит входом следующего слоя. При глубоком обучении с учителем алгоритмы могут служить для классификации данных, а без учителя – для анализа шаблонов.

Среди алгоритмов машинного обучения, которые используются и разрабатываются в настоящее время, глубокое обучение поглощает больше всего данных и может превзойти человека в решении некоторых когнитивных задач. Потому глубокое обучение используется в области искусственного интеллекта.

Подходы глубокого обучения оказали существенное влияние на развитие компьютерного зрения и распознавания речи. Хорошим примером системы, которая использует глубокое обучение, является IBM Watson.

Языки программирования и машинное обучение

При выборе языка программирования для машинного обучения нужно учитывать доступные функции и библиотеки.

Сегодня можно предположить, что наиболее востребованным языком программирования в профессиональной области машинного обучения является Python. Затем идет Java, затем R и C ++.

Популярность Python может быть вызвана интенсивной разработкой систем глубокого обучения: TensorFlow, PyTorch и Keras. Будучи языком с удобочитаемым синтаксисом, который можно использовать в качестве языка сценариев, Python одинаково производителен как в предварительной обработке данных, так и в работе с данными напрямую. Библиотека машинного обучения scikit-learn построена на основе нескольких других пакетов Python, популярных среди разработчиков: NumPy, SciPy и Matplotlib.

:

  • Создание машинно-обучаемого классификатора с помощью Scikit-learn в Python
  • Стилизация изображения с помощью нейросети, Python3 и PyTorch
  • Другие руководства по Python 3

Java обычно используется корпорациями и сторонними разработчиками настольных приложений, которые работают над корпоративным машинным обучением. Обычно Java не рассматривается как вариант для программистов-новичков, которые хотят научиться машинному обучению; этот язык предпочитают те, у кого есть опыт разработки Java, достаточный для применения в машинном обучении. Что касается приложений машинного обучения в промышленности, обычно Java чаще, чем Python, используется в сетевой безопасности, в том числе для предотвращения кибератак и обнаружения мошенничества.

Среди библиотек машинного обучения для Java:

  • Deeplearning4j, распределенная библиотека с открытым исходным кодом для глубокого обучения, написанная для Java и Scala.
  • MALLET (MAchine Learning for LanguagE Toolkit), набор инструментов для машинного обучения по текстам, который включает поддержку обработки естественного языка, моделирования тем, классификации документов и кластеризации.
  • Weka, набор алгоритмов машинного обучения для обработки интеллектуального анализа данных.

R — язык программирования с открытым исходным кодом, используемый в основном для статистических вычислений. За последние годы он стал популярным и пользуется большим успехом у ученых. R обычно не используется в промышленных производственных средах, но его популярность в промышленных приложениях растет из-за повышенного интереса к науке о данных. Популярные пакеты для машинного обучения в R:

  • caret (сокращение от Classification And REgression Training), библиотека для создания прогностических моделей.
  • randomForest, пакет для классификации и регрессии.
  • e1071, пакет, предоставляющий функции статистики и теории вероятностей.

Язык C++ обычно используется для машинного обучения и искусственного интеллекта в игровых или роботизированных приложениях (в том числе для передвижения роботов). Разработчики встроенных вычислительных аппаратов и инженеры-электроники предпочитают использовать C++ или C в приложениях для машинного обучения благодаря их гибкости и предлагаемому уровню контроля. Популярными библиотеками машинного обучения C++ являются масштабируемый пакет mlpack, Dlib с широким набором алгоритмов машинного обучения и модульная библиотека с открытым исходным кодом Shark.

Человеческий фактор в машинном обучении

Хотя анализ данных и вычислительный анализ могут заставить нас думать, что мы получаем объективную информацию, это не так; результаты машинного обучения не всегда являются нейтральными. Смещение результатов, вносимое человеческим фактором, влияет не только на сбор и систематизацию данных, но и на сами алгоритмы, которые определяют, как машинное обучение будет взаимодействовать с этими данными.

Предположим, есть группа людей, которая собирает и маркирует изображения для машинного обучения. Она получает задачу собрать изображения цветов. Если большинство людей выберет для этого изображение розы, компьютер не сможет классифицировать как цветок лилию, подсолнух или фиалку.

Еще один пример. В качестве учебных данных в машинном обучении использовались фотографии ученых. Компьютер получил набор изображений, где в подавляющем большинстве были представлены белые мужчины. В результате машина не смогла должным образом классифицировать людей с другим цветом кожи и женщин. Недавние исследования показали, что программы искусственного интеллекта и машинного обучения получили по наследству расовые и гендерные предрассудки.

Сегодня машинное обучение все больше задействовано в бизнесе, и не выявленные вовремя предубеждения могут стать причиной системных проблем: на основе предрассудков программы могут помешать человеку получить кредит, найти объявление о высокооплачиваемой работе или даже заказать доставку в тот же день.

В машинном обучении человеческий фактор может негативно повлиять на других людей, и сейчас чрезвычайно важно осознавать это и стремиться к его устранению. Для этого в разработке, тестировании и анализе проектов машинного обучения должны быть задействованы различные люди. Некоторые разработчики обращаются с просьбой о мониторинге и аудите алгоритмов к регулирующим третьим сторонам. Другие создают альтернативные системы, которые могут выявлять в алгоритмах этические предубеждения. Бороться с предрассудками в области машинного обучения очень важно. Для этого нужно постоянно повышать осведомленность о них, помнить о наших собственных неосознанных предубеждениях и учитывать их при сборе и структурировании данных.

В этой статье мы рассмотрели некоторые примеры использования машинного обучения, распространенные методы и популярные подходы в этой области, языки программирования для машинного обучения, а также влияние человеческого фактора на объективность результатов.

Машинное обучение постоянно развивается, потому важно иметь в виду, что алгоритмы, методы и подходы будут изменяться со временем.

>
Datamine Studio RM 1.4: предварительный обзор

Datamine Studio RM 1.4: предварительный обзор

В планируемую к выпуску версию программы Studio RM 1.4 добавлен ряд многообещающих новых функций.

Studio RM– это ведущий в отрасли инструмент от компании Datamine для оценки ресурсов и запасов природных ископаемых, обеспечивающий высококачественные, точные и надежные данные, необходимые геологам. Благодаря последней версии 1.4 программа Studio RM сохраняет свою позицию эталонного программного обеспечения, которое не могут превзойти конкуренты.

Основные усовершенствования и преимущества

      • Абсолютно новая интерактивная функция оконтуривания
      • Импорт данных облака точек
      • Модуль расширенной геостатистики, упрощающий идентификацию анизотропии
      • Специальные регуляторы объема поиска и интерактивная визуальная проверка проб
      • Улучшенная производительность работы интерактивных команд создания и редактирования стрингов
      • Множество альтернативных стилей скважин
      • Более простая подготовка проб скважин для структурного моделирования

Больше возможностей, обеспечивающих постоянную работоспособность, благодаря новым функциям обработки и визуализации данных

Помимо интерактивных команд для работы со стрингами, обновлённых для повышения производительности, поддержки более длинных полей имен файлов Datamine и улучшений функций отмены/повторного выполнения, ядро системы включает новые функции:

  • Импорт данных облака точек, например, файлов лидаров и Las. Облака точек можно разгруппировывать при импорте и отображать с помощью значений RGB в исходных данных.
  • К скважинам можно теперь применять несколько альтернативных стилей скважин в 3D окне, включая изображения (например, фотографии керна).
  • Абсолютно новая интерактивная функция оконтуривания может применяться для вычерчивания контура высот поверхности, уклонов или высот пересечений скважин.
  • Реконструкция поверхности из облака точек (например, исследования очистных выемок и горизонтальных выработок).

Новые функции – модуль Advanced Geostats

Вариограммы в программе Studio RM

Один из способов решения проблем с вариограммами низкого качества – нормализация переменных (гауссовы величины). Эта функциональная возможность теперь встроена в рабочий процесс геостатистики.

Динамические легенды и регулировки лага в окне с трехмерными картами еще больше упрощают идентификацию анизотропии.

Оценка улучшена за счет дополнительных функций, таких как специальные регуляторы объема поиска и интерактивная визуальная проверка проб для оценки блока. В модуле Uniform Conditioning теперь используется та же самая более быстрая многопоточная оценка, что и в модуле Advanced Geostats.

Примеры динамической и статической скважин в программе Studio RM

Структурное моделирование

Подготовка образцов скважин для структурного моделирования теперь становится еще проще с использованием двух новых функций управления пробами:

  • Функция интерактивного назначения литологического состава в скважинах группам горных материалов (например, высокосортная руда)
  • Функция отбора образцов в рамках групп горных материалов и назначения их выемочной единице (например, рудная жила)

Для построения рудных жил из отобранных образцов имеется новая тестовая команда автоматического моделирования рудной жилы. Эта функция позволяет управлять выклиниваниями, имеет несколько опций для управления границами, что сокращает необходимость в ручном управлении и редактировании, а конечные точки проб включаются в результирующую поверхность, что обеспечивает точное соответствие исходных проб и кровли и подошвы жилы. Лежащий в основе гауссовский процесс позволяет указать опцию переменной неопределенности во входных данных.

Для получения дополнительной информации о последней версии Studio RM 1.4и о наших других программных решениях обращайтесь в местный офис Datamine.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *