Нейронные сети программирование. Как работает нейронная сеть: алгоритмы, обучение, функции активации и потери. Почему ИНС — это все же не ИИ

Искусственная нейронная сеть — совокупность нейронов, взаимодействующих друг с другом. Они способны принимать, обрабатывать и создавать данные. Это настолько же сложно представить, как и работу человеческого мозга. Нейронная сеть в нашем мозгу работает для того, чтобы вы сейчас могли это прочитать: наши нейроны распознают буквы и складывают их в слова.

Искусственная нейронная сеть - это подобие мозга. Изначально она программировалась с целью упростить некоторые сложные вычислительные процессы. Сегодня у нейросетей намного больше возможностей. Часть из них находится у вас в смартфоне. Ещё часть уже записала себе в базу, что вы открыли эту статью. Как всё это происходит и для чего, читайте далее.

С чего всё началось

Людям очень хотелось понять, откуда у человека разум и как работает мозг. В середине прошлого века канадский нейропсихолог Дональд Хебб это понял. Хебб изучил взаимодействие нейронов друг с другом, исследовал, по какому принципу они объединяются в группы (по-научному - ансамбли) и предложил первый в науке алгоритм обучения нейронных сетей.

Спустя несколько лет группа американских учёных смоделировала искусственную нейросеть, которая могла отличать фигуры квадратов от остальных фигур.

Как же работает нейросеть?

Исследователи выяснили, нейронная сеть - это совокупность слоёв нейронов, каждый из которых отвечает за распознавание конкретного критерия: формы, цвета, размера, текстуры, звука, громкости и т. д. Год от года в результате миллионов экспериментов и тонн вычислений к простейшей сети добавлялись новые и новые слои нейронов. Они работают по очереди. Например, первый определяет, квадрат или не квадрат, второй понимает, квадрат красный или нет, третий вычисляет размер квадрата и так далее. Не квадраты, не красные и неподходящего размера фигуры попадают в новые группы нейронов и исследуются ими.

Какими бывают нейронные сети и что они умеют

Учёные развили нейронные сети так, что те научились различать сложные изображения, видео, тексты и речь. Типов нейронных сетей сегодня очень много. Они классифицируются в зависимости от архитектуры - наборов параметров данных и веса этих параметров, некой приоритетности. Ниже некоторые из них.

Свёрточные нейросети

Нейроны делятся на группы, каждая группа вычисляет заданную ей характеристику. В 1993 году французский учёный Ян Лекун показал миру LeNet 1 - первую свёрточную нейронную сеть, которая быстро и точно могла распознавать цифры, написанные на бумаге от руки. Смотрите сами:

Сегодня свёрточные нейронные сети используются в основном с мультимедиными целями: они работают с графикой, аудио и видео.

Рекуррентные нейросети

Нейроны последовательно запоминают информацию и строят дальнейшие действия на основе этих данных. В 1997 году немецкие учёные модифицировали простейшие рекуррентные сети до сетей с долгой краткосрочной памятью. На их основе затем были разработаны сети с управляемыми рекуррентными нейронами.

Сегодня с помощью таких сетей пишутся и переводятся тексты, программируются боты, которые ведут осмысленные диалоги с человеком, создаются коды страниц и программ.

Использование такого рода нейросетей - это возможность анализировать и генерировать данные, составлять базы и даже делать прогнозы.

В 2015 году компания SwiftKey выпустила первую в мире клавиатуру, работающую на рекуррентной нейросети с управляемыми нейронами. Тогда система выдавала подсказки в процессе набранного текста на основе последних введённых слов. В прошлом году разработчики обучили нейросеть изучать контекст набираемого текста, и подсказки стали осмысленными и полезными:

Комбинированные нейросети (свёрточные + рекуррентные)

Такие нейронные сети способны понимать, что находится на изображении, и описывать это. И наоборот: рисовать изображения по описанию. Ярчайший пример продемонстрировал Кайл Макдональд, взяв нейронную сеть на прогулку по Амстердаму. Сеть мгновенно определяла, что находится перед ней. И практически всегда точно:

Нейросети постоянно самообучаются. Благодаря этому процессу:

1. Skype внедрил возможность синхронного перевода уже для 10 языков. Среди которых, на минуточку, есть русский и японский - одни из самых сложных в мире. Конечно, качество перевода требует серьёзной доработки, но сам факт того, что уже сейчас вы можете общаться с коллегами из Японии по-русски и быть уверенными, что вас поймут, вдохновляет.

2. Яндекс на базе нейронных сетей создал два поисковых алгоритма: «Палех» и «Королёв». Первый помогал найти максимально релевантные сайты для низкочастотных запросов. «Палех» изучал заголовки страниц и сопоставлял их смысл со смыслом запросов. На основе «Палеха» появился «Королёв». Этот алгоритм оценивает не только заголовок, но и весь текстовый контент страницы. Поиск становится всё точнее, а владельцы сайтов разумнее начинают подходить к наполнению страниц.

3. Коллеги сеошников из Яндекса создали музыкальную нейросеть: она сочиняет стихи и пишет музыку. Нейрогруппа символично называется Neurona, и у неё уже есть первый альбом:

4. У Google Inbox с помощью нейросетей осуществляется ответ на сообщение. Развитие технологий идет полный ходом, и сегодня сеть уже изучает переписку и генерирует возможные варианты ответа. Можно не тратить время на печать и не бояться забыть какую-нибудь важную договорённость.

5. YouTube использует нейронные сети для ранжирования роликов, причём сразу по двум принципам: одна нейронная сеть изучает ролики и реакции аудитории на них, другая проводит исследование пользователей и их предпочтений. Именно поэтому рекомендации YouTube всегда в тему.

6. Facebook активно работает над DeepText AI - программой для коммуникаций, которая понимает жаргон и чистит чатики от обсценной лексики.

7. Приложения вроде Prisma и Fabby, созданные на нейросетях, создают изображения и видео:

Colorize восстанавливает цвета на чёрно-белых фото (удивите бабушку!).

MakeUp Plus подбирает для девушек идеальную помаду из реального ассортимента реальных брендов: Bobbi Brown, Clinique, Lancome и YSL уже в деле.

8. Apple и Microsoft постоянно апгрейдят свои нейронные Siri и Contana. Пока они только исполняют наши приказы, но уже в ближайшем будущем начнут проявлять инициативу: давать рекомендации и предугадывать наши желания.

А что ещё нас ждет в будущем?

Самообучающиеся нейросети могут заменить людей: начнут с копирайтеров и корректоров. Уже сейчас роботы создают тексты со смыслом и без ошибок. И делают это значительно быстрее людей. Продолжат с сотрудниками кол-центров, техподдержки, модераторами и администраторами пабликов в соцсетях. Нейронные сети уже умеют учить скрипт и воспроизводить его голосом. А что в других сферах?

Аграрный сектор

Нейросеть внедрят в спецтехнику. Комбайны будут автопилотироваться, сканировать растения и изучать почву, передавая данные нейросети. Она будет решать - полить, удобрить или опрыскать от вредителей. Вместо пары десятков рабочих понадобятся от силы два специалиста: контролирующий и технический.

Медицина

В Microsoft сейчас активно работают над созданием лекарства от рака. Учёные занимаются биопрограммированием - пытаются оцифрить процесс возникновения и развития опухолей. Когда всё получится, программисты смогут найти способ заблокировать такой процесс, по аналогии будет создано лекарство.

Маркетинг

Маркетинг максимально персонализируется. Уже сейчас нейросети за секунды могут определить, какому пользователю, какой контент и по какой цене показать. В дальнейшем участие маркетолога в процессе сведётся к минимуму: нейросети будут предсказывать запросы на основе данных о поведении пользователя, сканировать рынок и выдавать наиболее подходящие предложения к тому моменту, как только человек задумается о покупке.

Ecommerce

Ecommerce будет внедрён повсеместно. Уже не потребуется переходить в интернет-магазин по ссылке: вы сможете купить всё там, где видите, в один клик. Например, читаете вы эту статью через несколько лет. Очень вам нравится помада на скрине из приложения MakeUp Plus (см. выше). Вы кликаете на неё и попадаете сразу в корзину. Или смотрите видео про последнюю модель Hololens (очки смешанной реальности) и тут же оформляете заказ прямо из YouTube.

Едва ли не в каждой области будут цениться специалисты со знанием или хотя бы пониманием устройства нейросетей, машинного обучения и систем искусственного интеллекта. Мы будем существовать с роботами бок о бок. И чем больше мы о них знаем, тем спокойнее нам будет жить.

P. S. Зинаида Фолс - нейронная сеть Яндекса, пишущая стихи. Оцените произведение, которое машина написала, обучившись на Маяковском (орфография и пунктуация сохранены):

« Это »

это
всего навсего
что-то
в будущем
и мощь
у того человека
есть на свете все или нет
это кровьа вокруг
по рукам
жиреет
слава у
земли
с треском в клюве

Впечатляет, правда?

В этот раз я решил изучить нейронные сети. Базовые навыки в этом вопросе я смог получить за лето и осень 2015 года. Под базовыми навыками я имею в виду, что могу сам создать простую нейронную сеть с нуля. Примеры можете найти в моих репозиториях на GitHub. В этой статье я дам несколько разъяснений и поделюсь ресурсами, которые могут пригодиться вам для изучения.

Шаг 1. Нейроны и метод прямого распространения

Так что же такое «нейронная сеть»? Давайте подождём с этим и сперва разберёмся с одним нейроном.

Нейрон похож на функцию: он принимает на вход несколько значений и возвращает одно.

Круг ниже обозначает искусственный нейрон. Он получает 5 и возвращает 1. Ввод - это сумма трёх соединённых с нейроном синапсов (три стрелки слева).

В левой части картинки мы видим 2 входных значения (зелёного цвета) и смещение (выделено коричневым цветом).

Входные данные могут быть численными представлениями двух разных свойств. Например, при создании спам-фильтра они могли бы означать наличие более чем одного слова, написанного ЗАГЛАВНЫМИ БУКВАМИ, и наличие слова «виагра».

Входные значения умножаются на свои так называемые «веса», 7 и 3 (выделено синим).

Теперь мы складываем полученные значения со смещением и получаем число, в нашем случае 5 (выделено красным). Это - ввод нашего искусственного нейрона.

Потом нейрон производит какое-то вычисление и выдает выходное значение. Мы получили 1, т.к. округлённое значение сигмоиды в точке 5 равно 1 (более подробно об этой функции поговорим позже).

Если бы это был спам-фильтр, факт вывода 1 означал бы то, что текст был помечен нейроном как спам.

Иллюстрация нейронной сети с Википедии.

Если вы объедините эти нейроны, то получите прямо распространяющуюся нейронную сеть - процесс идёт от ввода к выводу, через нейроны, соединённые синапсами, как на картинке слева.

Шаг 2. Сигмоида

После того, как вы посмотрели уроки от Welch Labs, хорошей идеей было бы ознакомиться с четвертой неделей курса по машинному обучению от Coursera , посвящённой нейронным сетям - она поможет разобраться в принципах их работы. Курс сильно углубляется в математику и основан на Octave, а я предпочитаю Python. Из-за этого я пропустил упражнения и почерпнул все необходимые знания из видео.

Сигмоида просто-напросто отображает ваше значение (по горизонтальной оси) на отрезок от 0 до 1.

Первоочередной задачей для меня стало изучение сигмоиды , так как она фигурировала во многих аспектах нейронных сетей. Что-то о ней я уже знал из третьей недели вышеупомянутого курса , поэтому я пересмотрел видео оттуда.

Но на одних видео далеко не уедешь. Для полного понимания я решил закодить её самостоятельно. Поэтому я начал писать реализацию алгоритма логистической регрессии (который использует сигмоиду).

Это заняло целый день, и вряд ли результат получился удовлетворительным. Но это неважно, ведь я разобрался, как всё работает. Код можно увидеть .

Вам необязательно делать это самим, поскольку тут требуются специальные знания - главное, чтобы вы поняли, как устроена сигмоида.

Шаг 3. Метод обратного распространения ошибки

Понять принцип работы нейронной сети от ввода до вывода не так уж и сложно. Гораздо сложнее понять, как нейронная сеть обучается на наборах данных. Использованный мной принцип называется

В последнее время все чаще и чаще говорят про так званные нейронные сети, дескать вскоре они будут активно применятся и в роботехнике, и в машиностроении, и во многих других сферах человеческой деятельности, ну а алгоритмы поисковых систем, того же Гугла уже потихоньку начинают на них работать. Что же представляют собой эти нейронные сети, как они работают, какое у них применение и чем они могут стать полезными для нас, обо всем этом читайте дальше.

Что такое нейронные сети

Нейронные сети – это одно из направлений научных исследований в области создания искусственного интеллекта (ИИ) в основе которого лежит стремление имитировать нервную систему человека. В том числе ее (нервной системы) способность исправлять ошибки и самообучаться. Все это, хотя и несколько грубо должно позволить смоделировать работу человеческого мозга.

Биологические нейронные сети

Но это определение абзацем выше чисто техническое, если же говорить языком биологии, то нейронная сеть представляет собой нервную систему человека, ту совокупность нейронов в нашем мозге, благодаря которым мы думаем, принимаем те или иные решения, воспринимаем мир вокруг нас.

Биологический нейрон – это специальная клетка, состоящая из ядра, тела и отростков, к тому же имеющая тесную связь с тысячами других нейронов. Через эту связь то и дело передаются электрохимические импульсы, приводящие всю нейронную сеть в состояние возбуждение или наоборот спокойствия. Например, какое-то приятное и одновременно волнующее событие (встреча любимого человека, победа в соревновании и т. д.) породит электрохимический импульс в нейронной сети, которая располагается в нашей голове, что приведет к ее возбуждению. Как следствие, нейронная сеть в нашем мозге свое возбуждение передаст и другим органам нашего тела и приведет к повышенному сердцебиению, более частому морганию глаз и т. д.

Тут на картинке приведена сильно упрощенная модель биологической нейронной сети мозга. Мы видим, что нейрон состоит из тела клетки и ядра, тело клетки, в свою очередь, имеет множество ответвленных волокон, названых дендритами. Длинные дендриты называются аксонами и имеют протяженность много большую, нежели показано на этом рисунке, посредством аксонов осуществляется связь между нейронами, благодаря ним и работает биологическая нейронная сеть в наших с вами головах.

История нейронных сетей

Какова же история развития нейронных сетей в науке и технике? Она берет свое начало с появлением первых компьютеров или ЭВМ (электронно-вычислительная машина) как их называли в те времена. Так еще в конце 1940-х годов некто Дональд Хебб разработал механизм нейронной сети, чем заложил правила обучения ЭВМ, этих «протокомпьютеров».

Дальнейшая хронология событий была следующей:

В 1954 году происходит первое практическое использование нейронных сетей в работе ЭВМ.
В 1958 году Франком Розенблатом разработан алгоритм распознавания образов и математическая аннотация к нему.
В 1960-х годах интерес к разработке нейронных сетей несколько угас из-за слабых мощностей компьютеров того времени.
И снова возродился уже в 1980-х годах, именно в этот период появляется система с механизмом обратной связи, разрабатываются алгоритмы самообучения.
К 2000 году мощности компьютеров выросли настолько, что смогли воплотить самые смелые мечты ученых прошлого. В это время появляются программы распознавания голоса, компьютерного зрения и многое другое.

Искусственные нейронные сети

Под искусственными нейронными сетями принято понимать вычислительные системы, имеющие способности к самообучению, постепенному повышению своей производительности. Основными элементами структуры нейронной сети являются:

Искусственные нейроны, представляющие собой элементарные, связанные между собой единицы.
– это соединение, которые используется для отправки-получения информации между нейронами.
Сигнал – собственно информация, подлежащая передаче.

Применение нейронных сетей

Область применения искусственных нейронных сетей с каждым годом все более расширяется, на сегодняшний день они используются в таких сферах как:

Машинное обучение (machine learning), представляющее собой разновидность искусственного интеллекта. В основе его лежит обучение ИИ на примере миллионов однотипных задач. В наше время машинное обучение активно внедряют поисковые системы Гугл, Яндекс, Бинг, Байду. Так на основе миллионов поисковых запросов, которые все мы каждый день вводим в Гугле, их алгоритмы учатся показывать нам наиболее релевантную выдачу, чтобы мы могли найти именно то, что ищем.
В роботехнике нейронные сети используются в выработке многочисленных алгоритмов для железных «мозгов» роботов.
Архитекторы компьютерных систем пользуются нейронными сетями для решения проблемы параллельных вычислений.
С помощью нейронных сетей математики могут разрешать разные сложные математические задачи.

Типы нейронных сетей

В целом для разных задач применяются различные виды и типы нейронных сетей, среди которых можно выделить:

сверточные нейронные сети,
реккурентные нейронные сети,
нейронную сеть Хопфилда.

Сверточные нейронные сети

Сверточные сети являются одними из самых популярных типов искусственных нейронных сетей. Так они доказали свою эффективность в распознавании визуальных образов (видео и изображения), рекомендательных системах и обработке языка.

Сверточные нейронные сети отлично масштабируются и могут использоваться для распознавания образов, какого угодно большого разрешения.
В этих сетях используются объемные трехмерные нейроны. Внутри одного слоя нейроны связаны лишь небольшим полем, названые рецептивным слоем.
Нейроны соседних слоев связаны посредством механизма пространственной локализации. Работу множества таких слоев обеспечивают особые нелинейные фильтры, реагирующие на все большее число пикселей.

Рекуррентные нейронные сети

Рекуррентными называют такие нейронные сети, соединения между нейронами которых, образуют ориентировочный цикл. Имеет такие характеристики:

У каждого соединения есть свой вес, он же приоритет.
Узлы делятся на два типа, вводные узлы и узлы скрытые.
Информация в рекуррентной нейронной сети передается не только по прямой, слой за слоем, но и между самими нейронами.
Важной отличительной особенностью рекуррентной нейронной сети является наличие так званой «области внимания», когда машине можно задать определенные фрагменты данных, требующие усиленной обработки.

Рекуррентные нейронные сети применяются в распознавании и обработке текстовых данных (в частотности на их основе работает Гугл переводчик, алгоритм Яндекс «Палех», голосовой помощник Apple Siri).

Нейронные сети, видео

И в завершение интересное видео о нейронных сетях.

При написании статьи старался сделать ее максимально интересной, полезной и качественной. Буду благодарен за любую обратную связь и конструктивную критику в виде комментариев к статье. Также Ваше пожелание/вопрос/предложение можете написать на мою почту pavelchaika1983@gmail.com или в Фейсбук, с уважением автор.

Самое смешное в высоких технологиях — это то, что им уже тысячи лет! Например, счисление было изобретено независимо Ньютоном и Лейбницом более 300 лет назад. То, что когда-то считалось магией, сейчас хорошо изучено. И, конечно, все мы знаем, что геометрию изобрёл Евклид пару тысяч лет назад. Фишка в том, что зачастую проходят годы прежде, чем что-то становится «популярным». Нейронные сети — превосходный пример. Все мы слышали о нейронных сетях и о том, что они обещают, но почему-то не видим обычных программ, основанных на них. Причиной этого является то, что истинной природой нейронных сетей является чрезвычайно сложная математика, и необходимо понимать и доказывать сложные теоремы, которые её охватывают, и, возможно, необходидмо знание теории вероятности и комбинаторного анализа, не говоря уже о физиологии и неврологии.

Стимул к созданию любой технологии для человека или людей — это создание Программы-Убийцы с её помощью. Все мы сейчас знаем, как рабоает DOOM, т.е. используя деревья BSP. Однако Джон Кармак в своё время не изобрёл их, он прочитал о них в статье, написанной в 1960 году. Эта статья описывала теорию BSP-технологии. Джон сделал следующий шаг, поняв, как могут быть использованы BSP-деревья, и родился DOOM. Я подозреваю, что нейронные сети ожидает такое же перерождение в ближайшие несколько лет. Компьютеры достаточно быстры для их имитации, VLSI-дизайнеры создают их прямо в кремнии, и есть сотни опубликованных книг по этой тематке. А поскольку нейронные сети — наиболее математическая сущность из всего нам известного, они не привязаны к какому-либо физическому представлению и мы можем создать их при помощи программного обеспечения или создать реальные кремниевые модели. Главное, что суть нейронной сети — абстрактная модель.

Во многих отношениях пределы цифровых вычислительных машин уже были реализованы. Конечно, мы будем совершенствовать их и делать ещё быстрее, меньше и дешевле, но цифровые компьютеры всегда смогут воспринимать только цифровую информацию, поскольку основаны они на бинарной вычислительной модели. Нейронные сети, однако, основаны на разных моделях вычислений. Они основаны на высокоуровневой распределённой, вероятностной модели, которая не обязана искать решение проблемы так, как это делает компьютерная программа; она моделирует сеть ячеек, которые могут найти, установить или кореллировать возможные пути решения проблемы более «биологическим» путём, решая проблему маленькими кусочками и складывая результаты вместе. Эта статья — обзор технологии нейронных сетей, где они будут разобраны настолько подробно, насколько это возможно на нескольких страницах.

Биологические аналоги

Нейронные сети были вдохновлены нашим собственным мозгом. Буквально — чей-то мозг в чьей-то голове как-то сказал: «меня интересует, как же я работаю?», а затем приступил к созданию простой модели самого себя. Странно, да? Модель стандартной нейронной ноды, основанная на упрощенной модели человеческого нейрона, изобретена более пятидесяти лет назад. Взгляните на рисунок 1.0. Как вы можете видеть, есть три основных части нейрона, это:

Дентрит(ы) (Dendrite)...................Ответственны за сбор поступающих сигналов
Сома (Soma)................................Ответственны за основную обработку и суммирование сигналов
Аксон (Axon)...............................Отвечает за передачу сигналов другим дендритам.

Средний человеческий мозг содержит около 100 млрд. или 10 в 11-й степени нейронов, и каждый из них имеет до 10000 соединений через дендриты. Сигналы передаются с помощью электрохимических процессов на основе натрия, калия и ионов. Сигналы передаются, накапливая разницу потенциалов, вызванную этими ионами, но химия тут значения не имеет, и сигналы можно рассматривать как простые электрические импульсы, путешествующие с аксона на дендрит. Присоединение одного дентрита к чужому аксону называется синапс, и это основные точки передачи импульсов.

Так как же работает нейрон? На этот вопрос нет простого ответа, но для наших целей будет достаточно следующего обьяснения. Дендриды собирают сигналы, полученные от других нейронов, затем сомы выполняют суммирование и вычисление сигналов и данных, и наконец на основе результата обработки могут «сказать» аксонам передать сигнал дальше. Передача далее зависит от ряда факторов, но мы можем смоделировать это поведение как передаточную функцию, которая принимает входные данные, обрабатывает их и готовит выходные данные, если выполняются свойства передаточной функции. Кроме того, в реальных нейронах вывод данных нелинеен, то есть сигналы — не цифровые, а аналоговые. Фактически нейроны непрерывно получают и передают сигналы и реальная их модель зависит от частоты и должна быть проанализирована в S-домене (домене частоты). Реальная передаточная функция простого биологического нейрона по сути нами смоделирована.

Теперь у нас есть некоторое представление о том, что такое нейроны и что мы собственно пытаемся смоделировать. Давайте отвлечемся на минуту и поговорим о том, как мы можем использовать нейронные сети в видеоиграх.

Игры

Нейронные сети, похоже, могут стать ответом на все наши потребности. Если бы мы могли передавать символы и слова в маленькие игровые мозги, представьте, как круто это было бы. Модель нейронных сетей даёт нам грубую структуру нейронов, но не даёт высокого уровня функциональности разума и дедукции, по крайней мере в классическом смысле этого слова. Придётся немного подумать, чтобы придумать способы применения технологии нейронных сетей в игровом ИИ, но как только вы это сделаете, вы сможете использовать их в связке с детерминированными алгоритмами, нечеткой логикой и генетическими алгоритмами для создания весьма надежной и продвинутой модели мышления ИИ для ваших игр. Вне сомнения результат будет лучше всего того, чего вы способны достичь сотнями блоков if-else или скриптами сценариев. Нейронные сети могут быть использованы для таких вещей, как:

Сканирование и распознавание окружения — нейронная сеть может получать информацию в виде зрения или слуха. Затем эта информация может быть использована для формирования ответа или реакции, или для обучения сети. Эти ответы могут быть выведены в режиме реального времени и обновлены с целью оптимизации ответов.

Память — нейронная сеть может быть использована как форма памяти игровых персонажей. Нейронные сети могут обучаться на собственном опыте и пополнять набор ответов и реакций.

Поведенческий контроль — выходные данные нейронной сети могут быть использованы для контроля дейтвий игрового персонажа. Входными могут быть различные переменные движка игры. Тогда сеть сможет контролировать поведение игрового персонажа.

Маппинг ответов — нейронные сети действительно хорошо работают с «ассоциациями», что по сути — привязка одного пространства к другому. Ассоциация поставляется в двух вариантах: автоассоциация, связывающия ввод с самим собой, и гетероассоциация, связывающая ввод с чем-то еще. Связывание ответов использует нейронные сети как бэк-енд или вывод для создания ещё одного слоя косвенного управления поведением объекта. Как правило, мы могли бы иметь ряд контрольных переменных, но у нас есть только четкие ответы на ряд определённых комбинаций, которым мы можем обучить сеть. Однако используя нейронную сеть на выходе мы можем получить другие ответы, которые находятся примерно в той же области, что и наши четко предопределенные.

Приведённые примеры могу показаться несколько нечеткими, так и есть. Дело в том, что нейронные сети — это инструмент, который мы можем использовать как нам угодно. Ключевым тут является то, что их использование делает задачу создания ИИ проще и позволит сделать поведение игровых персонажей более разумным.

Нейронные сети 101

В этом разделе мы рассмотрим основные термины и понятия, используемые при обсуждении нейронных сетей. Это не так просто, поскольку нейронные сети — действительно продукт нескольких разных дисциплин, и каждая из них тянет за собой свой специфический словарь. Увы, словарь, касающийся нейронных сетей — пересечение словарей всех этих дисциплин, поэтому рассмотреть всё мы просто не сможем. Кроме того, теория нейронных сетей изобилует оборудованием, которое является избыточным, а это значит, что многие люди заново изобретают колесо. Это оказало влияние на создание сразу ряда архитектур нейронных сетей, каждая из которых имеет своё название. Я постараюсь описывать общие термины и ситуации, чтобы не увязнуть в именовании. Ну и в этой статье мы рассмотрим некоторые сети, которые достаточно различаются, чтобы иметь различные названия. По мере чтения не слишком беспокойтесь, если не сможете сходу осознать все понятия и термины, просто читайте их, дальше мы постараемся охватить их снова в контексте статьи. Давайте начнём...

Теперь, когда мы увидели «биологическую» версию нейрона, давайте рассмотрим основы искуственного нейрона, чтобы задать базу нашим рассуждениям. Рис. 2.0 — графический стандарт «нейроноды» или искусственного нейрона. Как видите, он имеет несколько входов, помеченных как X1 — Xn и В. Эти входы имеют ассоциированный с ними вес W1-Wn, и присоединённый к ним b. Кроме того, есть суммарное соединение Y и один выход y. Выход y в нейроноде основан на передаточной ф-ия, или «активация», которая является функцией входа нейроноды в сеть. Входящие данные приходят от X-ов и от B, которые соединены с соседними узлами. Идея в том, что B — это «прошллое», «память». Основная операция нейроноды такова: входные данные от X умножаются на связанный с ними вес и суммируются. Выходные данные суммирования — входные данные для активации Ya. Активация затем подаётся на функцию активации fa (x) и финальный вывод — это y. Уравнение всего этого:

ур. 1.0

n
Ya = B* b + е Xi * wi
i = 1 AND

y = fa(Ya)

Различные формы fa (x) будут рассмотрены через минуту.

Прежде, чем продолжать, мы должны поговорить о вводных Xi, весах Wi, и соответствующих им областях. В большинстве случаев вводы содержат положительные и отрицательные числа во множестве (- ¥, + вводы = I). Однако много нейронных сетей используют простые двузначные значения (вроде true/false). Причина использования такой простой схемы то, что в конечном счете все сложные даные преобразуются в чистое бинарное представление. Кроме того, во многих случаях нам нужно решить такие компьютерные задачи, как распознавание голоса, которые как раз подходят для двузначных представлений. Тем не менее, это не высечено на камне. В любом случае значения, используемые в двухвалентной системе в первую очередь 0 и 1 в двоичной системе или -1 и 1 в биполярной системе. Обе системы аналогичны за исключением того, что биполярное представление оказывается математически удобнее, чем бинарное. Весы Wi на каждом входе как правило в промежутке между (-Ґ , +Ґ), и называются «возбуждающие» или «тормозящие» для положительных и отриицательных значений соответственно. Дополнительный вход B, который вседа вызывается с 1.0 и умножается на b, где b — его вес.

Продолжая наш анализ, после нахождения активации Ya для нейроноды, она применяется к функции активации и может быть вычислен результат. Существует ряд функций активации, имеющих различное применение. Основные функции активации Fa (x):

Уравнения для каждой — достаточно просты, но каждое подходит к своей модели или имеет свой набор параметров.

Пошаговая (step) функция используется в ряде нейронных сетей и моделей для достижения заданной критичности входнящего сигнала. Цель фактора q — моделирование критического уровня входящего сигнала, на который должен реагировать нейрон.

Линейная (linear) функция активации используется, когда мы хотим, чтобы вывод нейроноды как можно ближе следовал за входной активацией. Подобная функция может быть использована для создания линейных систем, таких, как движение с постоянной скоростью. Наконец, экспонентная функция — ключ к продвинутым нейронным сетям, единственный путь к созданию нейронных сетей, которые смогут давать нелинейные ответы и моделировать нелинейные процессы. Функция экспонентной активации является развилкой в развитии нейронных сетей, поскольку используя шаговые и лнейные функции мы никогда не сможем создать нейронную сеть, дающую нелинейный отклик. Однако мы не обязаны использовать именно эту функцию. Могут быть использованы и гиперболические, логарифмические и трансцендентальные функции в зависимости от желаемых свойств сети. Наконец, мы можем использовать все подобные функции, если захотим.

Как вы можете догадаться, один нейрон многого не сделает, поэтому необходимо создать группу нейронов и слой нейронод, как показано на рис. 3.0. Рисунок иллюстрирует небольшую однослойную нейронную сеть. Нейронная сеть на рис. 3.0 содержит ряд входных и выходных узлов. По принятому соглашению это однослойная нейронная сеть, т.к. входной слой не учитывается, если только он не единственный слой сети. В данном случае входной слой одновременно и выходной, поэтому сеть однослойная. Рис. 4.0 показывает двуслойную нейронную сеть. Обратите внимание, что входной слой по-прежнему не учитывается, а внутренний слой называют «скрытым». Выходной слой называют выводом ответного слоя. Теоретически не существует ограничений на количество слоёв в нейронной сети, однако может быть очень сложно описать отношения различных слоёв и приемлемые методы обучения. Лучший способ создания многослойной нейронной сети — сделать каждую сеть одно- или двуслойной, а затем соединить их как компоненты или функциональные блоки.

Хорошо, теперь давайте поговорим о «временном» или на тему времени. Мы все знаем, что наш мозг работает достаточно медленно по сравнению с цифровой вычислительной машиной. Фактически наш мозг производит один цикл в масштабе миллисекунд, в то время как время для цифрового компьютера исчисляется наносекундах и почти уже в суб-наносекундах. Это означает, что путь сигнала от нейрона к нейрону занимает некоторое время. Это также моделируется в искусственных нейронах в том смысле, что мы производим вычисления слой за слоем и выдам результаты последовательно. Это помогает смоделировать временной лаг, присутствующий в биологических системах, таких, как наш мозг.

Мы почти закончили предварительное обсуждение, давайте поговорим о некоторых высокоуровневых понятиях, а затем закончим на ещё парочке терминов. Вопрос, который вы должны задать: «в чём фишка нейронных сетей?» Это хороший вопрос, и окончательно на него ответить затруднительно. Расширенный вопрос — «Что вы хотите попытаться заставить делать нейронные сети?» В основном они отображают методику, которая помогает отразить одно пространство по отношению к другому. В сущности нейроны представляют собой тип памяти. И как и к любой памяти, мы можем применять для их описания некоторые соответствующие термины. нейроны имеют как STM (кратковременная память), так и LTM (долговременная память). STM — способность нейронной сети вспомнить что-то, что она узнала только что, а LTM — способность нейронной сети вспомнить что-то, что она узнала некоторое время назад в свете только что полученной информации. Это приводит нас к концепции пластичности или, другими словами, к концепции того, как нейронная сеть поведёт себя с информацией или при обучении. Может ли нейронная сеть изучать больше информации и продолжать верно «вспоминать» ранее изученную? Если да, то нейронные сети становятся неустойчивыми, поскольку будут в итоге содержать столько информации, что данные начнут бесконечно пересекаться и перекрывать друг друга. Это приводит нас к ещё одному требованию — стабильности. Итоговая суть — мы хотим, чтобы нейронная сеть обладала хорошей LTM, хорошей STM, была пластичной и проявляла стабильность. Конечно, некоторые нейронные сети не являются аналогом памяти, они направлены в основном на функциональное отображение, и к ним эти понятия не применяются, но вы поняли основную суть. Теперь, когда мы знаем о перечисленных понятиях, связанных с памятью, давайте завершим обзор на нескольких математических факторах, которые помогут оценить и понять эти свойства.

Одно из основных применений нейронных сетей — создание механизма воспоминаний, который сможет обрабатывать неполные либо нечеткие входные данные и возвращать результат. Результатом могут быть сами входные данные (ассоциация) или совершенно отличающийся от входных данных ответ (гетероассоциация). Также возможно наложение N-мерного пространства на M-мерное и нелинейная загрузка данных. Это означает, что нейронная сеть является своего рода гиперпространственным блоком памяти, поскольку может связать входной N-элемент с выходным M-элементом, где M может быть равно N, а может и не быть.

Что в сущности делают нейронные сети — разделяют N-мерное пространсово на регионы, которые однозначно сопоставляют входные данные с выходными или классифицируют входные данные в различные классы. Тогда при увеличении значений (векторов) входящего набора данных (назовём его S), логически следует, что нейронным сетям будет сложнее разделять информацию. И так как нейронные сети наполнены информацией, входные значения, которые должны быть «вспомнены», будут пересекаться, так как входящее пространство не может содержать все разделённые данные в бесконечном числе измерений. Это перекрытие означает, что некоторые входы не так сильны, как могли бы быть. Хотя в ряде случаев эта проблема не является проблемой, она вызывает озабоченность при моделировании нейронных сетей памяти; давайте для иллюстрации концепции предположим, что мы пытаемся связать N-набор входных векторов с некоторым множеством выходов. Выходное множество — не столь большая проблема для надлежащего функционирования, какой является выходной набор S.

Если входной сет S является строго двоичным, то мы рассматриваем последовательности вида 1101010 ... 10110. Давайте скажем, что наши входные даные имеют только 3 бита каждый, поэтому все пространство входа состоит из векторов:

v0 = (0,0,0), v1 = (0,0,1), v2 = (0,1,0), v3 = (0,1,1), v4 = (1,0,0), v5 = (1,0,1), v6 = (1,1,0),

Для большей точности, базис для этого сета векторов:

v = (1,0,0) * b2 + (0,1,0) * b1 + (0,0,1) * b0, where bi can take on the values 0 or 1.

Например, если мы допустим, что B2=1, B1=0, и B0=1, то получим следующий вектор:

v = (1,0,0) * 1 + (0,1,0) * 0 + (0,0,1) * 1 = (1,0,0) + (0,0,0) + (0,0,1) = (1,0,1), который является Vs нашего возможного входного массива

Базис — это специальный суммированный вектор, описывающий массив векторов в пространстве. Так V описывает все векторы в нашем пространстве. В общем, не вдаваясь в долгие объяснения, чем более ортогональны векторы во входном массиве, тем лучше они будут распространяться в нейронной сети, и тем лучше могут быть вызваны. Ортогональность относится к независимости векторов, другими словами если два вектора ортогональны, то их скалярное произведение равно нулю, их проекция друг на друга равна нулю, и они не могут быть описаны относительно друг друга. В массиве v есть множество ортогональных векторов, но они приходят небольшими группами, например V0 Ортогонален всем векторам, поэтому мы можем всегда включать его. Но если мы включим V1 в массив S, то только векторы V2 и V4 будут поддерживать с ним ортогональность:

v0 = (0,0,0), v1 = (0,0,1), v2= (0,1,0), v4 = (1,0,0)

Почему? Потому что Vi — Vj для всех i,j от 0...3 равно нулю. Другими словами, скалярное произведение всех пар векторов в 0, поэтому они все должны быть ортогональны. Таким образом, этот массив очень хорош в качестве входного массива нейронной сети. Однако массив:

v6 = (1,1,0), v7 = (1,1,1)

потенциально плох, т.к. входы v6-v7 не-нулевые, в бинарной системе это 1. Следующий вопрос — мы можем измерить эту ортогональность? Ответ — Да. В двоичной системе векторов есть мера, называемая расстояние Хэмминга. Она используется для измерения N-мерного расстояния между двоичными векторами. Это просто число битов, которые различны у двух векторов. Например, векторы:

v0 = (0,0,0), v1 = (0,0,1)

имеют дистанцию Хэмминга 1 между собой, а

v2 = (0,1,0), v4 = (1,0,0)

имеют дистанцию хэмминга 2.

Мы можем использовать расстояние Хэмминга в качестве меры ортогональности в бинарных системах векторов. И это может помочь нам определить, имеют ли пересечения наши входные массивы данных. Определение ортогональности с общими входными векторами — сложнее, но принцип тот же. Пожалуй, достаточно концепций и терминологии, давайте перепрыгнем всё остальное и посмотрим на фактические нейронные сети, которые что-то делают и, возможно, в итоге прочтения этой статьи вы сможете использовать их для совершенствования ИИ вашей игры. Мы рассмотрим нейронные сети, используемые для выполнения логических функций, классификации входных данных и ассоциирования их с выходными.

Чистая логика

Первые искуственные нейронные сети были создана в 1943г. Маккалоком и Питтсом. Они состояли из некоторого числа нейроузлов и использовались в основном для вычисления простых логических функций, таких, как AND, OR, XOR и их комбинаций. Рис. 5.0. представляет собой основные нейроноды Маккалока и Питтса с двумя входами. Если вы инженер-электрик, то сразу увидите их близкое сходство с транзисторами. В любом случае, нейроноды Маккалока-Питтса не имеют соединений и простая функция активации Fmp (x) равна:

fmp (x) = 1, if xіq
0, if x < q

MP (McCulloch-Pitts) -нейронода функционирует путём суммирования произведения входов Xi и весов Wi и принимает как результат Ya для функции Fmp (x). Ранние исследования Маккалока-Питса были сосредоточены на создании сложных логических схем с моделями нейронод. Кроме того, одно из правил моделирования нейронод — то, что передача сигнала от нейрона к нейрону занимает один шаг времени. Это помогает быть ближе к модели природных нейронов. Давайте взглянем на некоторые примеры MP-нейронных сетей, реализующих базовый логический функционал. Логическая функция AND Имеет следующую таблице истинности:

Мы можем смоделировать это двумя входмыми MP-нейронными сетями с весами w1=1, w2=2, и q=2. Эта нейронная сеть показана на рис. 6.0а. Как видите, все входные комбинации работают верно. Например,если мы попытаемся задать вводные X1=0, Y1=1, то активация будет:

X1*w1 + X2*w2 = (1)*(1) + (0)*(1) = 1.0

Если мы применим 1.0 для функции активации Fmp (x), то результатом будет 0, что является верным ответом. Как другой пример, если мы попробуем задать вводные X1=1, X2=1, то активация будет:

X1*w1 + X2*w2 = (1)*(1) + (1)*(1) = 2.0

Если мы вводим 2.0 в функцию активации Fmp (x), результатом будет 1.0, что является верным. В других случаях работать будет аналогично. Функция ИЛИ аналогична, но чувствительность q изменяется на 1.0 вместо 2.0, как было в AND. Вы можете сами попробовать погонять данные через таблицы истинности, чтобы посмотреть на результаты.

Сеть XOR немного отличается, так как в действительности имеет 2 слоя, т.к. результаты предварительной обработки в дальнейшем обрабатываются в выходном нейроне. Это хороший пример того, почему нейронной сети необходим более чем один слой для решения определённых задач. XOR — это общая проблема нейронных сетей, которая обычно используется для теста производительности сети. В любом случае, XOR линейно неотделима в отдельный слой, она должна быть разбита на более мелкие этапы, результаты которых суммируются. Таблица истинности для XOR выглядит так:

XOR верна только когда вводы различны, это проблема, т.к. оба ввода относятся к одному выводу. XOR линейно неразделима, это показано на рис. 7.0. Как видите, не существует способа отделить верный ответ прямолинейно. Дело в том, что мы можем отделить верный ответ двумя линиями, и это как раз то, что делает второй слой. Первый слой предварительно обрабатывает данные или решает часть проблемы, а оставшийся слой завершает вычисление. Обращаясь к рис. 6.0 мы видим, что веса Wq=1, W2=-1, W3=1, W4=-1, W5=1, W6=1. Сеть работает следующим образом: слой вычисляется, если X1 и X2 являются противоположностями, результаты в случаях (0,1) или (1,0) являются пищей для слоя два, который их суммирует и передаёт дальше, если true. В сущности мы создали логическую функцию:

z = ((X1 AND NOT X2) OR (NOT X1 AND X2))

Если вы хотите поэкспериментировать с базовыми нейронодами Маккалока-Питтса, следующий листинг представляет собой полный стимулятор нейроноды с двумя входами.

// MCULLOCCH PITTS SIMULATOR
// INCLUDES
/////////////////////////////////////////////////////

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include

// MAIN
/////////////////////////////////////////////////////

void main(void )
{
float threshold, // this is the theta term used to threshold the summation
w1, w2, // these hold the weights
x1, x2, // inputs to the neurode
y_in, // summed input activation
y_out; // final output of neurode

printf («nMcCulloch-Pitts Single Neurode Simulator.n» ) ;
printf («nPlease Enter Threshold?» ) ;
scanf(«%f» ,& threshold) ;

printf («nEnter value for weight w1?» ) ;
scanf(«%f» ,& w1) ;

printf («nEnter value for weight w2?» ) ;
scanf(«%f» ,& w2) ;

printf («nnBegining Simulation:» ) ;

// enter main event loop

while (1 )
{
printf («nnSimulation Parms: threshold=%f, W=(%f,%f) n» , threshold, w1, w2) ;

// request inputs from user
printf («nEnter input for X1?» ) ;
scanf(«%f» ,& x1) ;

printf («nEnter input for X2?» ) ;
scanf(«%f» ,& x2) ;

// compute activation
y_in = x1* w1 + x2* w2;

// input result to activation function (simple binary step)
if (y_in >= threshold)
y_out = (float ) 1.0 ;
else
y_out = (float ) 0.0 ;

// print out result
printf («nNeurode Output is %fn» , y_out) ;

// try again
printf («nDo you wish to continue Y or N?» ) ;
char ans[ 8 ] ;
scanf(«%s» , ans) ;

if (toupper(ans[ 0 ] ) != "Y" )
break ;
} // end while

printf («nnSimulation Complete.n» ) ;
} // end main

На этом наше обсуждение базовых блоков МП-нейросети завершены, давайте двигаться к более комплексным нейронным сетям, таким как те, которые используются для классификации входных векторов.

Классификация и распознавание «изображений»

Наконец мы готовы рассмотреть реальные нейронные сети, которые нашли некоторое применение! Чтобы перейти к последующему обсуждению нейронных сетей Хебба и Хопфилда, проанализируем общую структуру нейронных сетей, которая проиллюстрирует ряд понятий, таких как линейная отделимость, биполярные представления, и аналогии, проходящие между нейронными сетями и воспоминаниями. Давайте для начала взглянем на рис. 8.0, которые представляет основную модель нейронной сети, которую мы собираемся использовать. Как видите, это одноузловая сеть с тремя входами, включающими смещение B, и одним выходом. Мы хотим увидеть, как использовать эту сеть для реализации логической операции AND, которую мы так просто реализовали в нейронодах Маккалока-Питтса.

Давайте начнем, используя биполярные представления, так что все 0 заменяются на -1. Таблица истинности для логического И при использовании биполярных входов и выходов показана ниже:

А вот функция активации fc (x), которую мы будем использовать:

fc (x) = 1, if x і q
— 1, if x < q

Обратите внимание, что функция — это шаг к биполярному выводу. Прежде чем продолжить, позвольте мне посеять семена в вашем мозге: смешение и чувствительность в конечном итоге делают то же самое, они дают нам ещё одну степень свободы в наший нейронах, которая позволяет им создавать такие ответы, которые не могут быть достигнуты без неё. Скоро вы увидите это.

Единая нейронода на рис. 8.0 пытается выполнить для нас классификацию. Она собирается сказать нам, такого ли класса наш ввод или иного. Например, изображение ли это дерева, или нет. Или, в нашем случае (простое логическое AND), это +1 или -1 класс? Это основа большинства нейронных сетей, поэтому и говорил о линейной отделимости. Мы должны прийти к линейному разделению пространства, что соотнесет наши входы и выходы так, что появится твердое разделение пространства, их разделяющего. Таким образом нам нужно придумать правильные значения веса и смещения, которые сделают это для нас. Но как мы это сделаем? Просто используя метод проб и ошибок, или есть некая методология? Ответ таков: есть ряд методов обучения нейронной сети. Эти методы работают на различных математичесих примерах и могут быть доказаны, но в данный момент мы просто будем брать значения, которые работают, не рассматривая процесс их получения. Эти упражнения приведут нас к алгоритмам обучения и более сложных сетей, чем приведённые здесь.

Ладно, мы пытаемся найти веса Wi и смещение B, которые дадут правильный результат при различных вводимых данных с функцией активации Fc (x). Напишем активацию суммирования нашей нейроноды и посмотрим, можем ли мы создать любые соотношения между весом и вводными данными, которые могут нам помочь. Учитывая входы X1 и X2 с весами W1 и W2 вместе с B=1 и смещением b, мы получим следующую формулу:

X1*w1 + X2*w2 + B*b=q

Так как B всегда равно 1.0, формула упрощается до:

X1*w1 + X2*w2 + b=q

X2 = -X1*w1/w2 + (q -b)/w2 (solving in terms of X2)

Что это такое? Это линия! И если лева сторона больше или равна q, то есть (X1*W1+X2*W2+b), то нейронода ответит 1, иначе выдаст результат -1. Т.е. линия — это границы решения. Рис. 9.0 иллюстрирует это. На графике вы можете увидеть, что наклон линии — это -w1/w2 и X2 перехват — это (q-b)/w2. Теперь понятно, почему мы можем избавиться от q? Она является частью постоянной, и мы всегда можем смасштабировать b для достижения любой потери, поэтому будем считать, что Q=0, и в результате получим уравнение:

X2 = -X1*w1/w2 — b/w

Мы хотим найти веса W1 и W2 и смещение b так, чтобы они разделяли наши выходы или классифицировали их в особые разделы без перекрытия. Это ключ к линейной отделимости. Рис. 9.0 показывает число границ решений, которых будет достаточно, так что можно взять любые из них. Давайте возьмем простейшие:

W1=W2=1

С этими значениями границей решения становится:

X2 = -X1*w1/w2 — b/w2 -> X2 = -1*X1 + 1

Наклон равен -1 и перехват X2 = 1. Если подключить входные векторы для логического AND в это уравнение и использовать активацию Fc (x), то мы получим верные выходные данные. Например, если X2+X1-1 > 0, то ответ нейроноды будет -1. Давайте попробуем с нашими входными данными для AND и посмотрим, что получится:

как видите, нейронные сети с соответствующим весом и смещением прекрасно решают задачу. Кроме того, есть целое семейство весов, которые будут делать это так же хорошо (раздвигая границы решения в перпендикулярном себе направлении). Однако есть важный момент. Без смещения или чувствительности будут возможны только прямые прохождения, т.к. перехват X2 должен быть 0. Это очень важно, и это основная причина использования чувствительности или смещения, так что этот пример был важен, поскольку из него ясно виден этот факт. Таким образом, ближе к делу — как найти нужные значения веса? Да, у нас теперь есть геометрические аналогии, и это начало нахождения алгоритма.

Обучение Хебба

Теперь мы готовы увидеть первый алгоритм обучения и его применение в нейронной сети. Один из самых простых алгоритмов обучения был изобретен Дональдом Хеббом, и он основан на использовании входных векторов для изменения веса так, чтобы вес создавал наилучшее линейное разделение входов и выходов. Увы, алгоритм работает всего лишь неплохо. Действительно, для ортогональных вводных это работает прекрасно, но для неортогональных алгоритм разваливается. Несмотря на то, что алгоритм не приводит к правильным весам для всех входов, он лежит в основе большинства алгоритмов обучения, поэтому мы начнем с него.

Прежде чем увидеть алгоритм, помните, что он лишь для одной нейроноды, однослойно нейронной сети. Можно, конечно, поместить много нейронод в слое, но все они будут работать параллельно и могут обучаться параллельно. Вместо использования одного вектора веса, мульти-нейроноды используют весовую матрицу. Во всяком случае, алгоритм прост, он выглядит примерно так:

Входные данные в биполярной форме I=(-1,1,0,... -1,1) и содержат k элементов.
Есть N входных векторов, и мы будем обращаться к их множеству как к J-элементу, напр. Ij.
Выходы будут называться Yj, и есть K выходов, каждый для одного входа Ij.
Веса W1-Wk содержатся в одном векторе W=(w1, w2,...wk)

Шаг 1. Инициализироавть все наши веса в 0, и пусть они содержатся в векторе W, состоящем из N записей. Также инициализировать смещение b в 0.

Шаг 2. От j=1 до n, делаем:

b = b + yj (Где y — желаемый результат

w = w + Ij * yj (Помним, что это векторная операция)

Алгоритм — не более, чем «аккумулятор» сортов. Сдвиг границ решений основана на изменениях во вводе и выводе. Единственная проблема — то, что в некоторых случаях граница не будет двигаться достаточно быстро (и вообще не будет) и «обучение» не состоиться.

Так как же нам использовать обучение Хебба? Ответ на этот вопрос тот же, что и у предыдущей нейронной сети, за исключением того, что теперь у нас есть алгоритмический метод обучения сети, и эта сеть называется сетью Хебба, или Hebbian Net. В качестве примера давайте возьмем нашу верную логическую функцию и посмотрим, сможет ли алгоритм найти для неё надлежащие значения веса и смещения. Приведённое ниже суммирование эквивалентно запуску алгоритма:

w = + + + = [(-1, -1)*(-1)] + [(-1, 1)*(-1)] + [(1, -1)*(-1)] + [(1, 1)*(1)] = (2,2)

b = y1 + y2 + y3 + y4 = (-1) + (-1) + (-1) + (1) = -2

Таким образом, W1=2, W2=2, и b=2. Это просто масштабированные версии значений W1=1, W2=2, B=-1, которые мы получили в предыдущем разделе. С помощью этого простого алгоритма мы можем обучить нейронную сеть (из одной нейроноды) ответить на массив вводных или классифицировать их как true/false, или 1/-1. А теперь, если бы у нас был массив таких нейронод, мы могли бы создать сеть, не просто определяющую вводные как да/нет, а и ассоциирующую вводные с некими паттернами. Это одна из основ для следующей структуры нейронных сетей, сетей Хопфилда.

Алгоритмы Хопфилда

Джон Хопфилд — это физик, которому нравится играть с нейронными сетями (что хорошо для нас). Он придумал простую (по крайней мере, сравнительно), но эффективную модель нейронной сети, названную Сеть Хопфилда. Она используется для ассоциирования, если вы ввели вектор x, то и на выходе получите x (я надеюсь). Сеть Хопфилда показана на рисунке 10.0. Это однослойная сеть с некоторым числом нейронод, равным числу входов Xi. Сеть полностью связана, и это означает, что каждая нейронода соединена с каждой другой нейронодой, а входы одновременно и выходы. Это может показаться вам странным, т.к. появляется обратная связь . Обратная связь является одной из ключевых особенностей сети Хопфилда, и она является одной из базовых основ для получения верного результата.

Сеть Хопфилда — это итерационная автоассоциативная память. Получение правильного результата может занять от одного до нескольких циклов. Позвольте пояснить: сеть Хопфилда получает ввод, а затем отдаёт его обратно, и результирующий вывод может быть и может не ыть желаемым вводом. Этот цикл обратной связи может пройти несколько раз до того, как будет возвращен входной вектор. Таким образом функциональная последовательность сети Хопфилда: сначала определить вес наших вводных, которые мы хотим ассоциировать, затем отдать входной вектор и посмотреть, что даст функция активации. Если результат такой же, как и наш оригинальный ввод, то всё получилось, если нет — возьмем результирующий вектор и скормим его сети. Теперь давайте посмотрим матрицу веса и алгоритм обучения, используемые в сетях Хопфилда.

Алгоритм обучения для сети Хопфилда основан на правиле Хебба и просто суммирует результат. Однако, поскольку сети Хопфилда имеют несколько входных нейронов, вес — уже не массив весов, а массив массивов, которые компактно содержатся в одной матрице. Таким образом весовая матрица W для сети Хопфилда создается на основе этого уравнения:

Вводные векторы в биполярной форме I = (-1,1,... -1,1) и содержат k элеметнов.
Есть N входных векторов, и мы будем обращаться к их множеству, как к j-элементу I, т.е. Ij.
Выводы будут называться Yj, и есть k выходов, каждый для своего входа Ij.
Весовая матрица W — квадратная, и имеет размерность kxk т.к. у нас есть k входов.

k
W (kxk) = е Iit x Ii
i = 1

Примечание: каждый внешний продукт будет иметь размерность К х К, так как мы умножаем вектор-столбец и вектор-строку.

И, Wii = 0 для всех i

Функция активации fh (x) показана ниже:

fh (x) = 1, if x і 0
0, if x < 0

fh (x) — функция шага с бинарным результатом. Это значит, что каждый ввод должен быть бинарным, но мы же уже говорили, что вводы биполярнны? Нууу да, это так, и это не так. Когда весовая матрица генерируется, мы конвертируем все входные векторы в биполярный формат, но при обычных операциях используем бинарную версию ввода и вывода, т.к. сеть Хопфилда также бинарна. Эта конверция не обязательна, но делает обсуждение сети немного проще. В любом случае, давайте рассмотрим пример. Скажем, мы хотим создать 4 ноды сети Хопфилда и мы хотим, чтобы они вызвали эти векторы:

I1=(0,0,1,0), I2=(1,0,0,0), I3=(0,1,0,1) Note: они ортогональны

Конвертируя в биполярные значени, получаем:

I1* = (-1, -1,1, -1) , I2* = (1, -1, -1, -1) , I3* = (-1,1, -1,1)

Теперь нам нужно вычислить W1,W2,W3, где Wi — продукт транспонирования каждого ввода с самим собой.

W1= [ I1* t x I1* ] = (— 1 , - 1 , 1 , - 1 ) t x (— 1 , — 1 , 1 , — 1 ) =
1 1 — 1 1
1 1 — 1 1
— 1 — 1 1 — 1
1 1 — 1 1 W2 = [ I2* t x I2* ] = (1 , — 1 , — 1 , — 1 ) t x (1 , — 1 , — 1 , — 1 ) =
1 — 1 — 1 — 1
— 1 1 1 1
— 1 1 1 1
— 1 1 1 1

W3 = [ I3* t x I3* ] = (— 1 , 1 , - 1 , 1 ) t x (— 1 , 1 , — 1 , 1 ) =
1 — 1 1 — 1
— 1 1 — 1 1
1 — 1 1 — 1
— 1 1 — 1 1

Обнуление главной диагонали дает нам окончательную матрицу веса:

W =
0 — 1 — 1 — 1
— 1 0 — 1 3
— 1 — 1 0 — 1
— 1 3 — 1 0

Вооот теперь давайте потанцуем. Давайте введем наши оригинальные векторы и посмотрим на результаты. Чтобы сделать это, просто умнажаем вводы на матрицу и обрабатываем каждый вывод функцией Fh (x). Вот результаты:

, — 1 ) and fh((0 , — 1 , — 1 , — 1 ) ) = (1 , 0 , 0 , 0 )

I3 x W = (— 2 , 3 , - 2 , 3 ) and fh((— 2 , 3 , — 2 , 3 ) ) = (0 , 1 , 0 , 1 )

Вводы были отлично «вспомнены», как оно и должно бытьЮ, т.к. они ортогональны. В качестве последнего примера давайте предположим, что наш ввод (слух, зрение и т.д.) немного «шумноват» и содержит одну ошибку. Давайте возьмем I3=(0,1,0,1) и добавим немного шума, т.е. I3 noise = (0,1,1,1). Теперь посмотрим, что случится, если ввести этот «шумный» вектор в сеть Хопфилда:

I3 noise x W = (-3, 2, -2, 2) and Fh ((-3,2, -2, 2)) = (0,1,0,1)

Удивительно, но исходный вектор «вспомнен». Это очень здорово. Таким образом у нас есть возможность создать «память», которая заполняется битовыми шаблонами, которые похожи на деревья (дуб, плакучая ива, ель и т.д.), и если мы введем другое дерево, например иву, которой не было в сети, наша сеть выведет (надеюсь) информацию о том, на что по её «мнению» ива похожа. Это одна из сильных сторон ассоциативных воспоминаний: мы не должны обучать сеть каждому возможному варианту ввода, нужно лишь столько, чтобы у сети возникали «ассоциации». Затем «близкие» вводы обычно сохраняются как изначально изученный ввод. Это основа распознавания изображений и голоса. Не спрашивайте меня, где я взял аналогию «дерева». Во всяком слуае, в конце нашей статьи я включил автоассоциативный симулятор сети Хопфилда, позволяющий создавать сети до 16 нейронод.

Мозг мёртв...

Вот и всё, что мы сегодня рассмотрим. Я надеялся добраться до сетей прецептрона, ну да ладно. Я надеюсь, вы хоть немного поняли, что такой нейронные сети и как создать рабочие программы для их моделирования. Мы рассмотрели основные термины и понятия, некоторые математические основы и некоторые самые распространенные модели сеетей. Однако, есть ещё множество вещей, которые можно узнать о нейронных сетях. Это перцептроны, нечеткая ассоциативная память или FAMs, двунаправленная ассоциативная память или BAMs, карты Кохонена, алгоритм обратного распространения сетей, адаптивной резонансной теории сети, и многое многое другое. Вот и всё, моя нейронная сеть зовет меня играть!

Что мы будем делать? Мы попробуем создать простую и совсем маленькую нейронную сеть , которую мы объясним и научим что-нибудь различать. При этом не будем вдаваться в историю и математические дебри (такую информацию найти очень легко) — вместо этого постараемся объяснить задачу (не факт, что удастся) вам и самим себе рисунками и кодом.
Многие из терминов в нейронных сетях связаны с биологией, поэтому давайте начнем с самого начала:

Мозг — штука сложная, но и его можно разделить на несколько основных частей и операций:

Возбудитель может быть и внутренним (например, образ или идея):

А теперь взглянем на основные и упрощенные части мозга :

Мозг вообще похож на кабельную сеть.

Нейрон — основная единица исчислений в мозге, он получает и обрабатывает химические сигналы других нейронов, и, в зависимости от ряда факторов, либо не делает ничего, либо генерирует электрический импульс, или Потенциал Действия, который затем через синапсы подает сигналы соседним связанным нейронам:

Сны, воспоминания, саморегулируемые движения, рефлексы да и вообще все, что вы думаете или делаете — все происходит благодаря этому процессу: миллионы, или даже миллиарды нейронов работают на разных уровнях и создают связи, которые создают различные параллельные подсистемы и представляют собой биологическую нейронную сеть .

Разумеется, это всё упрощения и обобщения, но благодаря им мы можем описать простую
нейронную сеть:

И описать её формализовано с помощью графа:

Тут требуются некоторые пояснения. Кружки — это нейроны, а линии — это связи между ними, и, чтобы не усложнять на этом этапе, взаимосвязи представляют собой прямое передвижение информации слева направо . Первый нейрон в данный момент активен и выделен серым. Также мы присвоили ему число (1 — если он работает, 0 — если нет). Числа между нейронами показывают вес связи.

Графы выше показывают момент времени сети, для более точного отображения, нужно разделить его на временные отрезки:

Для создания своей нейронной сети нужно понимать, как веса влияют на нейроны и как нейроны обучаются. В качестве примера возьмем кролика (тестового кролика) и поставим его в условия классического эксперимента.

Когда на них направляют безопасную струю воздуха, кролики, как и люди, моргают:

Эту модель поведения можно нарисовать графами:

Как и в предыдущей схеме, эти графы показывают только тот момент, когда кролик чувствует дуновение, и мы таким образом кодируем дуновение как логическое значение. Помимо этого мы вычисляем, срабатывает ли второй нейрон, основываясь на значении веса. Если он равен 1, то сенсорный нейрон срабатывает, мы моргаем; если вес меньше 1, мы не моргаем: у второго нейрона предел — 1.

Введем еще один элемент — безопасный звуковой сигнал:

Мы можем смоделировать заинтересованность кролика так:

Основное отличие в том, что сейчас вес равен нулю , поэтому моргающего кролика мы не получили, ну, пока, по крайней мере. Теперь научим кролика моргать по команде, смешивая
раздражители (звуковой сигнал и дуновение):

Важно, что эти события происходят в разные временные эпохи , в графах это будет выглядеть так:

Сам по себе звук ничего не делает, но воздушный поток по-прежнему заставляет кролика моргать, и мы показываем это через веса, умноженные на раздражители (красным). Обучение сложному поведению можно упрощённо выразить как постепенное изменение веса между связанными нейронами с течением времени.

Чтобы обучить кролика, повторим действия:

Для первых трех попыток схемы будут выглядеть так:

Обратите внимание, что вес для звукового раздражителя растет после каждого повтора (выделено красным), это значение сейчас произвольное — мы выбрали 0.30, но число может быть каким угодно, даже отрицательным. После третьего повтора вы не заметите изменения в поведении кролика, но после четвертого повтора произойдет нечто удивительное — поведение изменится.

Мы убрали воздействие воздухом, но кролик все еще моргает, услышав звуковой сигнал! Объяснить это поведение может наша последняя схемка:

Мы обучили кролика реагировать на звук морганием.

В условиях реального эксперимента такого рода может потребоваться более 60 повторений для достижения результата.

Теперь мы оставим биологический мир мозга и кроликов и попробуем адаптировать всё, что
узнали, для создания искусственной нейросети. Для начала попробуем сделать простую задачу.

Допустим, у нас есть машина с четырьмя кнопками, которая выдает еду при нажатии правильной
кнопки (ну, или энергию, если вы робот). Задача — узнать, какая кнопка выдает вознаграждение:

Мы можем изобразить (схематично), что делает кнопка при нажатии следующим образом:

Такую задачу лучше решать целиком, поэтому давайте посмотрим на все возможные результаты, включая правильный:

Нажмите на 3-ю кнопку, чтобы получить свой ужин.

Чтобы воспроизвести нейронную сеть в коде, нам для начала нужно сделать модель или график, с которым можно сопоставить сеть. Вот один подходящий под задачу график, к тому же он хорошо отображает свой биологический аналог:

Эта нейронная сеть просто получает входящую информацию — в данном случае это будет восприятие того, какую кнопку нажали. Далее сеть заменяет входящую информацию на веса и делает вывод на основе добавления слоя. Звучит немного запутанно, но давайте посмотрим, как в нашей модели представлена кнопка:

Обратите внимание, что все веса равны 0, поэтому нейронная сеть, как младенец, совершенно пуста, но полностью взаимосвязана.

Таким образом мы сопоставляем внешнее событие с входным слоем нейронной сети и вычисляем значение на ее выходе. Оно может совпадать или не совпадать с реальностью, но это мы пока проигнорируем и начнем описывать задачу понятным компьютеру способом. Начнем с ввода весов (будем использовать JavaScript):

Var inputs = ; var weights = ; // Для удобства эти векторы можно назвать

Следующий шаг — создание функции, которая собирает входные значения и веса и рассчитывает значение на выходе:

Function evaluateNeuralNetwork(inputVector, weightVector){ var result = 0; inputVector.forEach(function(inputValue, weightIndex) { layerValue = inputValue*weightVector; result += layerValue; }); return (result.toFixed(2)); } // Может казаться комплексной, но все, что она делает — это сопоставляет пары вес/ввод и добавляет результат

Как и ожидалось, если мы запустим этот код, то получим такой же результат, как в нашей модели или графике…

EvaluateNeuralNetwork(inputs, weights); // 0.00

Живой пример: Neural Net 001 . Следующим шагом в усовершенствовании нашей нейросети будет способ проверки её собственных выходных или результирующих значений сопоставимо реальной ситуации, давайте сначала закодируем эту конкретную реальность в переменную:

Чтобы обнаружить несоответствия (и сколько их), мы добавим функцию ошибки:

Error = Reality - Neural Net Output

С ней мы можем оценивать работу нашей нейронной сети:

Но что более важно — как насчет ситуаций, когда реальность дает положительный результат?

Теперь мы знаем, что наша модель нейронной сети не работает (и знаем, насколько), здорово! А здорово это потому, что теперь мы можем использовать функцию ошибки для управления нашим обучением. Но всё это обретет смысл в том случае, если мы переопределим функцию ошибок следующим образом:

Error = Desired Output - Neural Net Output

Неуловимое, но такое важное расхождение, молчаливо показывающее, что мы будем
использовать ранее полученные результаты для сопоставления с будущими действиями
(и для обучения, как мы потом увидим). Это существует и в реальной жизни, полной
повторяющихся паттернов, поэтому оно может стать эволюционной стратегией (ну, в
большинстве случаев).

Var input = ; var weights = ; var desiredResult = 1;

И новую функцию:

Function evaluateNeuralNetError(desired,actual) { return (desired — actual); } // After evaluating both the Network and the Error we would get: // "Neural Net output: 0.00 Error: 1"

Живой пример: Neural Net 002 . Подведем промежуточный итог . Мы начали с задачи, сделали её простую модель в виде биологической нейронной сети и получили способ измерения её производительности по сравнению с реальностью или желаемым результатом. Теперь нам нужно найти способ исправления несоответствия — процесс, который как и для компьютеров, так и для людей можно рассматривать как обучение.

Как обучать нейронную сеть?

Основа обучения как биологической, так и искусственной нейронной сети — это повторение
и алгоритмы обучения , поэтому мы будем работать с ними по отдельности. Начнем с
обучающих алгоритмов.

В природе под алгоритмами обучения понимаются изменения физических или химических
характеристик нейронов после проведения экспериментов:

Драматическая иллюстрация того, как два нейрона меняются по прошествии времени в коде и нашей модели «алгоритм обучения» означает, что мы просто будем что-то менять в течение какого-то времени, чтобы облегчить свою жизнь. Поэтому давайте добавим переменную для обозначения степени облегчения жизни:

Var learningRate = 0.20; // Чем больше значение, тем быстрее будет процесс обучения:)

И что это изменит?

Это изменит веса (прям как у кролика!), особенно вес вывода, который мы хотим получить:

Как кодировать такой алгоритм — ваш выбор, я для простоты добавляю коэффициент обучения к весу, вот он в виде функции:

Function learn(inputVector, weightVector) { weightVector.forEach(function(weight, index, weights) { if (inputVector > 0) { weights = weight + learningRate; } }); }

При использовании эта обучающая функция просто добавит наш коэффициент обучения к вектору веса активного нейрона , до и после круга обучения (или повтора) результаты будут такими:

// Original weight vector: // Neural Net output: 0.00 Error: 1 learn(input, weights); // New Weight vector: // Neural Net output: 0.20 Error: 0.8 // Если это не очевидно, вывод нейронной сети близок к 1 (выдача курицы) — то, чего мы и хотели, поэтому можно сделать вывод, что мы движемся в правильном направлении

Живой пример: Neural Net 003 . Окей, теперь, когда мы движемся в верном направлении, последней деталью этой головоломки будет внедрение повторов .

Это не так уж и сложно, в природе мы просто делаем одно и то же снова и снова, а в коде мы просто указываем количество повторов:

Var trials = 6;

И внедрение в нашу обучающую нейросеть функции количества повторов будет выглядеть так:

Function train(trials) { for (i = 0; i < trials; i++) { neuralNetResult = evaluateNeuralNetwork(input, weights); learn(input, weights); } }

Ну и наш окончательный отчет:

Neural Net output: 0.00 Error: 1.00 Weight Vector: Neural Net output: 0.20 Error: 0.80 Weight Vector: Neural Net output: 0.40 Error: 0.60 Weight Vector: Neural Net output: 0.60 Error: 0.40 Weight Vector: Neural Net output: 0.80 Error: 0.20 Weight Vector: Neural Net output: 1.00 Error: 0.00 Weight Vector: // Chicken Dinner !

Живой пример: Neural Net 004 . Теперь у нас есть вектор веса, который даст только один результат (курицу на ужин), если входной вектор соответствует реальности (нажатие на третью кнопку). Так что же такое классное мы только что сделали?

В этом конкретном случае наша нейронная сеть (после обучения) может распознавать входные данные и говорить, что приведет к желаемому результату (нам всё равно нужно будет программировать конкретные ситуации):

Кроме того, это масштабируемая модель, игрушка и инструмент для нашего с вами обучения. Мы смогли узнать что-то новое о машинном обучении , нейронных сетях и искусственном интеллекте . Предостережение пользователям:

Механизм хранения изученных весов не предусмотрен, поэтому данная нейронная сеть забудет всё, что знает. При обновлении или повторном запуске кода нужно не менее шести успешных повторов, чтобы сеть полностью обучилась, если вы считаете, что человек или машина будут нажимать на кнопки в случайном порядке… Это займет какое-то время.
Биологические сети для обучения важным вещам имеют скорость обучения 1, поэтому нужен будет только один успешный повтор.
Существует алгоритм обучения, который очень напоминает биологические нейроны, у него броское название: правило widroff-hoff , или обучение widroff-hoff .
Пороги нейронов (1 в нашем примере) и эффекты переобучения (при большом количестве повторов результат будет больше 1) не учитываются, но они очень важны в природе и отвечают за большие и сложные блоки поведенческих реакций. Как и отрицательные веса.

Заметки и список литературы для дальнейшего чтения

Я пытался избежать математики и строгих терминов, но если вам интересно, то мы построили перцептрон , который определяется как алгоритм контролируемого обучения (обучение с учителем) двойных классификаторов — тяжелая штука. Биологическое строение мозга — тема не простая, отчасти из-за неточности, отчасти из-за его сложности. Лучше начинать с Neuroscience (Purves) и Cognitive Neuroscience (Gazzaniga). Я изменил и адаптировал пример с кроликом из Gateway to Memory (Gluck), которая также является прекрасным проводником в мир графов. Еще один шикарный ресурс An Introduction to Neural Networks (Gurney), подойдет для всех ваших нужд, связанных с ИИ.
А теперь на Python! Спасибо Илье Андшмидту за предоставленную версию на Python:

Inputs = weights = desired_result = 1 learning_rate = 0.2 trials = 6 def evaluate_neural_network(input_array, weight_array): result = 0 for i in range(len(input_array)): layer_value = input_array[i] * weight_array[i] result += layer_value print("evaluate_neural_network: " + str(result)) print("weights: " + str(weights)) return result def evaluate_error(desired, actual): error = desired - actual print("evaluate_error: " + str(error)) return error def learn(input_array, weight_array): print("learning...") for i in range(len(input_array)): if input_array[i] > 0: weight_array[i] += learning_rate def train(trials): for i in range(trials): neural_net_result = evaluate_neural_network(inputs, weights) learn(inputs, weights) train(trials)

А теперь на GO! За эту версию благодарю Кирана Мэхера.

Package main import ("fmt" "math") func main() { fmt.Println("Creating inputs and weights ...") inputs:= float64{0.00, 0.00, 1.00, 0.00} weights:= float64{0.00, 0.00, 0.00, 0.00} desired:= 1.00 learningRate:= 0.20 trials:= 6 train(trials, inputs, weights, desired, learningRate) } func train(trials int, inputs float64, weights float64, desired float64, learningRate float64) { for i:= 1; i < trials; i++ { weights = learn(inputs, weights, learningRate) output:= evaluate(inputs, weights) errorResult:= evaluateError(desired, output) fmt.Print("Output: ") fmt.Print(math.Round(output*100) / 100) fmt.Print(" Error: ") fmt.Print(math.Round(errorResult*100) / 100) fmt.Print(" ") } } func learn(inputVector float64, weightVector float64, learningRate float64) float64 { for index, inputValue:= range inputVector { if inputValue > 0.00 { weightVector = weightVector + learningRate } } return weightVector } func evaluate(inputVector float64, weightVector float64) float64 { result:= 0.00 for index, inputValue:= range inputVector { layerValue:= inputValue * weightVector result = result + layerValue } return result } func evaluateError(desired float64, actual float64) float64 { return desired - actual }