– ReLU (Rectified Linear Unit): ReLU активируется только при положительных входных значениях, а при отрицательных обнуляется. Она значительно ускоряет обучение по сравнению с сигмоидом и помогает преодолеть проблему затухающих градиентов. Однако ReLU имеет свою проблему: если значение на входе слишком велико или слишком мало, нейрон может «вылететь» в область, где он всегда отдает ноль, так называемая проблема «умирающих нейронов».
– tanh (гиперболический тангенс): tanh работает похоже на сигмоид, но сжимает значения в диапазон от -1 до 1. Это помогает справляться с отрицательными входами, что полезно для задач, где такие значения играют важную роль. Tanh также подвержена затуханию градиентов, но меньше, чем сигмоид. Он помогает в задачах, где важно учитывать знаки выходных данных, так как диапазон шире, чем у сигмоида.
Каждая функция активации выбирается в зависимости от конкретной задачи и структуры сети. Например, ReLU предпочтителен для глубоких сетей, так как он обеспечивает более быстрый и стабильный процесс обучения.
Примеры задач для различных функций активации
Сигмоидная функция
Задача: Определение, является ли пациент здоровым (0) или больным (1) на основе анализа его медицинских данных.
Решение: В этой задаче бинарной классификации нужно построить нейросеть, которая на основе различных показателей (возраст, давление, уровень холестерина и пр.) предскажет вероятность того, что пациент болен.
Для этого:
1. На вход подаются числовые значения параметров.
2. Нейроны скрытого слоя обрабатывают эти данные и передают в выходной нейрон.
3. Сигмоидная функция активации применяется на выходном слое, сжимая итоговое значение между 0 и 1. Если значение близко к 1, сеть «уверена», что пациент болен; если близко к 0 – здоров.
Особенность: Сигмоид удобен, поскольку интерпретируется как вероятность. Однако, если сеть получает очень большие значения на входе (например, значение здоровья больше 10 или меньше -10), сигмоид сильно сглаживает выход, давая почти 0 или почти 1. Из-за этого нейроны начинают "глохнуть" и сеть обучается медленнее – проблема затухающих градиентов.
ReLU (Rectified Linear Unit)
Задача: Распознавание объектов на изображениях (например, классификация, что на картинке – собака или кошка).
Решение: Эта задача требует глубокую сверточную нейросеть, в которой обработка изображения должна проходить через множество слоев.