Нахождение градиента вектор-функции
Перевод Ссылка на автора
Название изображения: Источник
В Часть 1 Нам поставили задачу: вычислить градиент этой функции потерь:
Изображение 1: функция потериЧтобы найти градиент, мы должны найти производную функцию. В Часть 2 мы научились вычислять частную производную функции по каждой переменной. Однако большинство переменных в этой функции потерь являются векторами. Возможность найти частную производную векторных переменных особенно важна, поскольку нейронная сеть работает с большими объемами данных. Векторные и матричные операции — это простой способ представления операций с таким большим количеством данных. Как именно вы можете найти градиент вектор-функции?
Градиент скалярной функции
Скажи, что у нас есть функция,f (x, y) = 3x²y, Наши частные производные:
Изображение 2: Частичные производныеЕсли мы организуем эти части в горизонтальный вектор, мы получимградиентизР (х, у), или∇ f (x, y):
Изображение 3: Градиент f (x, y)6yxэто изменение вР (х, у)в отношении изменения вИкс, в то время как3x²это изменение вР (х, у)в отношении изменения вY,
Что происходит, когда у нас есть две функции? Давайте добавим еще одну функцию,g (x, y) = 2x + y⁸, Частные производные:
Изображение 4: Частицы для g (x, y)Таким образом, градиент g (x, y):
Изображение 5: градиент g (x, y)Представляющие функции
Когда у нас есть несколько функций с несколькими параметрами, часто полезно представлять их более простым способом. Мы можем объединить несколько параметров функций в один векторный аргумент,Иксэто выглядит следующим образом:
Следовательно,Р (х, у, г)станетF (x₁, x₂, x₃)который становитсяе (Икс).
Мы также можем объединить несколько функций в вектор, например так:
Изображение 7: ВекторYВ настоящее время,у = F (X)гдеF (X)является вектором из [f₁ (Икс), f₂ (Икс), f₃ (Икс) … п (Икс)]
Для нашего предыдущего примера с двумя функциями,f (x, y) ⇒ f (Икс)а такжеg (x, y) ⇒ g (Икс).Здесь векторИкс= [x₁, x₂], гдеx₁ = х, а такжеx₂ = у, Чтобы упростить его еще больше, мы можем объединить наши функции: [f (Икс),г(Икс)] = [f₁ (Икс), f₂ (Иксзнак равноf (x) = y.
Зачастую количество функций и количество переменных будет одинаковым, поэтому для каждой переменной существует решение.
Градиент вектор-функции
Теперь, когда у нас есть две функции, как мы можем найти градиент обеих функций? Если мы организуем оба их градиента в одну матрицу, мы переместимся из векторного исчисления в матричное исчисление. Эта матрица и организация градиентов нескольких функций с несколькими переменными, известна какМатрица Якобиана,
Изображение 9: ЯкобианЕсть несколько способов представления якобиана. Этот макет, где мы укладываем градиенты по вертикали, известен какмакет числителя, но другие документы будут использоватьрасположение знаменателя, который просто переворачивает его по диагонали:
Изображение 10: Расположение знаменателя якобианаГрадиент функции идентичности
Давайте возьмем функцию идентичности,у = ф (х) = х, гдеFi (Икс) = xiи найдите его градиент:
Изображение 11: функция идентификацииТак же, как мы создали наш предыдущий якобиан, мы можем найти градиенты каждой скалярной функции и сложить их вертикально, чтобы создать якобиан тождественной функции:
Изображение 12: Якобиан тождественной функцииПоскольку это функция идентичности, f₁ (Икс) = x₁, f₂ (Икс) = х₂ и тд. Следовательно,
Частичная производная функции по переменной, которой нет в функции, равна нулю. Например, частная производная 2x² по y равна 0. Другими словами,
Изображение 14: частная производная функции по переменной, которой нет в функции, равна нулюПоэтому все, что не на диагонали якобиана, становится равным нулю. Между тем, частная производная любой переменной по отношению к себе равна 1. Например, частная производнаяИксв отношенииИксравен 1. Следовательно, якобиан становится:
Изображение 15: Якобиан тождественной функцииГрадиент комбинаций вектор-векторных функций
Элементарные бинарные операторыявляются операциями (такими как сложениевес+Иксиливес>Икскоторый возвращает вектор единиц и нулей), который применяет оператор последовательно, начиная с первого элемента обоих векторов, чтобы получить первый элемент вывода, затем второго элемента обоих векторов, чтобы получить второй элемент вывода… и так далее.
Эта статья представляет поэлементные бинарные операции с такими обозначениями:
Изображение 16: Поэлементная двоичная операция с f (x) и g (x)Здесь ◯ означает любой поэлементный оператор (например, +), а не композицию функций.
Итак, как вы находите градиент поэлементной операции двух векторов?
Поскольку у нас есть два набора функций, нам нужны два якобиана, один из которых представляет градиент относительноИкси один по отношению квес:
Изображение 17: Якобиан по отношению квеса такжеИксБольшинство арифметических операций нам понадобятся простые, поэтомуе (ш)часто просто векторвес, Другими словами,Fi (Wi) = Wi, Например, операцияW + хподходит к этой категории, так как она может быть представлена каке (ж) + д (х)гдеfi (wi) + gi (xi) = wi + xi.
При этом условии каждый элемент в двух якобианах упрощается до:
Изображение 18: Элементы в якобианеНа диагонали i = j, поэтому существует значение для частной производной. Вне диагонали, однако, i ≠ j, поэтому частные производные становятся равными нулю:
Мы можем представить это более кратко как:
Изображение 20: Якобиан по отношению квеса такжеИксПопробуем найти градиент функцииW + х, Мы знаем, что все вне диагонали равно 0. Значения частичных по диагонали относительновеса такжеИксявляются:
Изображение 21: Частичное в отношениивеса такжеИксИтак, оба якобиана имеют диагональ 1. Это выглядит знакомо … это матрица тождеств!
Давайте попробуем это с умножением:ш * х, Значения частностей по диагонали относительновеса такжеИксявляются:
Изображение 22: Частичное в отношениивеса такжеИксСледовательно, градиент по отношению квесизш * хявляетсяDiag (Икс)в то время как градиент по отношению кИксизш * хявляетсяDiag (вес).
Применяя те же шаги для вычитания и деления, мы можем суммировать все это:
Изображение 23: Градиенты общих элементарных бинарных операцийГрадиент векторных сумм
Одной из наиболее распространенных операций в глубоком обучении является операция суммирования. Как мы можем найти градиент функцииу = сумма (Икс)?
у = сумма (Икс)также может быть представлен как:
Изображение 24: у = сумма (Икс)Следовательно, градиент может быть представлен как:
Изображение 25: Градиент у = сумма (Икс)А так как частная производная функции по переменной, которой нет в функции, равна нулю, ее можно дополнительно упростить следующим образом:
Изображение 26: Градиент у = сумма (Икс)Обратите внимание, что результатом является горизонтальный вектор.
Как насчет градиентау = сумма (Иксг)? Единственное отличие состоит в том, что мы умножаем каждый частный с константой, z:
Изображение 27: Градиент у = сумма (Икся) в отношенииИксХотя это является производной по отношению кИкс, производная по скаляруZэто просто число:
Изображение 28: Градиент у = сумма (Иксz) относительно zГрадиент комбинаций векторных функций правила цепочки
В Часть 2 мы узнали о правилах цепей с несколькими переменными.
Давайте возьмем векторную функцию,Yзнак равное(Икс)и найти градиент. Давайте определим функцию как:
Изображение 29:Yзнак равное(Икс)И то и другоеf₁ (х)а такжеf₂ (х)являются составными функциями. Введем промежуточные переменные дляf₁ (х)а такжеf₂ (х)и переписать нашу функцию:
Изображение 30:Yзнак равное(г(Икс))Теперь мы можем использовать наше правило цепочки переменных, чтобы вычислить производную вектораY, Просто вычислите производнуюf₁ (х)а такжеf₂ (х)и поместите их один над другим:
Изображение 31: ГрадиентYзнак равное(г(Икс))Вуаля! У нас есть наш градиент. Однако мы пришли к нашему решению со скалярными правилами, просто сгруппировав числа в вектор.
Прямо сейчас наш градиент вычисляется с помощью:
Изображение 32: ГрадиентYзнак равное(г(Икс))Обратите внимание, что первый член градиентов обоихf₁ (х)а такжеf₂ (х)включает частичноеg₁надИкси второй член градиентов обоихf₁ (х)а такжеf₂ (х)включает частичноеg₂надИкс Это как умножение матриц! Поэтому мы можем представить это как:
Изображение 33: Векторное представление градиентаYзнак равное(г(Икс))Давайте проверим наше новое представление правила цепочки векторов:
Изображение 34: Правило векторной цепиМы получаем тот же ответ, что и скалярный подход! Если вместо одного параметра
Другими словами:
Изображение 36: Правило векторной цепиВ нашем примере выше,еэто чисто функцияг; то есть,фиявляется функциейсолдатно нетGJ(каждая функцияесоответствует ровно 1 функцииг),В этом случае все вне диагонали становится равным нулю, и:
Изображение 37: Особый случай векторного правила цепочкиТеперь у нас есть все части, которые мы находим в градиенте нейронной сети, с которой мы начали нашу серию:
Изображение 38: Функция стоимостиПроверять, выписываться Часть 4 чтобы узнать, как вычислить его производную!
Если вы еще этого не сделали, прочитайте части 1 и 2:
- Часть 1: Введение
- Часть 2: Частичные производные
Читать Часть 4 для грандиозного финала!
Скачать оригинал статьи Вот,
Если вам понравилась эта статья, не забудьте оставить несколько хлопков! Оставьте комментарий ниже, если у вас есть какие-либо вопросы или предложения 🙂
ОглавлениеПРЕДИСЛОВИЕ К ДЕВЯТОМУ ИЗДАНИЮПРЕДИСЛОВИЕ К ПЯТОМУ ИЗДАНИЮ ГЛАВА I. ЧИСЛО. ПЕРЕМЕННАЯ. ФУНКЦИЯ § 1. Действительные числа. § 2. ![]() § 3. Переменные и постоянные величины § 4. Область изменения переменной величины § 5. Упорядоченная переменная величина. Возрастающая и убывающая переменные величины Ограниченная переменная величина § 6. Функция § 7. Способы задания функции § 8. Основные элементарные функции. Элементарные функции § 9. Алгебраические функции § 10. Полярная система координат Упражнения к главе I ГЛАВА II. ПРЕДЕЛ. НЕПРЕРЫВНОСТЬ ФУНКЦИЙ § 1. Предел переменной величины. Бесконечно большая переменная величина § 2. Предел функции § 3. Функция, стремящаяся к бесконечности. Ограниченные функции § 4. Бесконечно малые и их основные свойства § 5. Основные теоремы о пределах § 6. Предел функции (sin x)/x при x->0 § 7. Число e § 8. Натуральные логарифмы § 9. Непрерывность функций § 10. Некоторые свойства непрерывных функций § 11. Сравнение бесконечно малых Упражнения к главе II ГЛАВА III. ![]() § 6. Производные от функций y = sinx; y = cosx § 7. Производные постоянной, произведения постоянной на функцию, суммы, произведения, частного § 8. Производная логарифмической функции § 9. Производная от сложной функции § 10. Производные функций y = tgx, y = ctgx, y = ln|x| § 11. Неявная функция и ее дифференцирование § 12. Производные степенной функции при любом действительном показателе, показательной функции, сложной показательной функции § 14. Обратные тригонометрические функции и их дифференцирование § 15. Таблица основных формул дифференцирования § 16. Параметрическое задание функции § 17. Уравнения некоторых кривых в параметрической форме § 18. Производная функции, заданной параметрически § 19. Гиперболические функции § 20. Дифференциал § 21. Геометрическое значение дифференциала Рассмотрим функцию § 22. Производные различных порядков § 23. ![]() Упражнения к главе IV ГЛАВА V. ИССЛЕДОВАНИЕ ПОВЕДЕНИЯ ФУНКЦИЙ § 2. Возрастание и убывание функции § 3. Максимум и минимум функций § 4. Схема исследования дифференцируемой функции на максимум и минимум с помощью первой производной § 5. Исследование функции на максимум и минимум с помощью второй производной § 6. Наибольшее и наименьшее значения функции на отрезке § 7. Применение теории максимума и минимума функций к решению задач § 8. Исследование функции на максимум и минимум с помощью формулы Тейлора § 9. Выпуклость и вогнутость кривой. Точки перегиба § 10. Асимптоты § 11. Общий план исследования функций и построения графиков § 12. Исследование кривых, заданных параметрически Упражнения к главе V ГЛАВА VI. КРИВИЗНА КРИВОЙ § 1. Длина дуги и ее производная § 2. Кривизна § 3. Вычисление кривизны § 4. Вычисление кривизны линии, заданной параметрически § 5. Вычисление кривизны линии, заданной уравнением в полярных координатах § 6. ![]() § 7. Свойства эволюты § 8. Приближенное вычисление действительных корней уравнения ГЛАВА VII. КОМПЛЕКСНЫЕ ЧИСЛА, МНОГОЧЛЕНЫ § 1. Комплексные числа. Исходные определения § 2. Основные действия над комплексными числами § 3. Возведение комплексного числа в степень и извлечение корня из комплексного числа § 4. Показательная функция с комплексным показателем и ее свойства § 5. Формула Эйлера. Показательная форма комплексного числа § 6. Разложение многочлена на множители § 7. О кратных корнях многочлена § 8. Разложение многочлена на множители в случае комплексных корней § 9. Интерполирование. Интерполяционная формула Лагранжа § 10. Интерполяционная формула Ньютона § 11. Численное дифференцирование § 12. О наилучшем приближении функций многочленами. Теория Чебышева Упражнения к главе VII ГЛАВА VIII. ФУНКЦИИ НЕСКОЛЬКИХ ПЕРЕМЕННЫХ § 1. Определение функции нескольких переменных § 2. ![]() § 3. Частное и полное приращение функции § 4. Непрерывность функции нескольких переменных § 5. Частные производные функции нескольких переменных § 6. Геометрическая интерпретация частных производных функции двух переменных § 7. Полное приращение и полный дифференциал § 8. Применение полного дифференциала в приближенных вычислениях § 9. Приложение дифференциала к оценке погрешности при вычислениях § 10. Производная сложной функции. Полная производная. Полный дифференциал сложной функции § 11. Производная от функции, заданной неявно § 12. Частные производные различных порядков § 13. Поверхности уровня § 14. Производная по направлению § 15. Градиент § 16. Формула Тейлора для функции двух переменных § 17. Максимум и минимум функции нескольких переменных § 18. Максимум и минимум функции нескольких переменных, связанных данными уравнениями (условные максимумы и минимумы) ![]() § 20. Особые точки кривой Упражнения к главе VIII ГЛАВА IX. ПРИЛОЖЕНИЯ ДИФФЕРЕНЦИАЛЬНОГО ИСЧИСЛЕНИЯ К ГЕОМЕТРИИ В ПРОСТРАНСТВЕ § 1. Уравнения кривой в пространстве § 2. Предел и производная векторной функции скалярного аргумента. Уравнение касательной к кривой. Уравнение нормальной плоскости § 3. Правила дифференцирования векторов (векторных функций) § 4. Первая и вторая производные вектора по длине дуги. Кривизна кривой. Главная нормаль. Скорость и ускорение точки в криволинейном движении § 5. Соприкасающаяся плоскость. Бинормаль. Кручение. § 6. Касательная плоскость и нормаль к поверхности Упражнения к главе IX ГЛАВА X. НЕОПРЕДЕЛЕННЫЙ ИНТЕГРАЛ § 1. Первообразная и неопределенный интеграл § 2. Таблица интегралов § 3. Некоторые свойства неопределенного интеграла § 4. Интегрирование методом замены переменной или способом подстановки § 5. Интегралы от некоторых функций, содержащих квадратный трехчлен § 6. ![]() § 7. Рациональные дроби. Простейшие рациональные дроби и их интегрирование § 8. Разложение рациональной дроби на простейшие § 9. Интегрирование рациональных дробей § 10. Интегралы от иррациональных функций § 11. Интегралы вида … § 12. Интегрирование некоторых классов тригонометрических функций § 13. Интегрирование некоторых иррациональных функций с помощью тригонометрических подстановок § 14. О функциях, интегралы от которых не выражаются через элементарные функции Упражнения к главе X ГЛАВА XI. ОПРЕДЕЛЕННЫЙ ИНТЕГРАЛ § 1. Постановка задачи. Нижняя и верхняя интегральные суммы § 2. Определенный интеграл. Теорема о существовании определенного интеграла § 3. Основные свойства определенного интеграла § 4. Вычисление определенного интеграла. Формула Ньютона — Лейбница § 5. Замена переменной в определенном интеграле § 6. Интегрирование по частям § 7. Несобственные интегралы § 8. Приближенное вычисление определенных интегралов § 9. ![]() § 10. Интегралы, зависящие от параметра. Гамма-функция § 11. Интегрирование комплексной функции действительной переменной Упражнения кглаве XI ГЛАВА XII. ГЕОМЕТРИЧЕСКИЕ И МЕХАНИЧЕСКИЕ ПРИЛОЖЕНИЯ ОПРЕДЕЛЕННОГО ИНТЕГРАЛА § 1. Вычисление площадей в прямоугольных координатах § 2. Площадь криволинейного сектора в полярных координатах § 3. Длина дуги кривой § 4. Вычисление объема тела по площадям параллельных сечений § 5. Объем тела вращения § 6. Площадь поверхности тела вращения § 7. Вычисление работы с помощью определенного интеграла § 8. Координаты центра масс § 9. Вычисление момента инерции линии, круга и цилиндра с помощью определенного интеграла Упражнения к главе XII |
Градиентный вектор. Что это такое и как мы это вычисляем? | Роман Паолуччи
Что это такое и как мы его вычисляем?
Photo from Unsplash В векторном исчислении одной из основных тем является введение векторов и трехмерного пространства как расширения двумерного пространства, часто изучаемого в декартовой системе координат. Векторы имеют два основных свойства: направление и величина . В 2-х измерениях мы можем визуализировать вектор, идущий от начала координат, как стрелку (показывающую как направление, так и величину).
Интуитивно это можно расширить до трех измерений, где мы можем визуализировать стрелку, плавающую в пространстве (опять же, демонстрирующую как направление, так и величину).
Трехмерный векторный график из JCCCМенее интуитивно, понятие вектора может быть расширено до любого количества измерений, где понимание и анализ могут быть выполнены только алгебраически. Важно отметить, что в любом случае вектор не имеет определенного местоположения. Это означает, что если два вектора имеют одинаковое направление и величину, то они равны тот же вектор . Теперь, когда у нас есть общее представление о векторах, давайте поговорим о векторе градиента.
Независимо от размерности вектор градиента представляет собой вектор, содержащий все частные производные первого порядка функции.
Давайте вычислим градиент для следующей функции…
Функция, которую мы вычисляем вектор градиента дляГрадиент обозначается как ∇…
Вектор градиента для функции fПосле частичного дифференцирования…
Вектор градиента для функции f после подстановки частных производныхЭто вектор градиента для функции f(x, y) . Это все здорово, но в чем смысл? Что может сделать вектор градиента — что он вообще означает?
Градиент Восхождение: максимизация
Градиент для любой функции указывает в направлении наибольшего увеличения. Это невероятно. Представьте, что у вас есть функция моделирования прибыли вашей компании. Очевидно, что ваша цель — максимизировать прибыль. Один из способов сделать это — вычислить вектор градиента и выбрать несколько случайных входных данных — теперь вы можете итеративно обновлять свои входные данные, вычисляя градиент и добавляя эти значения к вашим предыдущим входным данным, пока не будет достигнут максимум.
Градиентный спуск: минимизация
Мы знаем, что вектор градиента указывает в направлении наибольшего увеличения. И наоборот, отрицательный вектор градиента указывает в направлении наибольшего уменьшения. Основная цель градиентного спуска — свести к минимуму ошибку или стоимость, что особенно распространено в машинном обучении. Представьте, что у вас есть функция моделирования затрат для вашей компании. Очевидно, что ваша цель — минимизировать затраты. Подобно максимизации прибыли, вы можете вычислить вектор градиента для некоторых случайных входных данных и итеративно обновлять входные данные, вычитая значения в векторе градиента из ваших предыдущих входных данных, пока не будет достигнут минимум.
Проблемы с градиентным подъемом/спуском
Наиболее заметной проблемой при использовании этого метода оптимизации является наличие относительных экстремумов. Относительные экстремумы относятся к точкам на функции, которые являются максимальным или минимальным значением относительно точек вокруг нее, показанных на графике ниже.
Традиционный математический подход к оптимизации сталкивается с той же проблемой и решает ее путем сравнения выходных данных функции на всех относительных экстремумах для определения истинного глобального максимума/минимума. Что касается градиентного подъема/спуска, существует множество различных модификаций, которые можно внести в итеративный процесс обновления входных данных, чтобы избежать (или пройти) относительных экстремумов, помогающих в усилиях по оптимизации. Основные типы градиентного подъема/спуска…
- Стохастический градиент подъема/спуска
- Пакетный градиент подъема/спуска
- Мини-пакетный градиент подъема/спуска
Поиск векторов градиента для многомерных функций — Krista King Math
Формула для вектора градиента
Чтобы найти градиент (также называемый вектором градиента) функции двух переменных, мы будем использовать формулу
???\nabla{f}=\left\langle\frac{\ частичное {е}} {\ парциальное {х}}, \ гидроразрыва {\ парциальное {е}} {\ парциальное {у}} \ справа \ rangle???
Привет! Я Криста.
Я создаю онлайн-курсы, чтобы помочь вам в учебе по математике. Читать больше.
Это дает векторную функцию, которая описывает градиент функции везде. Если мы хотим найти градиент в определенной точке, мы просто оцениваем эту точку.
???\nabla{f(x,y)}=\left\langle\frac{\partial{f}}{\partial{x}}(x,y),\frac{\partial{f} }{\partial{y}}(x,y)\right\rangle???
Максимальная производная по направлению определяется величиной градиента. 92}???
где ???а??? и ???б??? происходит от ???\nabla{f(x,y)}=\left\langle{a},b\right\rangle???
Градиент ???\набла f??? всегда указывает в направлении максимальной производной по направлению.
Помните, что градиент не ограничивается двумя переменными функциями. Мы можем изменить формулу с двумя переменными, чтобы при необходимости учесть более двух переменных.
Нахождение вектора градиента функции многих переменных
92}??????\parallel7,10\parallel=\sqrt{149}???
Максимальная производная по направлению всегда указывает в направлении градиента.