Содержание
- Введение 1
- Теоретические основы Transformers: Механизм внимания и его компоненты 2
- - Self-Attention: принцип работы и математические основы 2.1
- - Многослойный механизм внимания (Multi-Head Attention) 2.2
- - Позиционное кодирование и другие компоненты 2.3
- Архитектура Transformers: Encoder и Decoder 3
- - Encoder: Структура и функциональность 3.1
- - Decoder: Структура и функциональность 3.2
- - Взаимодействие Encoder и Decoder 3.3
- Обучение и оптимизация моделей Transformers 4
- - Функции потерь и оптимизаторы 4.1
- - Гиперпараметры и их влияние 4.2
- - Регуляризация и методы борьбы с переобучением 4.3
- Практическое применение Transformers 5
- - Transformers в обработке естественного языка (NLP) 5.1
- - Transformers в компьютерном зрении 5.2
- - Другие области применения и перспективы 5.3
- Заключение 6
- Список литературы 7