Скачать Разработчик BigData. Часть 2 из 5 - OTUS (2018)

Gustav · 10 Авг 2018

Разработчик BigData. Часть 2 из 5
OTUS

От сгенерированных данных переходим к данным в табличном виде. Такие данные встречаются в конкурсах по анализу данных, а также могут быть собраны, например, напрямую из баз данных. Для применения алгоритмов машинного обучения обычно такие данные требуют дополнительных преобразований.Во втором модуле рассматриваются задачи преобразования и отбора признаков, вопросы подготовки данных для использования в машинном обучении.Также будут рассмотрены более сложные алгоритмы в анализе данных - понижение размерности, определение выбросов в данных, построение ансамблей моделей.

Занятие 11: Уменьшение размерности
Principle component analysis, t-sne. Поиск подмножества фич (subset selection).
ДЗ
Применение снижения размерности для использования в модели.

Занятие 12: Методы оптимизации
SGD, модификации SGD

Занятие 13: Деревья решений
Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.
ДЗ
Реализация алгоритма дерева решений на простых данных. Реализация некоторых эвристик в деревьях решений.

Занятие 14: Ансамбли моделей
Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.

Занятие 15: Бустинг
Xgboost, catboost, lightgbm, Стекинг, блендинг
ДЗ
Применение бустинга для построения лучшей модели.

Занятие 16: SVM, Support vector machine
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.

Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.
ДЗ
Реализация процесса сбора данных через API. Преобразование текста, подготовка текста для анализа. Применение машинного обучения для предсказания характеристики в собранных данных

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Продажник:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Скачать:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Скрытое содержимое для пользователей: Ferr

	Похожие темы	Форум
	Скачать Vue.js для опытных разработчиков - HTML Academy (2021)	Веб-разработка
	Скачать Программирование на Rust: полное руководство разработчика - Zerotomastery (2021)	Языки программирования
	Скачать Разработчик BigData. Часть 4 из 5 - OTUS (2018)	Обработка и анализ данных
	Скачать Разработчик BigData. Часть 3 из 5 - OTUS (2018)	Обработка и анализ данных
	Скачать Разработчик BigData. Часть 1 из 5 - OTUS (2018)	Обработка и анализ данных

ВНИМАНИЕ! НОВЫЙ АДРЕС САЙТА

Скачать Разработчик BigData. Часть 2 из 5 - OTUS (2018)

Gustav

Похожие темы

Мы в соц. сетях

Открой доступ к ссылкам за 395 рублей!

РКН заблокировал текущий домен. Актуальный адрес сайта всегда можно найти здесь: EGROUND-ZERKALO.COM