Скачать Разработчик BigData. Часть 4 из 5 - OTUS (2018)

Gustav · 18 Окт 2018

Разработчик BigData. Часть 4 из 5
OTUS

Большую часть времени любого разработчика процессов анализа данных занимает разработка самого процесса по преобразованию данных на разных этапах. Предполагаются этапы сбора, очистки, агрегации данных, построения модели и предсказания характеристик.

В четвертом модуле рассматриваются возможности построения надежных процессов преобразования данных.В более крупных компаниях данные превышают возможности одной типичной разработческой машины. Появляется потребность работы с алгоритмами, обрабатывающими данные в потоке, а также с кластером.

В четвертом модуле разбираются процессы преобразования данных, слои данных, потоки данных и различные способы хранения и преобразования таких данных на кластере. Разберем возможности построения моделей на кластере. К концу модуля слушатели смогут уверенно использовать стек технологий Hadoop: писать задачи на MapReduce с использованием Java или Hadoop Streaming, использовать Hive и Spark для быстрого преобразования данных, расчета статистик, построения моделей на кластере.

Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.
ДЗ
Настройка окружения для локальной работы с кластером. Выполнение на локальном кластере набора учебных задач.

Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash
ДЗ
Реализация алгоритма с использованием MapReduce.

Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.
ДЗ
Реализация алгоритма с использованием Hive.

Занятие 30: Организация хранения данных для решения задач машинного обучения

Занятие 31: Spark
Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.
ДЗ
Реализация алгоритма с использованием Spark.

Занятие 32: Обзор решений для аналитики больших данных
Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
Агрегация, управление, эксперименты, анализ, визуализация и BI

Продажник:

Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.

Скачать:

Скрытое содержимое могут видеть только пользователь группы: Администраторы, Модераторы, PRO

Скрытое содержимое для пользователей: Ferr

ocelot.76 · 21 Мар 2019

Когда ждать 5ю часть?

	Похожие темы	Форум
	Скачать Vue.js для опытных разработчиков - HTML Academy (2021)	Веб-разработка
	Скачать Программирование на Rust: полное руководство разработчика - Zerotomastery (2021)	Языки программирования
	Скачать Разработчик BigData. Часть 2 из 5 - OTUS (2018)	Обработка и анализ данных
	Скачать Разработчик BigData. Часть 3 из 5 - OTUS (2018)	Обработка и анализ данных
	Скачать Разработчик BigData. Часть 1 из 5 - OTUS (2018)	Обработка и анализ данных

ВНИМАНИЕ! НОВЫЙ АДРЕС САЙТА

Скачать Разработчик BigData. Часть 4 из 5 - OTUS (2018)

Gustav

ocelot.76

Похожие темы

Мы в соц. сетях

Открой доступ к ссылкам за 395 рублей!

РКН заблокировал текущий домен. Актуальный адрес сайта всегда можно найти здесь: EGROUND-ZERKALO.COM