G
Gustav
Команда форума
Администратор
- Сообщения
- 26.406
- Лайки
- 51.217
Разработчик BigData. Часть 1 из 5
OTUS
О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. Цель курса - освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение. В нашем курсе мы научим основам анализа данных: расскажем о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения.
Занятие 1: Базовые инструменты анализа данных в Python.
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.
Занятие 2: Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.
Занятие 3: Визуализация
Визуализация на matplotlib, seaborn, plotly
ДЗ
Построение визуализаций по данным
Занятие 4: Линейная регрессия
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.
Занятие 5: Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.
Занятие 6: KNN, наивный байес
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori
Занятие 7: kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.
Занятие 8: Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
Занятие 9: Feature engineering
Занятие 10: Поиск выбросов в данных
Продажник:
Скачать:
OTUS
О курсе
В настоящее время каждый сервис или устройство генерируют огромное количество данных. С помощью методов машинного обучения из данных стало возможным извлекать полезные знания. По этой причине данные становятся самым ценным ресурсом в бизнесе, а умение извлекать из данных информацию - одним из самых востребованных умений. Для того, чтобы внедрять использование данных в бизнесе, необходимо обладать набором специальных знаний и навыков. Цель курса - освоить основные темы и инструменты, позволяющие находить полезную информацию в данных и внедрять ее использование в боевое окружение. В нашем курсе мы научим основам анализа данных: расскажем о предобработке данных, типичных задачах и основных алгоритмах машинного обучения, а также научимся обрабатывать объемы данных, для обработки которых недостаточно одной машины. Все задачи будут проработаны на практике как на учебных, так и на реальных данных. Также будут рассмотрены типичные задачи, встречающиеся в разных видах компаний. В результате прохождения курса слушатель сможет самостоятельно реализовывать весь процесс от поиска знаний в данных до построения процесса по обработке данных в боевом окружении, будет обладать знаниями, необходимыми для изучения более сложных методов машинного обучения.
Занятие 1: Базовые инструменты анализа данных в Python.
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.
ДЗ
Реализация библиотеки. Реализация библиотеки для подсчета статистик и преобразования датасетов в формате csv. Отработка инструментов для преобразования данных в pandas и sklearn.
Занятие 2: Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.
Занятие 3: Визуализация
Визуализация на matplotlib, seaborn, plotly
ДЗ
Построение визуализаций по данным
Занятие 4: Линейная регрессия
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.
Занятие 5: Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.
ДЗ
Реализация алгоритма логистической регрессии. Реализация алгоритма логистической регрессии на простых данных. Оценка качества, подбор параметров модели.
Занятие 6: KNN, наивный байес
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori
Занятие 7: kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.
ДЗ
Реализация EM-алгоритма. Реализация EM-алгоритма на простых данных. Оценка качества кластеризации.
Занятие 8: Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
Занятие 9: Feature engineering
Занятие 10: Поиск выбросов в данных
Продажник:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
Скачать:
Для просмотра скрытого содержимого вы должны войти или зарегистрироваться.
Скрытое содержимое для пользователей: Ferr
Последнее редактирование: