Карта развития дата-сайентиста: с чего начать, к чему идти и сколько времени потребуется

Введение в Data Science и Big Data

  • В чем разница между Data Scientist и Data Engineer
  • Где учиться: курсы, магистерские программы и др.
  • Лайфхаки как найти работу
  • Введение в профессию Big Data от популярного сервиса Антирабство
  • Обзор всех профессий, связанных с Big Data
  • Какие навыки нужны для попадания в профессию

Подборка видео с неформальных встреч DataTalks на Youtube.

  • Сжатое и яркое объяснение того, как данные полностью изменили бизнес-стратегию
  • Спикер: вице-президент Boston Consulting Group Филип Эванс
  • Есть расшифровка лекции на русском

Введение в искусственный интеллект и машинное обучение

  • Лекция Байрама Аннакова, основателя App-in-the-Air и Empatika
  • Очень занимательное и наглядное описание того, как развивался искусственный интеллект

Машинное обучение

  • Вторая лекция Байрама Аннакова
  • Типы машинного обучения и методов создания искусственного интеллекта
  • Множество кейсов и практических советов

Машинный интеллект и машинное обучение

  • Лекция Андрея Себранта,директора по маркетингу сервисов Яндекса
  • Увлекательное введение в тему с множеством ярких примеров

Нейросети: доступно о сложном

Очень подробная и простая для понимания статья о том, как работают нейронные сети и Deep Learning

Действия, увеличивающие ценность Data scientist

Дата-сайентист может повысить стоимость своих услуг, соблюдая ряд простых правил.

5 шагов к повышению зарплаты:

  1. Следите за новостями в сфере аналитики данных, интересуйтесь трендовыми направлениями, восполняйте недостающие знания.
  2. Принимайте участие в семинарах, круглых столах, конференциях по профессиональной тематике. Не будьте пассивным слушателем. Озвучивайте новые идеи. Добивайтесь признания среди коллег.
  3. Повышайте квалификацию по своей узкой специализации. Эксперты в определенном направлении больше ценятся работодателями.
  4. Создавайте команду единомышленников. Опыт собственного стартапа приветствуется при приеме на работу.
  5. Учитесь говорить на языке, понятном для бизнеса.

Как стать Data Scientist с нуля?

Давайте разберемся, с чего начать обучение профессии, и как можно стать специалистом по анализу данных.

  1. Первый способ – поступить в профильный вуз и параллельно освоить необходимые языки программирования и инструменты визуализации. Есть несколько вузов, выпускники которых особенно ценятся среди работодателей.
  2. Второй способ – пойти на курсы, где вы изучите математическую базу и получите практические навыки. Если у вас уже есть техническое образование, пусть даже не связанное с Data Scientist, это оптимальный вариант. Если технического образования нет, то найти первую работу будет сложнее. Вам могут помочь курсы, где есть программы помощи с трудоустройством.
  3. Часто в профессию переходят аналитики данных и Python-разработчики. Сфера активно растет, поэтому людей привлекают высокие зарплаты и перспективы.

Также освоить профессию Data Scientist можно через интернет. Многие люди, которые ищут, с чего начать карьеру в этой сфере, выбирают данный путь. Есть несколько онлайн-университетов, где можно пройти обучение:

Название курса и ссылка на него

Описание

Профессия Data Scientist в Skillbox

Курс в университете Skillbox. Подходит новичкам и людям без опыта работы в IT. Вы изучите теорию (анализ данных, Machine Learning, статистика, теория вероятностей, функции, работа с производными и многое другое), научитесь программировать на Python и языке R, изучите библиотеки Pandas, NumPy и Matplotlib, работу с базами данных. Сможете создавать рекомендательные системы, применять нейронные сети для решения задач, визуализировать данные. Включает практические задания. На защите диплома присутствуют работодатели.

Обучение Data Scientist в Нетологии (уровень – с нуля)

Курс походит людям, которые хотят сменить текущую профессию на Data Scientist. Включает программу помощи с трудоустройством. Изучают математику для анализа данных, построение моделей, управление data-проектами, Python, базы данных, обработку естественного языка (NLP) и многое другое. Объема полученных знаний хватит для старта в карьере. Преподаватели – сотрудники крупных ИТ и финансовых компаний.

В интернете есть бесплатные курсы по Data Scientist. Если вы думаете, подойдет или нет вам эта профессия, то можете посмотреть данные уроки и получить более полное представление и описание данной работы:

  • Анализ данных на Python в задачах и примерах
  • Курс по библиотеке Pandas
  • Курс по машинному обучению для новичков
  • Бесплатный курс по базам данных MySQL
  • Работа с Google Таблицами для начинающих

Как поддерживать порядок в production-процессе

Аркадий работает над важной функциональностью и внезапно вспомнил, что оставил ошибку расчетов на продакшене. Немного подумав, он решается на быстрый фикс — никто об этом не узнает, а он сейчас все исправит и пойдет домой

Ночью запускаются очередные расчеты. Дата-инженер Никита просыпается от алерта, и не понимает, что сломалось: он не видит новых релизов, ищет проблемы в сторонних сервисах и базах данных. Вот из-за такой мелочи можно не только сломать сервис, но и лишить коллег сна.

Что можно сделать, чтобы Никита больше спал по ночам? Снова обратимся к опыту разработчиков.

Версионировать все

Версионирование изменений поможет другим командам быть в курсе того, что у вас происходит, а также не приведет к поломке зависимых процессов. И всегда есть спасительная возможность откатиться на более раннюю версию, если все и правда сломалось.

В Lamoda мы версионируем при любых изменениях (даже при самых маленьких):

  • Внутренние утилиты. Например, если мы вносим изменения во внутреннюю библиотеку, мы не можем знать наверняка, какими функциональностями из нее пользуются другие команды, поэтому обязательно ставим новую версию, чтобы ничего не сломать ни у себя, ни у других команд.

  • Spark-jobы при деплое. Это дает нам возможность ставить в известность дата-инженеров и проводить несколько этапов тестирования джоб перед выкаткой в прод.

  • Модели, обновляемые вручную. У нас есть проекты, где модель пересчитывается редко, поэтому их можно версионировать с помощью даты начала расчетов.

  • Результаты расчетов и предсказаний. Если что-то сломалось или мы сделали новую модель, мы можем сравнить текущие предсказания и предсказания, которые мы сделали в прошлом, чтобы понять, как это влияет на пользователей.

  • Эксперименты. Все зависит от проекта: где-то мы пишем свои названия для каждой новой модели, где-то мы все логируем датами. Здесь можно использовать классные сторонние решения, вроде DVC, но нам пока это не нужно.

Поддерживать документацию и оставлять комментарии

Как правило, для наших продакшн-расчетов мы оставляем краткие комментарии с важной информацией: откуда берутся данные, что происходит, какие технологии используются и куда сохраняются результаты. Это нужно, чтобы инженеры могли локализовать проблему и понять, в каких проектах нужно пересчитать результаты

Проводить несколько этапов тестирования кода

Наш процесс тестирования выглядит так:

Первый этап — локальная проверка на малом объеме данных. Например, когда мы дебажим функциональность, все изменения мы прогоняем на небольшом кусочке данных, чтобы меньше ждать.

На втором этапе обязательно прогоняем изменения на prod-объеме данных, чтобы понять, выдержит ли тот алгоритм, который мы придумали, нужный объем. Бывают ситуации, когда приходится пересматривать очень большую часть алгоритма, чтобы все работало оптимально. Только после этого, мы проводим код-ревью внутри команды.

После того как мы утвердили все изменения, делаем проверку на dev-стенде вместе с инженерами — это третий этап. Он нужен, чтобы мы вместе проверили все нужные переменные и сборки. При этом инженер участвует в оптимизации, смотрит за потреблением ресурсов, за временем работы и другими показателями. Только после этого мы выкатываем сборку в продакшн: пару дней мы держим функциональность и следим за ней на продакшене, а потом включаем ее на пользователей.

Место работы

Data scientist востребован везде, где используются данные для решения конкретных задач. Это может быть финансовая структура, применяющая скоринговые системы при кредитовании физических лиц, или транспортная компания, составляющая расписание движения автобусов на основе анализа пассажиропотока.

Типы работодателей для дата-сайентистов:

  1. Крупные интернет-компании. Устроившись в подобную фирму стажером, можно наработать опыт в области обработки данных для карьерного роста. Работникам обеспечена официальная занятость, полный соц. пакет, бонусы.
  2. Аналитические подразделения предприятий различных отраслей деятельности. В эту группу входят банки, аудиторские фирмы, телекоммуникационные операторы, ритейл-сети. Сбербанк, один из первых финансовых гигантов в стране, воспользовался услугами дата-сайентистов. Работая в исследовательском отделе крупной компании, опытный специалист может внести личный вклад в ее развитие, предложив на основе анализа данных пути решения застарелых проблем.
  3. Стартапы в сфере data science. Фирмы, работающие в сфере консалтинга, набирают в штат команду дата-сайентистов. Для качественного консультирования клиента важен всесторонний подход к анализу его деятельности, формулирование предложений по продвижению бизнеса.

Бизнес-сообщество нуждается в грамотных специалистах по анализу данных. Поэтому на рынке труда постоянно присутствует много вакансий аналитиков в сфере финансов, телекоммуникаций, маркетинга и других направлений.

Как лучше хранить данные, если вы дата-сайентист

Обычно Аркадий работает с небольшими датасетами и хранит их в файлах от 50 до 100 Мб. Но с новым проектом к нему пришел большой набор данных, и Аркадий решил как обычно сложить его в csv-файл, который получился объемом 13 Гб. И здесь начинаются проблемы.

Такой файл сложно передать кому-то из коллег: вы будете очень долго ждать, пока он загрузится в Slack или Google Drive. А еще он может вообще не открыться на компьютере. Или формат такого файла плохо доходит до прода: объем данных растет с каждым днем и файл разрастается.

Что же можно с этим сделать? Посмотрим, как хранят файлы разработчики.

  • Они используют базы данных, оптимизированные под свои задачи и под тот объем данных, который у них есть.

  • Валидируют форматы данных при загрузке.

  • Поддерживают отказоустойчивость сервисов и баз данных, которые к ним подключены.

  • Заранее думают о возможностях масштабирования. То есть сразу прогнозируют, насколько объем данных вырастет через год, и нужно ли будет переделывать архитектуру с нуля, или у них будет возможность масштабироваться до нужного объема.

Конечно, дата-сайентистам не всегда нужно делать отказоустойчивые сервисы, но тем не менее, они могут подсмотреть некоторые штуки, которые облегчат работу.

Мы уже поняли, что сохранять все в csv-формате — не вариант. Такой файл не влезет в RAM среднестатистического компьютера, а скорость чтения явно превысит 2 минуты. В этом случае нет никакой оптимизации, валидации форматов, отказоустойчивости и масштабируемости.

Попробуем разделить этот файл по отдельным партициям. Например, найти колонку с маленькой вариативностью данных, по которой можно разделить их и сложить в отдельные файлы. После этого мы сможем обрабатывать отдельные файлы под необходимые задачи. Так мы решаем проблему масштабируемости, но размер файлов все равно остается большим.

Теперь попробуем сжать файлы. Например, можно воспользоваться обычной утилитой сжатия для одного файла gzip. Она доступна в pandas, нужно лишь при сохранении указать ее в параметре , и файл станет весить 1,2 Гб вместо 13 Гб. Но читается он также 2 минуты. Делаем вывод, что такой способ мало подходит для оптимизации, хотя масштабируемость присутствует — файлы стали занимать меньше места на диске.

Попробуем улучшить результат. Например, можно использовать parquet — это специальный формат сжатия или, более умными словами, партиционированная бинарная колоночная сериализация для табличных данных. Он позволит работать с каждым типом данных в каждой колонке отдельно: например, сжимать числовые данные одним способом, текстовые или строковые данные — другим способом, и таким образом оптимизировать как хранение информации, так и чтение.

С применением parquet:

  • Большой объем данных стал весить 2,4 Гб и читаться за 24 секунды. Файлы оптимально сжаты, поделены на партиции и у каждого есть метаданные.

  • Происходит валидация форматов, поскольку parquet работает с каждым форматом колонки отдельно и проверяет их при записи. Вероятность записать ошибочные данные снижается.

  • Присутствует масштабируемость, поскольку мы пишем данные в разные партиции и сжимаем их.

Однако мы не победили один пункт — отказоустойчивость.

Чтобы покрыть все пункты, можно обратиться к специальным фреймворкам и базам данных. Например, подойдут ClickHouse или Hadoop, особенно, если это продакшн-решения или повторяющиеся истории.

Чем отличается аналитик Big Data от исследователя данных

На первый взгляд может показаться, что Data Scientist ничем не отличается от Data Analyst, ведь их рабочие обязанности и профессиональные компетенции частично пересекаются. Однако, это не совсем взаимозаменяемые специальности. При значительном сходстве, отличия между ними также весьма существенные:

  • по инструментарию – аналитик чаще всего работает с ETL-хранилищами и витринами данных, тогда как исследователь взаимодействует с Big Data системами хранения и обработки информации (стек Apache Hadoop, NoSQL-базы данных и т.д.), а также статистическими пакетами (R-studio, Matlab и пр.);
  • по методам исследований – Data Analyst чаще использует методы системного анализа и бизнес-аналитики, тогда как Data Scientist, в основном, работает с математическими средствами Computer Science (модели и алгоритмы машинного обучения, а также другие разделы искусственного интеллекта);
  • по зарплате – на рынке труда Data Scientist стоит чуть выше, чем Data Analyst (100-200 т.р. против 80-150 т.р., по данным рекрутингового портала HeadHunter в августе 2019 г.). Возможно, это связано с более высоким порогом входа в профессию: исследователь по данным обладает навыками программирования, тогда как Data Analyst, в основном, работает с уже готовыми SQL/ETL-средствами.

На практике в некоторых компаниях всю работу по данным, включая бизнес-аналитику и построение моделей Machine Learning выполняет один и тот же человек. Однако, в связи с популярностью T-модели компетенций ИТ-специалиста, при наличии широкого круга профессиональных знаний и умений предполагается экспертная концентрация в узкой предметной области. Поэтому сегодня все больше компаний стремятся разделять обязанности Data Analyst и Data Scientist, а также инженера по данным (Data Engineer) и администратора Big Data, о чем мы расскажем в следующих статьях.

Data Scientist – одна из самых востребованных профессий на современном ИТ-рынке

В области Big Data ученому по данным пригодятся практические знания по облачным вычислениям и инструментам машинного обучения. Эти и другие вопросы по исследованию данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

  • PYML: Машинное обучение на Python
  • DPREP: Подготовка данных для Data Mining
  • DSML: Машинное обучение в R
  • DSAV: Анализ данных и визуализация в R
  • AZURE: Машинное обучение на Microsoft Azure

Смотреть расписание
Записаться на курс

Инструменты для моделирования в Data Science

Инструменты моделирования

R имеет полный набор возможностей моделирования и обеспечивает хорошую среду для создания интерпретирующих моделей.
Службы SQL Analysis могут выполнять аналитику в базе данных, используя общие функции интеллектуального анализа данных и основные интеллектуальные модели.
SAS / ACCESS можно использовать для доступа к данным из Hadoop и для создания повторяемых и многоразовых диаграмм потоков.
Хотя на рынке присутствует множество инструментов, R или Python являются наиболее часто используемыми инструментами.

Теперь, когда вы получили представление о характере ваших данных и решили использовать алгоритмы. На следующем этапе вы примените алгоритм и создадите модель.

Фаза 4 — Создание модели: На этом этапе вы разрабатывайте наборы данных для целей обучения и тестирования. Рассматривайте, достаточно ли ваших существующих инструментов для запуска моделей, или для этого потребуется более надежная среда (например, быстрая и параллельная обработка). Будете анализировать различные методы обучения, такие как классификация, ассоциация и кластеризация, чтобы построить модель.

Вы можете добиться создания модели с помощью следующих инструментов.

Инструменты для создания моделей

Фаза 5 — Реализация: На этом этапе вы предоставляете окончательные отчеты, брифинги, коды и технические документы. Кроме того, иногда экспериментальный проект также реализуется в производственной среде в режиме реального времени

Это обеспечит вам четкое представление о производительности и других связанных ограничениях в малом масштабе перед полным развертыванием.
Фаза 6 — Информирование о результатах: Теперь важно оценить, удалось ли достичь своей цели, которую вы планировали на первом этапе. Итак, на последнем этапе вы делаете все основные выводы, сообщаете заинтересованным сторонам и определяете, являются ли результаты проекта успешными или неудачными на основе критериев, разработанных на первом этапе.

Теперь я возьму пример из практики, чтобы объяснить вам различные этапы, описанных выше.

Часть 2. Batman Data Science: Начало

На сайте после регистрации открывается доступ к множеству курсов. Все курсы, что мне попадались можно было начинать в любой момент, ограничений по времени не было, взаимодействие с преподавателями или студентами тоже не требовалось.

Каждый курс можно пройти по отдельности, а можно в составе учебной программы (learning path).  За прохождение каждого учебного курса выдается электронный сертификат, за выполнение требований учебной программы — бейдж

Интерфейс сайта напоминает любую другую систему дистанционного обучения, так что думаю сам процесс не должен вызывать проблем у опытных пользователей.

Поскольку о Data Science на момент регистрации я не знал вообще ничего, сам бог велел начать с программы обучения Data Science Fundamentals, в принципе это же мне подтвердил местный «Скайнет». На сайте есть бот (Student Advisor), если ему написать: «Data Science», то он как раз присоветует эту учебную программу. Для каких-либо более сложных и душевных бесед бот не подходит, потому что он понимает похоже только ключевые слова из тем курсов.

Приступим. На странице учебной программы, видно, что она состоит из нескольких курсов, ранжированных в рекомендуемом порядке прохождения (хотя никто не запрещает проходить в любом порядке).

При этом, для получения бейджика первой степени, как правило необходимо освоить самый первый курс учебной программы, для получения бейджика второй степени необходимо, как правило пройти все курсы программы. Рассмотрим её подробней.

Какие языки стоит изучить

Для работы в сфере научной обработки данных следует изучать языки программирования. Распространены среди новичков Python и R. Также аналитики используют языки Java, SQL, Scala.

Python

Язык создан в 1991 году, в русском языке распространено название питон. Имеет бесплатную лицензию.

Преимущества:

  • простота изучения;
  • надежность;
  • широкое распространение гарантирует поддержку разработчиков.

Среди недостатков пользователи отмечают появление сообщений об ошибках из-за динамичной типизации языка. Для узких целей статистического анализа уступает языку R.

R

Язык программирования R появился в 1995 году. Лицензия бесплатна.

Плюсы:

  • многообразие специализированных пакетов с открытым исходным кодом;
  • доступность большого числа статистических функций;
  • яркая визуализация данных.

Ему присуща медлительность обработки информации.

*2020: Академия больших данных MADE и HeadHunter выяснили, как меняется спрос на Data Scientist в России

16 июля 2020 года Академия больших данных MADE от Mail.ru Group и российская платформа онлайн-рекрутинга HeadHunter (hh.ru) составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют, а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

Академия MADE и HeadHunter (hh.ru) проводят исследование уже второй год подряд. На этот раз эксперты проанализировали 10 500 резюме и 8100 вакансий. По оценкам аналитиков, специалисты по анализу данных — одни из самых востребованных на рынке. В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения – в 7,2 раза, чем в 2015 году. Если сравнивать с 2018 годом, количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению – в 1,3 раза.

Активнее других специалистов по большим данным ищут ИТ-компании (на их долю приходится больше трети – 38% – открытых вакансий), компании из финансового сектора (29% вакансий), а также из сферы услуг для бизнеса (9% вакансий).

Такая же ситуация и в сфере машинного обучения. Но здесь перевес в пользу ИТ-компаний еще очевиднее – они публикуют 55% вакансий на рынке. Каждую десятую вакансию размещают компании из финансового сектора (10% вакансий) и сферы услуг для бизнеса (9%).

С июля 2019 года по апрель 2020 года резюме специалистов по анализу данных и машинному обучению стало больше на 33%. Первые в среднем размещают 246 резюме в месяц, вторые – 47.

Самый популярный навык — владение Python. Это требование встречается в 45% вакансий специалистов по анализу данных и в половине (51%) вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (Data Mining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

В целом предложение на рынке Data Science соответствует спросу. Среди самых распространенных навыков специалистов по анализу данных – владение Python (77%), SQL (48%), анализом данных (45%), Git (28%) и Linux (21%). При этом владение Python, SQL и Git – навыки, которые практически одинаково часто встречаются в резюме специалистов любого уровня. Опытных специалистов отличают развитые навыки анализа данных, в том числе интеллектуального (Data Analysis и Data Mining).

У специалистов по машинному обучению в топе такие навыки, как владение Python (72%), SQL (34%), Git (34%), Linux (27%) и С++ (22%).

На долю Москвы приходится больше половины (65%) вакансий специалистов по в сфере анализа данных и ровно половина вакансий специалистов в области машинного обучения. На втором месте Санкт-Петербург: 15% вакансий специалистов в сфере анализа данных и 18% вакансий в области машинного обучения — в этом городе.

По сравнению с первым полугодием 2019 года в июле 2019 года – апреле 2020 года доля вакансий специалистов по анализу данных в Москве несколько возросла — с 60% до 65%.

Что касается соискателей, больше половины из них также находятся в Москве: 63% специалистов по анализу данных и 53% специалистов по машинному обучению. Вторая строчка – тоже за Санкт-Петербургом (16% и 19% резюме соответственно).

Как работают дата-сайентисты

Для работы с данными дата-сайентисты применяют целый комплекс инструментов — пакеты статистического моделирования, различные базы данных, специальное программное обеспечение. Но, главное, они используют технологии искусственного интеллекта и создают модели машинного обучения (нейросети), которые помогают бизнесу анализировать информацию, делать выводы и прогнозировать будущее.

Каждую такую нейросеть необходимо спланировать, построить, оценить, развернуть и только потом перейти к ее обучению. «Сейчас, по нашим оценкам, в процессе работы над ИИ-решениями только 30% времени специалистов уходит на обучение моделей. Все остальное — на подготовку к нему и другую рутину», — говорит CTO «Сбербанк Груп», исполнительный вице-президент и глава блока «Технологии» Давид Рафаловский.

Экономика образования

Какой язык программирования учить прямо сейчас: 9 самых востребованных

Компания Anaconda, которая разрабатывает продукты для работы с данными, приводит еще более печальную статистику. Ее опросы показывают, что в среднем почти половину времени (45%) специалисты тратят на подготовку данных, то есть их загрузку и очистку. Еще примерно треть уходит на визуализацию данных и выбор модели. На обучение и развертывание остается всего 12% и 11% рабочего времени соответственно.

Требования к специалисту

Специалист по данным неразрывно связан с Data Science – наукой о данных. Она находится на пересечении нескольких направлений: математики, статистики, информатики и экономики. Следовательно, специалисты должны понимать и интересоваться каждой из этих наук.

Кроме этого, Data Scientist должен знать:

  1. Языки программирования для того, чтобы писать на них код. Самые распространенные – это SAS, R, Java, C++ и Python.
  2. Базы данных MySQL и PostgreSQL.
  3. Технологии и инструменты для представления отчетов в графическом формате.
  4. Алгоритмы машинного и глубокого обучения, которые созданы для автоматизации повторяющихся процессов с помощью искусственного интеллекта.
  5. Как подготовить данные и сделать их перевод в удобный формат.
  6. Инструменты для работы с Big Data: Hadoop, MapReduce, Apache Hive, Apache Kafka, Apache Spark.
  7. Как установить закономерности и видеть логические связи в системе полученных сведений.
  8. Как разработать действенные бизнес-решения.
  9. Как извлекать нужную информацию из разных источников.
  10. Английский язык для чтения профессиональной литературы и общения с зарубежными клиентами.
  11. Как успешно внедрить программу.
  12. Область деятельности организации, на которую работает.

Помимо того, что специалист по данным должен обладать аналитическим и математическим складом ума, он также должен быть:

  • трудолюбивым,
  • настойчивым,
  • скрупулезным,
  • внимательным,
  • усидчивым,
  • целеустремленным,
  • коммуникабельным.

Хочу отметить, что гуманитариям достичь высот в этой профессии будет крайне тяжело. Только при большом желании можно пробовать осваивать данную стезю.

Модели в Data Science

Predictive causal analytics. Если вы хотите модель, которая может предсказать возможности конкретного события в будущем, вам необходимо применить предиктивную аналитику. Скажем, если вы предоставляете деньги в кредит, то вероятность того, что клиенты будут оплачивать платежи по кредиту вовремя, вызывает у вас беспокойство. Здесь вы можете создать модель, которая может выполнять аналитику в истории платежей клиента, чтобы предсказать, будут ли будущие платежи своевременными или нет.

Prescriptive analytics. Если вам нужна модель, которая обладает интеллектом принятия собственных решений и возможностью изменять ее с помощью динамических параметров, для этого вам, безусловно необходимо аналитическое прогнозирование. Это относительно новое поле деятельности — предоставление консультаций. Другими словами, оно не только прогнозирует, но и предлагает ряд предписанных действий и связанных с ними результатов.

Лучший пример для этого — автомобиль с автопилотом от Google, о котором я уже говорил ранее. Данные, собранные на транспортных средствах, могут использоваться для обучения автомобилей с самообслуживанием. Вы можете запускать алгоритмы на этих данных, чтобы использовать ИИ. Это позволит вашему автомобилю принимать решения, например, когда нужно повернуть, какое взять направление, когда замедлить или ускорить ход.

Machine learning for making predictions. Если у вас есть транзакционные данные финансовой компании и вам нужно построить модель для определения будущей тенденции, то наилучшим вариантом будут алгоритмы машинного обучения. Это подпадает под парадигму обучения с учителем. Оно называется с учителем, потому что у вас уже есть данные, на основе которых вы можете обучать свои машины. Например, модель обнаружения мошенничества может быть обучена с использованием исторической записи мошеннических покупок.

Machine learning for pattern discovery. Если у вас нет параметров, на основе которых вы можете делать прогнозы, вам нужно выяснить скрытые шаблоны в наборе данных, чтобы иметь возможность делать значимые прогнозы. Это не что иное, как обучение без учителя, поскольку у вас нет предопределенных категорий для группировки. Наиболее распространенным алгоритмом, используемым для обнаружения паттернов, является кластеризация.

Допустим, вы работаете в телефонной компании, и вам нужно создать сеть, разместив вышки в регионе. Затем вы можете использовать метод кластеризации, чтобы найти те вышки, которые гарантируют, что все пользователи получат оптимальную мощность сигнала.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector