25 октября 3 минуты чтения #Образование

Data Scientist: что за профессия и где этому учат

Иллюстрация материала

Data Scientist — эксперт по аналитическим данным. Считается, что эта профессия будет одной из самых востребованных в ближайшие десятилетия. Какими навыками должен обладать специалист, чем он отличается от программиста и где можно пройти обучение? Отвечаем на самые важные вопросы в новом материале.

Что делают дата-сайентисты

Data Science — это наука о данных. Ее методы дают возможность работать с массивами разноформатной информации: например, метеорологическими данными за определенные периоды, статистикой запросов в поисковиках, результатами соревнований и базами данных геномов бактерий.

С помощью математической статистики и методов машинного обучения дата-сайентисты создают прогнозную модель. Какую именно — зависит от поставленной задачи.

Специалисты по Data Science работают там, где нужно обрабатывать много информации и извлекать из нее пользу: в научных организациях, розничной торговле, банковской сфере, медицине, метеорологии и химии.

История профессии

Наука о данных появилась во второй половине 20 века. Официально отсчет ведется с 1966 года, когда во Франции, на базе Международного совета по науке, был учрежден Комитет по данным для науки и техники. Его создали, чтобы структурировать информацию, которую получали исследователи, и решать научные и технические задачи.

Термин Data Science стали использовать в середине 70-х годов с подачи датского ученого Петера Наура. Согласно его видению, эта дисциплина изучает «жизнь» цифровой информации от ее появления до применения в других сферах. Со временем этот термин стали понимать более широко.

В 2010-х годах объемы информации, которую производит человечество, выросли в несколько раз. Это произошло из-за распространения мобильного интернета и роста популярности социальных сетей. Таким образом, профессия дата-сайентист быстро стала одной из самых востребованных.

Основные направления работы

С результатами работы специалистов по Data Science мы сталкиваемся ежедневно, когда смотрим прогноз погоды, взаимодействуем с чат-ботами и голосовыми помощниками, просматриваем ленту в соцсетях с рекомендованными видео и музыкой. На основе алгоритмов, разработанных дата-сайентистами, создаются программы для распознавания лиц.

В разных компаниях обязанности таких сотрудников будут иметь свою специфику, но можно выделить основные направления, которые одинаковы для всех.

В процессе работы дата-сайентист выполняет следующие действия:

  • выясняет, что нужно клиенту;
  • оценивает, реально ли достичь цели методами машинного обучения;
  • готовит сведения для анализа и разрабатывает критерии для оценки эффективности модели;
  • программирует и тестирует модель машинного обучения;
  • оценивает, целесообразно ли использовать модель с экономической точки зрения;
  • внедряет модель в продукт или цикл производства;
  • дорабатывает и изменяет ее.

Какие перспективы у профессии

С каждым годом дата-сайентисты становятся все более востребованными. Они нужны не только крупным проектам, но и небольшим коллективам разработчиков.

Задачи, которые можно решить с помощью Data Science, появляются ежедневно. Более того, современные модели машинного обучения позволяют работать даже с информацией годичной давности и извлекать из нее пользу.

На рынке наблюдается дефицит нишевых специалистов. Самых талантливых дата-сайентистов крупные проекты переманивают к себе, обещая более высокую зарплату.

Перед такими сотрудниками открыты заманчивые перспективы. Если сейчас они занимаются созданием чат-ботов для техподдержки и голосовых помощников, то уже завтра им предстоит разработать модели верификации личности, анализа очередей и доступности товаров.

Что должны уметь специалисты

Дата-сайентист должен знать математику: линейную алгебру, теорию вероятности, статистику и математический анализ. Для применения математических моделей на практике понадобится навык программирования на Python и SQL, умение работать с библиотеками и фреймворками. Для более сложных задач пригодится навык программирования на С или C++.

Также не будет лишним владение инструментами обработки больших данных Apache Spark и Hadoop Mapreduce и английским языком на уровне Advanced Proficiency для чтения технических статей.

Где учат профессии

Пройти обучение можно в государственном вузе или онлайн-школе.

Список программ для очного обучения:

  • программа бакалавриата «Науки о данных» от Санкт-Петербургского государственного университета;
  • программа магистратуры «Большие данные: инфраструктуры и методы решения задач» от МГУ им. М. В. Ломоносова;
  • программа магистратуры «Дискретные структуры и алгоритмы» от МГУ им. М. В. Ломоносова;
  • программа магистратуры «Науки о данных (Data Science)» от Высшей школы экономики.

Список программ для онлайн-обучения:

  • «Data Science» от МГТУ им. Н. Э. Баумана;
  • «Data Science» от «Школы анализа данных»;
  • «Data Scientist: с нуля до middle» от «Нетологии»;
  • «Профессия Data Scientist» от Skillbox.