Недвано меня попросили выступить на семинаре с рассказом про нейронные сети, но для участников семинар назвали “Как стать Data Scientist’ом”. О таком названии я заранее не знал, но раз уже согласился, то придется рассказывать. Пока у меня нет опыта подготовки Data Scientist’ов, но сейчас мы готовим магистерскую программу по Data Scientist в УрФУ. Я расскажу свое видение того, как обучать Data Scientist’ов, которое мы планируем реализовать в этой программе.

Data Scientist

Что требуется

Чтобы стать успешным Data Scientist’ом, которого готовы взять на работу крупные компании, нужны три вещи:

  1. Знания в области Data Science.
  2. Практический опыт реализации проектов анализа данных.
  3. Независимое подтверждение квалификации.

На первый взгляд может показаться, что мы в замкнутом круге: чтобы устроиться на работу нужен практический опыт, которого негде взять без работы. Но в случае с Data Science все не так страшно.

Где взять знания

Книг и курсов по Data Science сейчас очень много. Открытые курсы, которые мне нравяться больше всего:

Для тех, кто хочет учиться очно, есть Школа анализа данных Яндекса (ШАД). У ШАД действует несколько совместных программ с Высшей школой экономики, МФТИ, НГУ. Надеюсь, что мы в этом году запустим подобную программу в УрФУ.

Кроме перечисленных, есть большое количество других курсов. Также есть много книг, видео на Youtube и других источников. Таким образом, есть где брать знания, главное, чтобы у вас было время на изучение всех этих интересных предметов.

Практический опыт

Изучать только теорию не очень интересно, хочется попробовать свои силы на практике. У начинающего Data Scientist’а есть для этого несколько хороших возможностей:

  1. Сайт Kaggle, посвященный Data Science. На этом сайте постоянно проводятся соревнования по анализу данных, в которых можно принять участие. Есть также большое количество наборов открытых данных, которые можно анализировать и публиковать свои результаты. Кроме этого, можно смотреть скрипты, опубликованные другими участниками (на Kaggle такие скрипты называются Kernels) и перенимать успешный опыт.
  2. Многие открытые курсы используют проектное обучение. Именно так устроены специализации на Coursera и nanodegree от Udacity. Кроме теоретических сведений и упражнений к лекциям, такие курсы содержат проекты по анализу реальных данных.
  3. Кроме Kaggle, есть большое количество сайтов с соревнованиями по машинному обучению. Среди российских сайтов можно отметить boosters.pro (соревнования от Сбербанка, Avito, Банка Тинькофф), mlbootcamp.ru (соревнования от mail.ru) и dataring.ru.

Таким образом, даже начинающий Data Scientist’т может найти проекты, которые способен реализовать.

Подтверждение квалификации

После того, как вы изучили все необходимое для анализа данных и попробовали свои силы в открытых задачах и конкурсах, пожно приступать к поиску работы. На этом этапе становится важно иметь независимое от вас подтверждение квалификации. Сами про себя вы, конечно же, будете говорить только хорошее, но работодать вправе сомневаться в ваших словах. Тогда вы и продемонстрируете независимые подтверждения, например:

  1. Прокаченный профиль на Kaggle. У Kaggle есть система рангов, вы можете пройти ступени от новичка до грандмастера. За успешное участие в соревнованиях, публикацию скриптов и дискуссии можно получить очки, которые позволяют поднять рейтинг. Кроме того, на сайте видно в каких соревнованиях вы участвовали, и какие у вас результаты.
  2. Программы анализа данных можно публиковать на github или других открытых репозиториях, тогда с ними смогут познакомиться все заинтересованные. В том числе представители работодателя, которые будут проводить собеседование с вами. Причем они могут это сделать не в процессе собеседования, когда времени очень мало, а до его начала. Тогда у них будет достаточно времени, чтобы по достоинству оценить ваш код.
  3. Пишите статьи о своих проектах по анализу данных на Хабре и других подобных сайтах. Также можете записывать видео для YouTube (вот для примера мой видеокурс по программированию нейронных сетей).
  4. Результаты соревнований по анализу данных сохраняются в открытом доступе. Если вы заняли в таком соревновании достаточно высокое место, то это привлекает потенциальных работодателей.

Когда будете писать резюме, облегчите работу людям, которые будут проводить собеседование с вами. Сразу включить в резюме как можно больше подтверждений вашей квалификации, чтобы не было пропущено ничего важного.

Итоги

Сейчас любой человек может стать Data Scientist’ом. Для этого есть все необходимое в открытом доступе: курсы, книги, соревнования для получения практического опыта. Основное что требуется от вас - высокая мотивация, чтобы регулярно находить время на изучение анализа данных и его практическое применение. Успехов!