• Учебный план программы "Анализ данных"

    По бюрократическим причинам у нас пока не получается выложить на официальный сайт УрФУ учебный план новой образовательной программы “Анализ данных”, которая создана совместно со Школой Анализа Данных компании Яндекс (ШАД). Поэтому выкладываю учебный план сюда.

    Читать дальше

  • Анализируем изображения с помощью нейронных сетей

    В курсе “Глубокое обучение на Python” мы научились обучать нейронные сети для распознавания рукописных цифр и объектов из набора данных CIFAR-10. Давайте посмотрим, как применять эти нейронные сети для анализа своих изображений.

    Читать дальше

  • Как поступить в магистратуру "Анализ Данных" УрФУ и ШАД Яндекса

    Ситуация с новой магистратурой по анализу данных, организованной совместно УрФУ и Школой Анализа Данных компании Яндекс, несколько запутанная. Рассказываю, что нужно сделать, чтобы поступить.

    “Анализ данных” - это не самостоятельная магистерская программа, а так называемая траектория в программе по направлению 02.04.01 - Математика и компьютерные науки. Программа называется “Современные проблемы компьютерных наук”. В этой программе есть две траектории – “Анализ данных” и “Компьютерная биомедицина”. Обе траектории очень интересные и многие курсы у них общие (машинное обучение, прикладная статистика, компьютерное зрение и некоторые другие).

    Читать дальше

  • Как стать Data Scientist'ом: советы от Кейти Мэлоун

    Продолжаю разбираться с тем, как можно изучить Data Science. Уже писал о своем представлении и о рекомендациях Рейчел Томас из fast.ai, сегодня расскажу о советах Кейти Мэлоун (Katie Malone) из подкаста Software Engineering Radio Intro to Machine Learning.

    Кейти Мэлоун работает Data Scientist’ом в компании Civis Analytics. Она - один из инструкторов очень интересного курса Intro to Machine Learning на Udacity, который я рекомендую всем, кто хочет стать Data Scientist’ом. У Кейти есть ученая степень PhD in Physics от Стэнфордского университета, ранее она работала в ЦЕРН с данными большого адронного коллайдера.

    Читать дальше

  • Предварительно обученные нейронные сети в Keras

    Keras позволяет не только обучать глубокие нейронные сети, но и содержит несколько готовых предварительно обученных сетей. Эти сети можно использовать, не тратя время и вычислительные ресурсы на обучение.

    В Keras предварительно обученные сети находятся в модуле applications. Большая часть сетей предназначена для распознавания объектов на изображениях из набора данных ImageNet, но есть и сеть для обработки музыки. Модуль содержит следующие сети:

    1. VGG16 - сеть Visual Geometry Group из университета Оксфорда для распознавания объектов на изображениях, состоит из 16 слоев.
    2. VGG19 - еще одна сеть Visual Geometry Group для распознавания объектов, но содержит 19 слоев.
    3. Inception v3 - нейронная сеть компании Google для распознавания объектов на изображениях.
    4. ResNet50 - нейронная сеть компании Microsoft, использующая остаточное обучение (residual learning). Применяется для распознавании объектов на изображениях.
    5. Xception - модификация сети Inception от создателя Keras François Chollet.
    6. CRNN for music tagging - сверточная рекуррентная нейронная сеть для классификации музыки.

    Как можно видеть, сети очень глубокие, содержат десятки слоев. Для их обучения требуются огромные вычислительные мощности, которые есть только у таких крупных компаний, как Google и Microsoft. Но благодаря тому, что компании выкладывают обученные сети в открытый доступ, вы можете использовать их в своих программах на Keras. Давайте посмотрим, как это сделать для распознавания объектов на изображениях.

    Читать дальше

  • Манифест медленного профессора

    Перевод “Slow Professor Manifesto” из книги The Slow Professor: Challenging the Culture of Speed in the Academy, авторы Maggie Berg и Barbara Seeber.

    Медленный профессор

    Мы - Медленные Профессора. Мы верим, что внедрение принципа Медленности в нашу профессиональную практику - эффективный способ смягчить стресс от работы, сохранить образование, ориентированное на человека, и противостоять корпоративному университету. Медленное движение, начавшееся с Медленного питания, бросает вызов бешеному темпу и стандартизации в современной культуре. Хотя медленность ценится в архитектуре, городской жизни и личных отношениях, она пока не проникла в образование. Однако, если существует сектор общества, который должен культивировать глубокое мышление - то это университетские профессора. Превращение университетов в корпорации подвергло риску академическую жизнь и ускорило темп работы. Административный университет больше всего сосредоточен на эффективности, что ведет к дефициту времени в условиях которого мы чувствуем себя беспомощными. Говорить о стрессе профессоров - это НЕ значит потворствовать своим желаниям; НЕ говорить об этом - играть по правилам корпоративной модели.

    Читать дальше

  • Соревнования по распознаванию рукописных цифр MNIST на Kaggle

    Хотите проверить, как хорошо вы научились распознавать рукописные цифры из набора данных MNIST? Попробуйте свои силы в соревнованиях на сайте kaggle.com!

    Kaggle.com - это сайт для Data Scientist’ов. На нем регулярно проводятся различные соревнования по анализу данных, есть большое количество открытых наборов данных для анализа, а также форум, на котором общаются Data Scientist’ы. Одно из соревнований связано с распознаванием рукописных цифр MNIST. Вы можете загрузить свое решение на сайт соревнования и посмотреть, насколько хорошо работает ваша модель по сравнению с моделями других участников. Давайте попробуем применить глубокие нейронные сети, которые мы изучали в курсе по программированию нейронных сетей на Python, для соревнования по MNIST на Kaggle. Как обычно, мы будем использовать библиотеку Keras.

    Читать дальше

  • Сверточная нейронная сеть для распознавания рукописных цифр MNIST

    В курсе “Программирование глубоких нейронных сетей на Python” для распознавания рукописных цифр из набора данных MNIST мы использовали полносвязную сеть (слой типа Dense в Keras). Сеть получалась простая, обучалась быстро и работала с достаточно высокой точностью (96.34% в базовой версии программы).

    Однако для распознавания рукописных цифр можно также использовать и сверточную нейронную сеть, которую мы применяли для набора данных CIFAR-10. Обучать такую сеть придется дольше, но качество распознавания будет выше.

    Читать дальше

  • Как использовать GPU в Theano 0.9 и Keras 2

    В новой версии Theano 0.9 был изменен бэкенд GPU. Теперь для этой цели Theano использует gpuarray. Настройки GPU в Theano поменялись, однако саму программу на Keras менять для подключения GPU по-прежнему не нужно.

    Конфигурационный файл .theanorc для использования GPU в Theano 0.9:

    [global]
    floatX = float32
    device = cuda
    
    [gpuarray]
    preallocate = 0.8
    

    Читать дальше

  • Чтобы стать Data Scientist'ом, сконцентрируйтесь на программировании

    Продолжаю разбираться с тем, как можно стать Data Scientist’ом. Подготовил перевод статьи “To become a data scientist, focus on codingРейчел Томас из fast.ai. Рейчел занимается глубокими нейронными сетями, она исследователь в University of San Francisco Data Institute. Раз в неделю она отвечает на вопросы о Data Science, которые приходят на fast.ai. В этой статье содержатся ответы на два вопроса о том, что лучше делать, чтобы стать Data Scientist’ом.

    Вопрос 1. У меня есть степени бакалавра и магистра в аэрокосмической технике и меня приняли на data science bootcamp этим летом. Я трачу по 15 часов в неделю на курс 6.041 Introduction to Probability от MIT на edx.org, это самый сложный курс по математике, который я когда-либо видел. Мне кажется, что мое время может быть с большей пользей потрачено для чего-то другого. Возможно, стоит учить основы когда они будут нужны для работы? Или, возможно, вы порекомендуете определенные области теории вероятности, на которых имеет смысл сконцентрироваться? Я бы хотел заняться собственным проектом (с данными от фитнес трекера или блокчейном) и приостановить изучение теории вероятностей.

    Ответ. Кажется, вы сами знаете ответ на ваш вопрос: время действительно может быть потрачено с большей пользой другим способом!

    Читать дальше


Подпишитесь на RSS