• Регистрация
Геннадий Давидсон
Геннадий Давидсон 0.00
н/д

Обучение студентов инженерных специальностей методам науки о данных

13.10.2020

Овладение методами науки о данных становится весьма желательным для инженеров. Большинство инженерных специальностей в настоящее время предусматривают науку о данных в качестве дисциплины по выбору в течение последнего года обучения, как правило, в узкой области исследования. В 2018 году мы ввели науку о данных в качестве основной дисциплины для всех инженерных потоков бакалавриата (включая гражданский, механический, электронный и системный) в Университете Уорика (University of Warwick). Из опыта практической работы в промышленности мы знаем, что анализ данных влияет практически на все области инженерной деятельности.

Наука о данных и машинное обучение скоро станут необходимыми для всех инженеров, независимо от того, применяют ли они алгоритмы машинного обучения, предоставляют ли данные для этих алгоритмов или принимают решения на основе полученных результатов. Именно поэтому мы ввели науку о данных в формате потока через всю подготовку инженеров в нашем университете, начав с введения в программирование и простые статистические модели в течение первого года, перейдя к базовому модулю анализа данных на втором году, а затем предложив более специфичные модули в течение 3 и 4 годов обучения.

 

Год 1: Системное моделирование, имитационное моделирование и вычисления

Все студенты первого курса инженерного факультета проходят курс "моделирование систем, имитационное моделирование и вычисления". В этом модуле студенты учатся использовать как физические, так и (простые) управляемые данными подходы для моделирования инженерных систем. Этот модуль также служит введением в программирование.

Чтобы ознакомиться с программированием и MATLAB, студенты выполняют уроки из онлайн-курса MATLAB Fundamentals. С точки зрения преподавателя, этот подход работает очень хорошо, поскольку он позволяет студентам учиться в своем собственном темпе, выполняя различные упражнения по программированию и получая немедленную обратную связь.

После применения навыков MATLAB, которые они приобрели, к заданиям по подгонке кривых и получению простых моделей и отношений из данных, студенты решают задачи по построению и использованию моделей, используя примеры из электрических, тепловых и трансляционных систем. В отличие от студентов-информатиков, которые рассматривают программирование как необходимый навык, многие студенты-инженеры могут поначалу не вполне оценить его актуальность. Вводя программирование в контекст моделирования и симуляции, мы стремимся показать студентам, что кодирование - это навык, который будет полезен им на протяжении всей их карьеры.

В последующих заданиях учащиеся включают шум или другие случайные эффекты в модель. Например, мы предлагаем им создать простую модель в MATLAB, в которой частицы взлетают в воздух и падают обратно под действием случайных сил. Моделирование дает интересную трехмерную визуализацию (Рисунок 1). Весь проект дает студентам уверенность в своих способностях создавать свои собственные модели программно.

Рисунок 1. MATLAB 3D-визуализация частиц, реагирующих на случайные силы.

Год 2: Инженерная математика и анализ данных

Модуль второго курса – инженерная математика и анализ данных – фокусируется на решении задач регрессии, классификации и кластеризации. Когда я работал в промышленности, я видел, что решение проблем науки о данных было относительно простым, когда данные были чистыми и в правильном формате, но это редко бывает с реальными данными. Имея это в виду, я учу студентов, как выявлять и удалять выбросы, обрабатывать недостающие значения и организовывать данные в таблицах.

Живые скрипты MATLAB особенно полезны во время лекций, потому что я могу включать форматированный текст и изображения, чтобы напомнить себе о том, что я хочу охватить, и потому что выходные данные кода появляются вместе с кодом, который эти данные создал. При этом приложения Classification Learner и Regression Learner в Statistics and Machine Learning Toolbox позволяют обучать общим принципам регрессии и классификации, не углубляясь в детали реализации (Рисунок 2).

Рисунок 2. Приложение Classification Learner.

Поскольку студенты видят, что делают приложения и как их можно использовать, я показываю им, как работают базовые алгоритмы в MATLAB.

После выполнения лабораторных заданий по регрессии, классификации и кластеризации студенты работают над групповым проектом, в котором я прошу их представить себе работу в инженерном консалтинге, занимающемся оценкой качества производимых стальных компонентов. Учащиеся должны предсказать, какие компоненты с наибольшей вероятностью выйдут из строя, используя два набора данных: один - детерминированный, а другой - зашумленный.

Работая с зашумленными данными в различных форматах файлов, включая Excel, CSV и обычный текст, учащиеся удаляют выбросы, выполняют объединения и подготавливают данные для использования в обучении модели. Большинство групп используют приложение Regression Learner или применяют линейную регрессию как MATLAB скрипт, некоторые пробуют оба подхода. Чтобы завершить проект и продемонстрировать навыки, которые они развивали на протяжении всего модуля, каждая группа создает видео, в котором представлены их выводы и методы, которые они использовали.

 

 

Третий год и далее

Для студентов, заинтересованных в дальнейшем изучении науки о данных и машинного обучения, наш Университет предлагает модуль третьего курса по интеллектуальному проектированию систем, который охватывает компьютерное зрение и более продвинутые методы машинного обучения. В этом модуле я знакомлю студентов с системой sense-perceive-act (чувство-восприятие-действие), используемой во многих приложениях автономных систем управления. Модель квадрокоптера в Simulink (Рисунок 3) очень полезна для демонстрации этой базовой структуры при знакомстве студентов с такими темами, как фильтрация Калмана и оптический поток, которые рассматриваются позже.

Рисунок 3. 3D-визуализация модели квадрокоптера Simulink.

Позже студенты разрабатывают приложение для распознавания жестов с помощью MATLAB, которое сочетает в себе компьютерное зрение и машинное обучение. Для этого проекта студенты разрабатывают модель, способную интерпретировать веб-камерные изображения собственных рук и классифицировать их как один из нескольких предопределенных жестов рук. Проект особенно привлекателен для студентов, потому что они работают со своими собственными данными и должны думать о таких факторах, как освещение и количество различных изображений, необходимых для обучения точной классификации.

Студенты, которые учатся применять методы науки о данных в контексте реальных проблем на ранних этапах обучения, хорошо подготовлены не только к продвинутой курсовой работе в последующие годы обучения, но и к карьере практикующих инженеров. Мы уже получили положительные отзывы от наших студентов об этом подходе – они обнаружили, что могут применять эти методы во время студенческих стажировок и говорить об этих навыках в интервью.

Благодаря возможности подключения устройств, позволяющей компаниям основывать свои проектные решения на данных, а не на интуиции или предыдущем опыте, инженеры с опытом работы в области анализа данных очень востребованы. При этом мы уверены, что наши выпускники смогут применять машинное обучение и аналитику данных всякий раз, когда этого потребует ситуация.

Об авторе

Томас Попхэм - адъюнкт-профессор Уорикского университета. Имеет докторскую степень в области компьютерного зрения в Университете Уорика и ранее был техническим специалистом по машинному обучению в Jaguar Land Rover.

 

Опубликовано в 2020 году

By Thomas Popham, University of Warwick

Теги

    13.10.2020

    Комментарии