Безумовний плюс до авторитету
Як вінницький професор став першим українцем, який отримав звання майстра датасетів від платформи Kaggle, і чому це важливіше для студентів, аніж для викладачівУ січні цього року завідувач кафедри системного аналізу та інформаційних технологій Вінницького національного технічного університету професор Віталій Мокін отримав звання Kaggle Datasets Master (https://www.kaggle.com/ vbmokin). У цій номінації у світі є лише 16 гросмейстерів та 46 майстрів, серед яких з України — лише вінничанин. Віталій Мокін розповідає, що платформа Kaggle належить корпорації Googlе. На ній різні компанії дають свої завдання з аналізу даних широким колам спеціалістів із усього світу. А запропоновані розв’язки часом мають складові елементи більш ефективні, ніж розв’язки власних спеціалістів цих компаній. Відтак система має подвійну вигоду: серйозні спеціалісти світового рівня беруть участь у змаганнях, щоб виграти солідний призовий фонд і продемонструвати свої найкращі рішення, а компанії практично «на халяву» отримують сотні-тисячі методик на реальних даних із бізнесу. З іншого боку, система Kaggle дозволяє пропонувати власні навчальні Notebooks-програми, а ще безкоштовно надає можливості для навчання студентів та аспірантів, що власне і використовує професор у своїй діяльності. Зізнається, що зараз студентів важко вразити вченими званнями чи заслугами, не кажучи вже про провідних ІТ-спеціалістів, у яких зарплати в рази вищі за викладацькі, але коли і перші, й другі дізнаються про рейтинг професора у Kaggle, то він одразу виростає в їхніх очах.
«Kaggle — це спільнота фахівців з Data Science. Тут можна писати свої та розбирати чужі прогнозні моделі, брати участь у змаганнях, спілкуватися з дата-сайнтистами, виконувати лабораторні завдання. Сервіс повністю безкоштовний. І коли мене батьки студентів запитують, який ноутбук їм краще купити для навчання, я рекомендую просто зручний, а далі — зареєструватися в Kaggle, бо для роботи на платформі потрібен лише комп’ютер і доступ до інтернету, все решта можна робити в хмарі. Система не тільки допомагає в навчанні, а й автоматично формує твій профіль. А при працевлаштуванні та за відсутності досвіду роботи в реальних комерційних ІТ-проєктах багато компаній звертають увагу на місце претендента в рейтингу Kaggle, — розповідає Віталій Мокін. — Якщо у вас вже є досвід, то ви зможете брати участь у змаганнях з дослідження даних — поодинці або командою вирішувати завдання. Проте досвідчені фахівці змагаються не лише з інтересу: призери змагань одержують грошові призи, стають відомими у співтоваристві, їх запрошують на престижні позиції. Наприклад, торік був конкурс від Amazon, Facebook, Microsoft та ще низки компаній з призовим фондом 1 млн доларів. Завдання полягало в тому, щоб розпізнати фейковість відео, тобто чи воно синтезоване на комп’ютері, чи є реальним. І хлопець із Білорусі запропонував найкраще рішення з використанням штучного інтелекту та отримав приз 500 тис. доларів. Є й українці, які отримували грошові призи у Kaggle.
З іншого боку, бувають тренувальні датасети або навчальні програми. Наприклад, Microsoft дає 9 мільйонів комп’ютерів з відомими в них 80-ма параметрами: яка у вас мова, чи є антивірусник, ліцензія, драйвери, місто, країна, штат — тобто все те, що про вас може розповісти операційна система вашого комп’ютера. І завдання: чи був виявлений вірус, чи ні? Це бінарна ознака і штучний інтелект гарно працює на такі цілі. Складніше, коли потрібно зробити прогноз — зростання курсу валюти, кількості нових хворих. Тут похибка може бути більшою. Та варто сказати, що отримати високий загальний рейтинг або потрапити у топ-10 на змаганні чи тренуванні надзвичайно важко. Це щоденна кропітка праця, тестування різних моделей, параметрів, комбінацій, підходів тощо».
«ЗІБРАТИ ЗОЛОТІ МЕДАЛІ В ОДНІЙ РОДИНІ В УСІХ НОМІНАЦІЯХ»
Користувачі Kaggle можуть заробляти бали та покращувати свій рейтинг у чотирьох різних категоріях (номінаціях). Перша — це змагання, які можуть бути різноманітними: від простого завдання з передбачення, виживе чи не виживе кожен пасажир на «Титаніку», до прогнозу росту чи падіння, рахунків матчів або програм керування безпілотними дронами тощо. Друга — це програми, тобто напрацювання науково-навчальних програм, якими можна ділитися зі спільнотою, запускаючи їх в Kaggle Notebooks — хмарному обчислювальному середовищі. Третя — це набори даних, що допомагає іншим датасайнтистам, викладаючи нові дані для спільного використання. Четверта — обговорення, на кшталт форуму, де користувачі обговорюють завдання та діляться найкращими рішеннями, а також оцінюють дописи інших користувачів. Крім того, існують рівні серед користувачів: новачок, який тільки зареєструвався; учасник — взяв участь у змаганні й розмістив один скрипт; експерт — виконав значний обсяг робіт у Kaggle в одній або кількох галузях знань та заробив бронзові медалі. Для кожної з категорій потрібна різна кількість медалей, саме від їхньої кількості залежить звання майстра, а ще більше грандмайстер — це найвищий рівень, який надається за багато відмінних результатів на змаганнях, популярних програмних кодів або корисних наборів даних. Однак бали з часом втрачають свою цінність, що дозволяє загальному рейтингу залишатися актуальним, а користувачам постійно бути в тонусі, каже Віталій Мокін.
«Для того, щоб отримати звання Kaggle Datasets Master, як у мене, слід мати мінімум одну золоту медаль і чотири срібні (чи золоті). У мене вже давно було 10 срібних медалей за мої датасети для задач, пов’язаних з моделюванням поширення коронавірусу, з реальними даними по якості води та атмосферного повітря в Україні, для NLP-задач та моделювання часових рядів та інше, але у січні нарешті набігло «золото» за датасет 2019 року по концентрації амонію у воді річки Південний Буг за даними державного моніторингу в Україні. По цьому датасету я та інші учасники, у т.ч. наших спеціальностей 124 і 126, вже написали 38 ноутбуків. Рік тому додав у нього свіжих даних. Безсумнівно, його популярності сприяло те, що я його використовував як приклад даних для різних навчальних Notebooks, за яким я писав відео у свій YouTube-канал «Курс AI-ML-DS Training на Python», — відзначає професор. — Цікаво й інше — отримана мною золота медаль у номінації розробників ноутбуків дозволила нам з братом Олександром Мокіним зібрати золоті медалі в одній родині в усіх номінаціях — мабуть, теж вперше в Україні. Мій брат три роки тому отримав золоту медаль у конкурсі з розпізнавання зображень. Мабуть, він був першим професором з України, хто таке спромігся зробити. А я наразі маю золоті медалі в усіх інших номінаціях: одну золоту в Datasets, 20 в Codes (Notebooks) та11 в Discussion. Сподіваюся, що мої досягнення «підстебнуть» аспірантів нашої кафедри та студентів набирати свій рейтинг активніше».
«СТУДЕНТИ ВИКОНУЮТЬ ЗАДАЧІ БЕЗПОСЕРЕДНЬО У ХМАРІ»
Віталій Мокін згадує, як минулого року аспірант його кафедри Ярослав Ісаєнков, побачивши новину про те, що професор у жовтні 2020 року став першим в Україні та отримав звання Kaggle Notebooks Grandmaster у номінації розробників ноутбуків у сфері штучного інтелекту та Data Science, надихнувся таким прикладом і за кілька тижнів повторив професорський успіх. Тепер, не без гордості в голосі каже Віталій Мокін, кафедра САІТ факультету інтелектуальних ІТ та автоматизації вінницького політеху найтитулованіша на планеті за цим критерієм, має одразу два Kaggle-гросмейстери з розробки ноутбуків із 68 на планеті і з трьох в Україні.
«Наступна моя мета — перетворити чотири з дев’яти срібних медалей на золоті, що одразу зробить мене гросмейстером у цій номінації. Подібний потенціал мають мої датасети у сфері часових рядів (коронавірус, стан довкілля) та у сфері NLP. Є й інші ідеї. Деякі датасети в мене — зі студентами та аспірантами. Такий досвід є цікавим і корисним для них, оскільки цікаво не тільки створювати датасет, а й писати цікаві й корисні суспільству публічні ноутбуки на основі їхніх даних, — продовжує Віталій Мокін. — Крім того, Kaggle не лише запрошує компанії давати свої датасети, а й дозволяє користувачам проводити свої конкурси. Я зокрема організовував конкурс для своїх студентів із визначення якості води у річці Південний Буг за даними моніторингу восьми станцій. Треба було за показниками на перших семи станціях спрогнозувати якість води у восьмій — біля водозабору Вінницяводоканалу. Купив для призів навушники з мікрофоном, і студенти брали участь, навіть один португалець долучився. Адже конкурс відкритий, всі правила англійською, тобто це доступно для всіх, і кожен може долучитися. Крім того, систему і її хмарний сервіс можна використовувати під навчальні цілі, що я й роблю. Мої студенти виконують задачі безпосередньо у хмарі, я можу зайти і подивитися, що і хто робить. Kaggle дозволяє використовувати доступні напрацювання коду, зараз ніхто не пише з нуля, а це в рази прискорює пошук рішення. Інше питання, що не всі в Україні, зокрема у наукових колах, знають про цю платформу і про те, як вона котується у світі, а в ІТ-секторі — навпаки. Коли кажеш, що ти посідаєш 12-15 місце на планеті в рейтингу розробників Notebooks, то це справляє враження, і не лише на студентів, але й на власників ІТ-компаній».
«Я ЇМ РОЗПОВІДАЮ ТЕ, ЩО НА КУРСАХ ДАЮТЬ ЗА КІЛЬКА ТИСЯЧ ДОЛАРІВ»
Та залишати викладацьку діяльність Віталій Мокін не поспішає, хоча й визнає, що вища освіта в Україні переживає кризу, зокрема і в ІТ-спеціальностях. Зараз багато людей хочуть працювати в ІТ лише заради грошей. Вони не розуміють, навіщо їм вчитися в університеті, якщо є тримісячні курси. Проте машинному навчанню потрібні фундаментальні знання, й курсів для розуміння цієї роботи — мало. Є розробники, а є інженери, і між ними є велика різниця. Девелопер не будує мости, це робота інженера, він робить щось нове. Натомість, розробник робить щось із того, що вже існує. Для machine learning якраз потрібні інженери, науковці, дослідники. Звісно, ти будуєш все з тих самих блоків: нейронних мереж, алгоритмів машинного навчання, але їх потрібно так «тюнити», що це стає інженерною роботою. Інша проблема — це взаємодія ринку з навчальними закладами, закритість університетів, які не мають можливості запрошувати на заняття практиків (вдається домовлятися тільки, так би мовити, на особистих зв’язках і без гонорарів). Та найголовніший мінус — відсутність мотивації як серед студентів, так і серед викладачів.
«Ви знаєте, яка зарплата в ІТ-секторі й яка зарплата у викладачів цих дисциплін? Це — відповідь на запитання, чому чимало крутих викладачів звільнилися з вишів і пішли працювати в комерційному ІТ-секторі. Але дехто намагається поєднувати реальні проєкти, науку і викладання. Я — також серед них, бо люблю навчати студентів і займатися наукою. Але насправді для свого розвитку потрібно проходити курси, здобувати рейтинги, постійно самоудосконалюватися, щоб бути в тренді. Нікому не потрібні лише самі вимоги до компетентностей, результатів навчання, різні умовності, студент приходить і запитує прямо: «Чого ви мене навчите?» Відповідаю: «Опануєш Python і штучний інтелект» — «А, ну ок, це мені підходить», — переказує науковець. — А коли вони дізнаються, що їхні викладачі у світових рейтингах, мають звання Grandmaster і виграють конкурси, то це — безумовний плюс до авторитету. Цього року, наприклад, на перший курс спеціальності 124 пройшов хлопець, який отримав 200 балів з можливих. Він не поїхав до Києва, Харкова чи Львова, а обрав наш виш, обрав тебе — це стимулює і мотивує бути ще кращим, бо до тебе приходять вчитися. Те ж стосується аспірантів. Я їм розповідаю те, що на курсах дають за кілька тисяч доларів. А досягає успіху той, хто працює над собою постійно, розвивається, вдосконалюється. І це особливо стосується ІТ-сфери, яка розвивається блискавично швидко».