Що таке data science. Що таке data science і як це працює?

У світі IT існують різні напрямки. Хтось займається адмініструванням, хтось – розробкою чи тестуванням. Створюються курси, які готують системних адміністраторів, програмістів, тестерів. У цій статті буде розглянута особлива програма – Data Scientist – спеціально для розробників, аналітиків та продакт-менеджерів.

Хто такий Data Scientist, чи фахівець за даними

Навколо професії Data Scientist ходить чимало міфів, і багато хто до ладу не розуміє, що це таке. Комусь здається, що фахівець за даними чи фахівець із аналізу даних - це щось на зразок програміста (за принципом: вмієш програмувати, отже, вмієш працювати з даними), хтось вважає цю професію схожою на адміністратора баз даних, а хтось взагалі не знає, що це таке.

Забігаючи вперед, треба відразу відзначити, що фахівець з аналізу даних - це не програміст і ніяк не адміністратор бази даних, хоча навички програмування він повинен мати.

Фахівець за даними – це фахівець, який володіє трьома групами навичок:

  • математика та статистика;
  • IT-навички, у тому числі програмування;
  • розуміння бізнес-процесів у тій чи іншій галузі.

Робота не завжди називається Data Scientist. Найчастіше зустрічаються варіанти: програміст-аналітик, аналітик Big Data, менеджер з аналізу систем, архітектор Big Data, бізнес-аналітик та інші.
Серед обов'язків фахівця за даними можна виділити такі:

  • збирання великих обсягів даних та приведення їх у зручний формат;
  • програмування мовами Python, R, SAS;
  • вирішення бізнес-завдань з використанням методів обробки даних;
  • пошук прихованих зв'язків та закономірностей у даних;
  • проведення статистичних тестів

Фахівець за даними повинен розуміти бізнес-запити своєї організації, володіти аналітичними інструментами: машинним навчанням та текстовою аналітикою.
За твердженням консалтингової компанії McKinsey Global Institute, вже в наступного рокуу США (тільки у США, не у всьому світі!) знадобиться ціла армія фахівців за даними – від 140 до 190 тисяч.

Скільки заробляє фахівець за даними

У США середня зарплатафахівця за даними становить понад 138 тисяч доларів на рік. У Росії можна претендувати на зарплату від 120 тисяч рублів на місяць (понад 26 тисяч доларів на рік).

Якщо порівнювати з професією простого програміста, то США середня зарплата програміста становить 65–80 тисяч доларів на рік, а Росії 60 тисяч рублів на місяць, чи 13 тисяч доларів на рік.

У будь-якому випадку, здобувши спеціальність фахівця за даними, можна заробляти більше програміста.

Як бачиш, фахівець за даними – дуже перспективна професія. По-перше, зарплата в нього вища, ніж у звичайного програміста. По-друге, фахівців за даними не так і ринок відчуває дефіцит фахівців, причому не тільки в Росії, але і в усьому світі.

Освоїти професію Data Scientist можна в університеті з підготовки та додаткового навчання спеціалістів.

Що дає курс навчання Data Scientist

INFO

  • Місяців навчання: 5
  • Годин на тиждень: 9
  • Експертів: 13
  • Годин практики: 100+

Вимоги до студентів

Студенти повинні володіти хоча б однією мовою програмування на початковому рівні (краще якщо це буде Python).
Студенти повинні знати математику на рівні старшої школи: функції, похідні, векторну та матричну алгебру, тригонометрію.

Курс підготовки

Якщо ти не маєш необхідних знань, то спеціально для тебе надається безкоштовний підготовчий курс, що відкриється відразу після оплати основного курсу Курс складається з 11 відеозаписів лекцій та домашніх завдань до них. Він розповість про цикли, типи даних, функції, навчить працювати з HTTP-запитами, різними форматами даних та багато іншого.

Скільки коштує

Базова вартість – 180 000 рублів, але до 15 червня вартість навчання знижена до 165 000 рублів. При цьому надається безвідсоткова розстрочка на 6 місяців, тобто вартість навчання виходить 27500 рублів на місяць.

Що в результаті

Студенту видається диплом державного зразка про професійну перепідготовку за спеціальністю «Аналітик даних / Фахівець з машинного навчання». З ним можна претендувати на позицію "Аналітик даних", "Розробник Big Data" із зарплатою від 120 тисяч рублів на місяць.

Зверніть увагу, що після закінчення навчання видається не якийсь «сертифікат», а диплом державного зразка.


Data Scientist в інфографіці. Професія свіжа, високооплачувана та на слуху. Але які навички повинен мати такий фахівець? Розглянемо.

Поговоримо про навички

Data Scientist – це універсальний співробітник, який охоплює аналітику та обробку інформації. Вчений за даними розбирається у статистиці та програмуванні. Корисно, чи не так? Спектр можливостей кожного окремо взятого Data Scientist є градацією і може переміщатися у бік кодингу або чистої статистики.

  • Аналітик даних із Сан-Франциско. Деякі компанії справді порівнюють Data Scientist із аналітиками. Робота такого фахівця зводиться до вилучення інформації з БД, взаємодії з Excel та до базової візуалізації.
  • Величезний трафік і багато даних змушують деякі фірми терміново шукати потрібного фахівця. Часто вони кидають оголошення з пошуком інженерів, аналітиків, програмістів чи вчених, при цьому маючи на увазі ту саму посаду.
  • Є компанії, котрим дані є продуктом. В цьому випадку знадобиться інтенсивний аналіз та машинне навчання.
  • Для інших компаній дані – не продукт, але саме управління або робочий процес побудовані на них. З метою структурування даних компаній також розшукуються Data Scientist.

Заголовки рясніють назвами в стилі «Найсексуальніша професія 21-го століття». Не знаємо, чи це правда, але точно знаємо, що вчений за даними повинен розбиратися в:

  1. Математики та статистики.
  2. Предметної області та софті.
  3. Програмування та БД.
  4. Обмін даних і візуалізації.

Розглянемо кожний пункт докладніше.

Data Scientist та математична статистика

Розробка математичних методівіз застосуванням статистичних даних – основна частина роботи. Математична статистика спирається на теорію ймовірностей, завдяки чому можна робити точні висновки та оцінювати їхню надійність.

1. Машинне навчання, як підрозділ ІІ. Є програма, що навчається, і приклади даних із закономірностями. Формуємо модель закономірностей, впроваджуємо її та отримуємо можливість шукати закономірності у нових даних за допомогою програми.

2. Data Scientist повинен знати статистичне моделювання, щоб зазнавати моделі випадковими сигналами з певною щільністю ймовірності. Мета – статистичне визначення одержаних результатів.

3. Експериментальний дизайн. У ході дослідів змінюють одну або кілька змінних, щоби побачити різницю. При цьому є група для впливу та контрольна група, завдяки чому здійснюється перевірка.

4. Байєсовський висновок сприяє підправленню ймовірності гіпотези.

5. Контрольоване навчання:

  • дерева рішень;
  • випадкові риштування;
  • логістична регресія.

6. Неконтрольоване навчання:

  • кластеризація;
  • зменшення розмірності.

7. Оптимізація: градієнтний спуск та варіанти.

Навички в предметній галузі та софті

Вивчайте та практикуйтеся! Такий фундамент цієї спеціальності. Data Scientist повинен добре розумітися на предметній області, яку зачіпає наука, а також бути на «ти» із софтом.

Перелік необхідних скіллів дивовижний, але не менш корисний:

Програмування та бази даних

Від основ до знання Python, XaaS, реляційної алгебри та SQL. Загалом все те, без чого спроби якісно обробити дані марні.

1. Основи інформатики, як відправна точка для будь-кого, хто пов'язує життя з програмуванням та автоматизацією процесів.

Я працюю у сфері автоматичної обробки природної мови, однієї з програм data science, і часто спостерігаю, як люди не зовсім коректно вживають ці терміни, тому мені захотілося внести трохи ясності. Ця стаття для тих, хто погано уявляє, що таке data science і хоче розібратися в поняттях.

Визначимося з термінологією

Почнемо з того, що насправді ніхто точно не знає, що таке data science, і суворого визначення не існує – це дуже широкий та міждисциплінарний концепт. Тому тут я поділюся своїм баченням, яке зовсім не обов'язково збігається з думкою інших.

Термін data science російською перекладають як «наука про дані», а в професійному середовищі часто просто транслітерують - «дата сайєнс». Формально це набір деяких взаємопов'язаних дисциплін та методів з галузі інформатики та математики. Звучить надто абстрактно, правда? Давайте розумітися.

Перша частина: data

Перша складова науки про дані, те, без чого весь подальший процес неможливий, - це, власне, самі дані: як їх збирати, зберігати та обробляти, а також як виділяти із загального масиву даних корисну інформацію. Саме очищенню даних та приведенню їх до потрібного вигляду фахівці присвячують до 80% свого робочого часу.

Важлива частина цього пункту - як звертатися з даними, для яких не підходять стандартні способи зберігання та обробки через їх величезний обсяг та/або різноманітність - так звані великі дані, big data. До речі, не дайте себе заплутати: big data і data science - не синоніми: швидше за все, перший підрозділ другого. При цьому не завжди фахівцям з аналізу даних на практиці доводиться працювати саме з великими даними – корисними можуть бути й малі.

Уявіть, що нас цікавить, чи є якийсь взаємозв'язок між тим, скільки ваших колег по роботі випивають каву за день, і тим, скільки вони спали напередодні. Запишемо доступну нам інформацію: припустимо, ваш колега Григорій сьогодні спав 4 години, тож йому довелося випити 3 чашки кави; Елліна спала 9 годин і не пила кави взагалі; а Поліна спала всі 10 годин, але випила 2,5 чашки кави - і таке інше.

Зобразимо отримані дані на графіку (візуалізація - теж важливий елемент будь-якого data science-проекту). Відкладемо по осі X час у годинах, а по осі Y - каву в мілілітрах. Отримаємо щось на кшталт такого:

Друга частина: science

У нас є дані, що тепер із ними можна робити? Правильно, аналізувати, отримувати корисні закономірності та якось їх використовувати. Тут нам допоможуть такі дисципліни як статистика, машинне навчання, оптимізація.

Вони формують наступну і, можливо, найважливішу складову data science - аналіз даних. Машинне навчання дозволяє знаходити закономірності в існуючих даних, щоб потім передбачати потрібну інформацію нових об'єктів.

Проаналізуємо дані

Повернемося до нашого прикладу. На око здається, що два параметри якось взаємопов'язані: що менше людина спала, то більше вона вип'є кави наступного дня. При цьому у нас є і приклад, що вибивається з цієї тенденції - любителька поспати і попити кави Поліна. Тим не менш, можна спробувати наблизити отриману закономірність деякою загальною прямою лінією так, щоб вона максимально близько підходила до всіх точок:

Зелена лінія – і є наша модель машинного навчання, вона узагальнює дані та її можна описати математично. Тепер за допомогою неї ми можемо визначати значення для нових об'єктів: коли ми захочемо передбачити, скільки кави сьогодні вип'є Микита, що увійшов до кабінету, ми поцікавимося, скільки вона спала. Отримавши як відповідь значення в 7,5 годин, підставимо його в модель - йому відповідає кількість випитої кави в обсязі трохи менше 300 мл. Червона точка означає наше передбачення.

Приблизно так і працює машинне навчання, ідея якого дуже проста: знайти закономірність та поширити її на нові дані. Насправді, у машинному навчанні виділяється ще один клас завдань, коли потрібно не передбачати якісь значення, як у нашому прикладі, а розбивати дані на деякі групи. Але про це ми докладніше поговоримо іншим разом.

Застосуємо результат

Однак, на мій погляд, data science не закінчується на виявленні закономірностей даних. Будь-який data science-проект – це прикладне дослідження, де важливо не забувати про такі речі, як постановка гіпотези, планування експерименту і, звичайно, оцінка результату та його придатності для вирішення конкретного кейсу.

Останнє дуже важливо у реальних бізнес-завданнях, коли необхідно зрозуміти, чи принесе знайдене data science рішення користь вашому проекту чи ні. Якою б могла бути корисність побудованої моделі в нашому прикладі? Можливо, за її допомогою ми могли б оптимізувати доставку кави до офісу. При цьому нам потрібно оцінити ризики та визначити, чи краще наша модель справлялася б із цим, ніж існуюче рішення - офіс-менеджер Михайло, відповідальний за закупівлю продукту.

Знайдемо винятки

Звісно, ​​наш приклад максимально спрощений. Насправді можна було б побудувати складнішу модель, яка б враховувала якісь інші фактори, наприклад, чи любить людина каву в принципі. Або модель могла б знаходити складніші, ніж прямі лінії, взаємозв'язки.

Можна було б спочатку знайти в наших даних викиди - об'єкти, які, як Поліна, дуже несхожі більшість інших. Справа в тому, що при реальній роботі такі приклади можуть погано вплинути на процес побудови моделі та її якість, та їх має сенс обробляти якось інакше. А іноді такі об'єкти становлять першочерговий інтерес, наприклад, завдання виявлення аномальних банківських транзакцій з метою запобігання шахрайству.

Крім того, Поліна демонструє нам ще одну важливу ідею – недосконалість алгоритмів машинного навчання. Наша модель прогнозує всього 100 мл кави для людини, яка спала 10 годин, у той час як насправді Поліна випила аж цілих 500. У це ніколи не повірять замовники data science-рішень, але поки що неможливо навчити машину ідеально передбачати все на світі Як би добре ми не виділяли закономірності в даних, завжди знайдуться непередбачувані елементи.

Продовжимо оповідання

Отже, data science - це набір методів обробки та аналізу даних та застосування їх до практичних завдань. При цьому треба розуміти, що у кожного фахівця свій погляд на цю сферу та думки можуть відрізнятися.

В основі data science лежать досить прості ідеї, проте практично часто виявляється багато неочевидних тонкощів. Як data science оточує нас у повсякденному життіЯкі існують методи аналізу даних, з кого складається команда data science і які складності можуть виникнути в процесі дослідження - про це ми розповімо в наступних статтях.

Вміння працювати з технологіями Big Data – рідкісна та цінна навичка, що відкриває перед вами перспективу стати суперзатребуваним та високооплачуваним фахівцем.

Про те, як долучитися до цієї професії, розповідає Олександр Петров, CTO E-Contenta та керівник математичного курсу GoTo Course.

«Сама сексуальна професія»

Як написав кілька років тому журнал Harvard Business Review: "Data Scientist - найсексуальніша професія XXI століття".

У статті розповідалося про Джонатана Голдмана, фізику зі Стенфорда, який влаштувався на роботу в соціальну мережу LinkedIn, зайнявся чимось дивним та незрозумілим. Поки команда розробників ламає голову над тим, як модернізувати сайт і впоратися з напливом відвідувачів, Голдман будує прогностичну модель, яка підказує власнику облікового запису, хто ще з користувачів сайту може виявитися його знайомим.

Переконавши керівництво LinkedIn випробувати його нову модель, Голдман приносить соцмережі мільйони нових переглядів та значно прискорює її зростання.

З того часу професія Data Scientist не стала менш сексуальною, скоріше навпаки. У 2016 році вона очолила рейтинг 25 найкращих вакансій у США кадрової компанії Glassdoor. Не будемо докладно зупинятися на тому, чому сьогодні ця професія вважається однією з найоплачуваніших, найпривабливіших і найперспективніших у світі. Зазначимо лише, що кількість вакансій у цьому напрямі продовжує зростати за експонентом. Згідно з прогнозами McKinsey Global Institute, до 2018 року в одних тільки знадобиться додатково близько 140-190 тисяч фахівців із роботи з даними.

У Росії потреба у фахівцях по роботі з даними теж зростає, хоча на ринку їх, як і раніше, небагато.

Не дивно, що сьогодні так багато охочих опанувати цю професію. Давайте розберемося, хто ж такий Data Scientist і які навички і знання він повинен мати.

Хто він, Data Scientist?

Взагалі-то Data Scientist – професія, оточена різними міфами. В очах одних Data Scientists - це подоба шаманів, здатних з «добувати нафту», причому знань у сфері бізнесу від них не потрібно. Інші зараховують до цієї професії взагалі майже будь-якого програміста: вмієш програмувати – вмієш працювати з даними.

Мені ближче визначення, яке дає фахівець із біологічної статистики Джеффрі Лік з Університету Джонса Хопкінса. Data Scientist - це спеціаліст, який володіє трьома групами навичок:

  1. IT-грамотність - програмування, вигадування та вирішення алгоритмічних завдань, володіння софтом;
  2. Математичні та статистичні знання;
  3. Змістовний досвід якоїсь галузі - розуміння бізнес-запитів своєї організації чи завдань своєї галузі науки.

Причому вакансії, які мають на увазі цю спеціалізацію, можуть називатися по-різному. Серед найпопулярніших назв – аналітик Big Data, математик або математик-програміст, менеджер з аналізу систем, архітектор Big Data, бізнес-аналітик, BI-аналітик, інформаційний аналітик, фахівець Data Mining, інженер з машинного навчання та багато інших.

Скільки коштує фахівець за даними

На сьогоднішній день лише третина попиту на Data Science фахівців може бути задоволена. Недонасичений ринок не може надати компаніям кваліфіковані кадри в галузі Data Mining або прогнозної аналітики, що веде до зростання попиту та зарплат.

У США, згідно з O'Reilly Media, рівень зарплат Data Scientists може сягати $138 тисяч на рік і вище - залежно від рівня кваліфікації. Для порівняння, середня зарплата програміста, за їхніми оцінками, становить $65-80 тисяч на рік.

Згідно з дослідницьким центром рекрутингового порталу Superjob, зарплатні пропозиції для фахівців без відповідного досвіду роботи в Москві починаються від 70 тисяч рублів, у Санкт-Петербурзі - від 57 тисяч рублів.

Для наступного зарплатного рівня від претендентів знадобиться наявність глибоких знань методів статистичного аналізуданих, навичок побудови математичних моделей (нейронні мережі, кластеризація, регресійний, факторний, дисперсійний та кореляційний аналізи тощо), а також досвід роботи з великими масивами даних та вміння виявляти закономірності. Для таких фахівців зарплата може сягати 110 тисяч рублів у Москві та 90 тисяч рублів у Петербурзі.

Фахівці з досвідом побудови комерційно успішних складних моделей поведінки цільової аудиторіїз допомогою інструментів глибокого дослідження даних (Data Mining) можуть прогнозувати максимальний дохід. Їх зарплатні пропозиції у Москві - до 220 тисяч рублів, у Петербурзі - до 180 тисяч рублів.

Освіта в області Data Science: нічого неможливого немає

Сьогодні для тих, хто хоче розвиватися у сфері аналізу великих даних, існує дуже багато можливостей: різні освітні курси, спеціалізації та програми з data science, знайти відповідний для себе варіант не складе труднощів. З моїми рекомендаціями з курсів можна ознайомитись.

На мій погляд, найкращий багаж знань та навичок для роботи в цій галузі можна отримати у вищих навчальних закладахза напрямами: "Прикладна математика", "Інформатика", "Математична статистика".

Тому що Data Scientist – це людина, яка знає математику. Аналіз даних, технології та Big Data – всі ці технології та галузі знань використовують базову математику як свою основу.

Багато хто вважає, що математичні дисциплінине особливо потрібні практично. Але насправді це негаразд.

Наведу приклад нашого досвіду. Ми в E-Contenta займаємось рекомендаційними системами. Програміст може знати, що для вирішення задачі рекомендацій відео можна застосувати матричні розкладання, знати бібліотеку для улюбленої мови програмування, де це матричне розкладання реалізовано, але зовсім не розуміти, як це працює і які обмеження. Це призводить до того, що метод застосовується не оптимальним чином або взагалі в тих місцях, де не повинен застосовуватися, знижуючи загальну якість роботи системи.

Добре розуміння математичних основ цих методів і знання їхнього зв'язку з реальними конкретними алгоритмами дозволило уникнути таких проблем.

До речі, для навчання на різних професійних курсахі програмах з Big Data часто потрібна хороша математична підготовка.

"А якщо я не вивчав математику або вивчав її так давно, що вже нічого і не пам'ятаю"? - Запитайте ви. "Це зовсім не привід ставити на кар'єрі Data Scientist хрест і опускати руки", - відповім я.

Є чимало вступних курсів та інструментів для новачків, що дозволяють освіжити або підтягнути знання з однієї з перерахованих вище дисциплін. Наприклад, спеціально для тих, хто хотів би набути знання математики та алгоритмів або освіжити їх, ми з колегами розробили спеціальний курс GoTo Course. Програма включає базовий курс вищої математики, теорії ймовірностей, алгоритмів і структур даних - це лекції та семінари від досвідчених практиків. Особлива увагавідведено аналізам застосування теорії в практичних завданнях з реального життя. Курс допоможе підготуватися до вивчення аналізу даних та машинного навчання на просунутому рівні та вирішення завдань на співбесідах.


15 вересня у Москві відбудеться конференція за великими даними Big Data Conference. У програмі - бізнес-кейси, технічні рішення та наукові досягнення найкращих фахівців у цій галузі.

Запрошуємо всіх, хто зацікавлений у роботі з великими даними та хоче їх застосовувати у реальному бізнесі.

Слідкуйте за Big Data Conference у Telegram,на

Продовжуємо серію аналітичних досліджень затребуваності навичок ринку праці. На цей раз завдяки Павлу Сурменку sharky ми розглянемо нову професію – Data Scientist.

Останні роки термін Data Science почав набирати популярності. Про це багато пишуть, кажуть на конференціях. Деякі компанії навіть наймають людей на посаду із гучною назвою Data Scientist. Що таке Data Science? І хто такі Data Scientists?

Хто такі Data Scientists?

Якщо запитати мешканця Сан-Франциско, можна отримати відповідь, що Data Scientist – це статистик, який живе в Сан-Франциско. Смішно, хоча не дуже обнадіює тих, хто живе не в Сан-Франциско, правда? Добре, тоді ще одне визначення: Data Scientist – це той, хто розуміється на статистиці краще, ніж будь-який програміст, і розуміється на програмуванні краще, ніж будь-який статистик. А ось цей варіант вже близький до суті. Data Scientist, вчений за даними, є своєрідним гібридом статистики та програміста. Причому як статистики, так і програмісти бувають дуже різними, тому краще розглядати цю професію як широкий спектрвід чистих статистиків до чистих програмістів.

Роберт Чанг, Data Scientist із Twitter, ділить представників своєї професії на 2 групи: Type A Data Scientist v.s. Type B Data Scientist.

Тип A де A – це Analysis. Ці здебільшого займаються вилученням сенсу зі статичних даних. Вони дуже схожі на статистиків, можуть навіть бути статистиками і просто змінити назву посади на Data Scientist, а, як ми знаємо, вже лише одна зміна назви посади може дати значний приріст зарплати плюс пошана та повага. Але, крім статистики, вони знають ще й практичні аспекти: як очищати дані, як працювати з великими наборами даних, як візуалізувати дані та описувати результати своєї роботи.

Тип B де B - Building. Вони також мають знання статистики, але при цьому сильні та досвідчені програмісти. Вони найбільше зацікавлені у застосуванні даних на реальних системах. Часто будують моделі, що працюють у взаємодії з користувачами, наприклад системи рекомендацій товарів, фільмів, реклами.

Data Science також трохи перетинається з такими сферами діяльності як Machine Learning та Artificial Intelligence, представники цієї сфери близькі до Data Science типу B.

Що ж вивчати тим, хто хоче стати Data Scientist, які навички потрібні? Погляньмо на те, які вимоги американські роботодавці пред'являли до кандидатів на позиції в областях Data Science та Machine Learning.

Data Scientist Hard Skills

Почнемо із аналізу вимог до володіння професійними навичками (hard skills).

Як можна побачити з рейтингу, найбільш популярними є фундаментальні знання математики, статистики, Computer Science та машинного навчання. Крім теоретичних знань, Data Scientist має вміти «добувати», очищати, моделювати та візуалізувати дані. Також важливий досвід у розробці програмного забезпеченнята управління якістю.

Data Science Tools and Technologies

Основним інструментарієм Data Scientist є мови програмування Python та R.

R – це спеціалізована мова програмування для статистичних розрахунків, саме тому вона так сподобалася статистикам та вченим за даними. Він дозволяє швидко завантажити набір даних, обчислити основні статистичні характеристики, візуалізувати дані, побудувати моделі даних.

Python, хоч і є мовою програмування загального призначення, але має величезну кількість якісних бібліотек та платформ для Data Science та Machine Learning.

Що примітно, в 39% вакансій потрібне знання як R, так і Python одночасно, тому краще вивчати обидві мови відразу, а не намагатися вибрати одну з них.

Для роботи з великими даними роботодавці вважають за краще використовувати Hadoop та Spark. Серед баз даних популярні MySQL та MongoDB.

Data Scientist Soft Skills

Загальні компетенції (soft skills) проти професійними навичками затребувані меншою мірою, оскільки згадуються у вакансіях більш ніж удвічі рідше. Середні зарплати вакансій, в яких потрібні soft skills так само суттєво, приблизно на 20%, нижчі від тих, де потрібні hard skills і знання технологій.

Тим не менш, серед зустрінутих soft skills найважливішими є такі: вміння спілкуватися, візуалізувати дані, робити презентації, ефективно писати та говорити. Також корисні навички роботи в команді, менеджменту та вирішення проблем.

Data Scientist Domain Knowledge

У деяких вакансіях потрібне знання предметної галузі від фізики та біології до нерухомості та готельного бізнесу. Тут у лідерах економіка, маркетинг та медицина.

Data Scientists Specializations

Перед початком дослідження ми припускали виділити фах професії Data Scientist. Наприклад, відокремити тих, хто займається переважно аналізом та візуалізацією даних від тих, хто будує моделі для передбачуваної аналітики чи алгоритми машинного навчання. Але, як виявилося в ході аналізу даних, вимоги до більшості вакансій є досить однорідними, і чіткого розбиття на спеціальності не простежується.

Хоча деякі закономірності видаються цікавими. Наприклад, якщо вакансії потрібні знання Python або C++, то малоймовірна вимога комунікаційних навичок і менеджменту, і навпаки.

Вплив технологій на зарплату

Опитування O'Reilly 2015 Data Science Salary Survey допомагає нам поглянути на ринок праці з протилежного боку. Це дослідження базується на опитуванні 600 Data Scientists, а зібрані дані включають рівень зарплат, демографічну інформацію та кількість часу, яку фахівці витрачають на різні типи завдань. Ключові висновки цього дослідження такі:
  • SQL, Excel, R, Python – ключові інструменти, і цей список не змінюється протягом 3 років.
  • Сильно зростає популярність Spark та Scala.
  • Фокус тих, хто раніше використовував спеціалізовані комерційні інструменти, зміщується використання R.
  • Але ті, хто раніше використовував R, переходять на Python, Python лідирує.
  • Серед усіх індустрій найвищі зарплати у Software Development.
  • Cloud Computing продовжує бути затребуваним.
Рекомендуємо прочитати звіт повністю. Крім іншого, він описує математичну модель залежності зарплати Data Scientist від того, де він живе, яку освіту має та над якими завданнями працює. Наприклад, Data Scientists, які проводять більше часу на зустрічах, заробляють більше. А хто більше 4 годин на день займається вивченням даних, заробляє менше.

Як вивчати Data Science?

За останні рокиз'явилося багато online-курсів на цю тему. І це дуже хороший спосібпочати!

Якщо ви схиляєтеся до аналізу даних, то хорошим варіантом є курси спеціалізації Data Science на Coursera: Launch Your Career in Data Science . Отримання спеціалізації не безкоштовне, але якщо вам не потрібний сертифікат, то ви можете пройти всі ці курси безкоштовно: просто перегляньте назву курсу і за допомогою пошуку знайдіть курс.

Для тих, кого цікавить Machine Learning, можна порекомендувати курс Андрю Ен (Andrew Ng), Chief Scientist у компанії Baidu Research, який за сумісництвом викладач у Стенфорді і є засновником Coursera: Комп'ютерне навчання.

Що таке Data Science?

Data Science – це нова сфера діяльності, тому вимоги до Data Scientists ще не до кінця сформовані. Враховуючи динамічність нашого часу, можливо, Data Science ніколи не стане самостійною професією, яку навчатимуть в університетах, а так і залишиться набором практик та навичок. Але це точно ті практики і навички, які будуть дуже затребувані в найближчі роки.