1.1.1 Інформація та дані

Тема
Матеріали

Вітаємо вас на першому уроці курсу з відкритих даних! 

В цьому відео ми говоримо про базові поняття даних та їх застосування. Після перегляду ви матимете уяву, що таке набір даних, відрізнятимете структуровані дані від неструктурованих, дізнаєтесь про найпоширеніші помилки, яких слід уникати при формуванні наборів даних. 

Урок 1. Тема 1.1_презентація

Дані  – один із багатофункціональних термінів, точне значення якого складно визначити. Тому у простому розумінні дані – це інформація, якою можна поділитись і яку можна обробити, в першу чергу машинним (автоматичним) способом. Крім того, така інформація повинна нести у собі певний зміст (значення).   

Загалом, у сучасному світі фактично будь-яку інформацію можна перетворити на дані, здебільшого за допомогою певного програмного забезпечення. Дехто ж взагалі стверджує, що різниці між інформацією та даними не існує, або, принаймні, вона дуже розмита. Так, на сьогодні є майже 4,9 млрд користувачів Інтернету: 57% (близько 2,8 млрд) з них є активними користувачами соціальної мережі Facebook, понад 40% (2 млрд) активно використовують Youtube. Ми усі з вами щось фотографуємо, знімаємо, пишемо, а потім публікуємо це врешті-решт у соціальних мережах. Тобто усі ми генеруємо тисячі терабайт інформації щодня. Наприклад, щохвилини на Youtube завантажують понад 500 годин відео-контенту. Саме тому ця сфера так активно розвивається у всьому світі: бізнес за допомогою даних отримує більший прибуток, громадяни – кращі сервіси, держава – краще планування.  

Проблематикою даних займається наука про дані (датологія), хоча нам більш відоме англійське формулювання цього слова – data science. Це, власне, розділ інформатики, що вивчає проблеми аналізу, обробки і представлення даних у цифровому вигляді.  Data science як наука про аналіз даних та отримання з них цінної інформації також тісно пов’язана з машинним навчанням (Machine Learning) та технологіями для роботи з великими даними (Big Data).  

Для того, щоб  з даними було зручно працювати, їх зазвичай об’єднують у набори даних (або ж датасети), які найчастіше записують у вигляді таблиць (всім звичний Excel) чи безпосередньо баз даних (database).   

 Українське законодавство визначає поняття набір даних наступним чином: набір даних — це сукупність однорідних значень (записів) даних та метаданих, що їх описують. Саме набори даних дозволяють нам зручно зберігати, управляти, переглядати та збагачувати дані. Якісно створені набори даних можна об'єднувати між собою, створювати на їхній основі якісну аналітику, візуалізації та сервіси.  

Однак для того, щоб зручно працювати із наборами даних, вони повинні відповідати певним стандартам або, іншими словами, мати певну структуру. За своєю природою дані можна поділити на структуровані та неструктуровані (деякі дослідники також окремо виділяють напівструктуровані дані, які є комбінацією обох попередніх типів, наприклад, документи формату XML).  

Структуровані дані – це добре впорядковані дані, які організовані та описані за певною моделлю (стандартом), тобто є загальноприйнятими. Більшість програм працюють саме із цим типом даних. Такі дані дуже просто аналізувати навіть початківцям, адже, як кажуть: “Вони зроблені за певним макетом”.  

Прикладом структурованих даних може бути набір даних у вигляді звичної нам таблиці, де міститься інформація про учнів школи: їхні ПІБ, вік, стать, адреса, номер телефону, успішність тощо.  

Неструктуровані дані – це інформація, яка не має попередньо визначеної моделі даних, тобто чіткої структури. Така інформація зазвичай є текстовою, або це також можуть бути мультимедійні файли.  

До цього типу даних можна віднести електронні листи, текстові документи, веб-сайти, відео, презентації, зображення, аудіо, дані соціальних мереж. За підрахунками експертів, неструктуровані дані складають близько 80%, а то й 90% від усіх світових даних.  

Якщо структуровані дані – це вже готове джерело кількісних фактів чи спостережень, то неструктуровані дані – це інформація, яку ще потрібно класифікувати певним чином.  

Напівструктуровані дані – це дані, які є комбінацією обох попередніх типів, тобто їх не можна категоризувати звичним способом. Зазвичай такі дані мають  певні сталі характеристики/властивості: наприклад, містять теги, які можна проаналізувати.  

Неструктуровані дані можна перетворити у структуровані. Візьмемо, до прикладу, інформаційну довідку про результати голосування у міській раді міста “А”:  

Сьогодні, 17 лютого 2021 року, депутати нашого міста прийняли кілька важливих рішень. Зокрема, за проект ухвали про перейменування вулиці Леніна на вулицю Тараса Шевченка проголосувало 37 депутатів, за проект рішення №123 “Про перелік відкритих даних” – 45. Також міська рада 38 голосами “за” ухвалила рішення щодо створення скверу на перетині вулиць Хмельницького та Івана Франка.  

Таку ж інформацію можна подати у вигляді структурованих даних, тобто таблиці. Таким чином, у нас буде набір даних, де будуть міститися стовпці із даними: дата голосування, ідентифікатор голосування, назва голосування та кількість голосів “за”. Тепер, коли ми маємо структуровані дані, нашу таблицю можна без зайвих зусиль об’єднати із такою ж інформацією з інших сесій міської ради і використати для аналізу чи візуалізації.  

Проте варто пам’ятати, що не всі дані, що містяться у таблицях, є структурованими! Зокрема, не є такими сканкопії документів у форматах .pdf, .png, .jpg тощо. Тобто дані, крім візуальної структурованості, мають відповідати критерію машиночитності.  

 Впорядковані дані або охайні дані (англ. Tidy Data) – це добре структуровані дані, які не потребують додаткової очистки чи маніпуляцій для їхньої обробки машиночитним способом. Ці набори даних організовані так, що кожна змінна є стовпчиком, а кожне спостереження є рядком.   

Безумовно усі набори даних відрізняються, бо несуть різну інформацію. Проте відомий дата-вчений Джефф Лік у своїй книзі “Елементи аналітичного стилю даних” підсумовує чотири головні характеристики будь-яких чистих даних:  

  • Кожна змінна (variable), яку ви вимірюєте, повинна бути в одному стовпці. 
  • Кожне окреме спостереження (observation) цієї змінної – в окремому рядку. 
  • Для кожного “виду” змінної має бути одна таблиця.  
  • Якщо у вас є декілька таблиць – вони повинні включати стовпець (ідентифікатор) у таблиці, завдяки якому їх можна поєднати.  

У простому розумінні, значна частина даних – це таблиці. Таблиця – це впорядкована сукупність стовпчиків та рядків.  Один рядок таблиці – це одиниця ваших даних, мовою статистики, одне спостереження.  Один стовпчик – це одна змінна, тобто значення, яке змінюється від рядка до рядка.  

Тобто, стандарт охайних даних розроблений для того, щоб полегшити початкове сприйняття даних та їхній подальший аналіз, а також для спрощення розвитку інструментів аналізу даних, які добре працюють в сукупності.  

 Для правильного створення та оприлюднення даних варто не лише уникати типових помилок, але й дбати про структуру даних.  

Найчастіші помилки при формуванні набору даних 

1. Порушення структури рядків та стовпців (об'єднані комірки).  

Таблиця з об’єднаними комірками точно не є відкритими даними. І без попередньої “чистки” фактично не є даними як такими. У такому наборі неможливо навіть відфільтрувати інформацію, не кажучи вже про машиночитну обробку.  

Звісна річ, що дані для презентації або звіту цілком можуть мати об’єднані комірки та порушувати табличну структуру, проте такі набори не можна публікувати в якості даних, тим паче відкритих. Крім того, варто подумати про доцільність існування у наборі змінних, які можна отримати за допомогою простих арифметичних дій (наприклад, загальна чисельність населення). Правильно структурована таблиця придатна для аналізу даних. А за потреби, завжди можна легко змінити її структуру.  

2. В заголовках стовпців знаходяться значення, а не назви змінних.  

Таблиця із роками у заголовках стовпців може видатися досить зручною для читачів, адже непогано демонструє динаміку середньої заробітної плати у вибраних містах України. Людині “на око” зручно порівнювати цифри за роками та містами. Проте таблиця мало придатна для машинної обробки: її неможливо сортувати, складно фільтрувати. А що робити, якщо кількість років буде більшою: 10, 20, 100?  

3. Кілька змінних зберігаються в одному стовпці.  

Для кожної змінної має бути окремий стовпець. Таким чином, ми можемо здійснювати аналіз даних одразу за декількома параметрами.  

4. Змінні у таблиці не є уніфікованими, "брудні дані".  

Дуже часто, навіть маючи правильно структуровану таблицю, ми не можемо працювати із даними, через те, що вони є "брудними".   

Брудні дані – це дані, які містять помилки, зайві символи, відсутні, зайві чи об’єднані значення, часто є людські помилки чи недбалість.   

У широкому сенсі брудні дані включають в себе відсутні дані, неправильні дані та нестандартні варіації (повтори) одних і тих же даних. Результати аналізу таких даних можуть бути абсолютно протилежними або, в кращому випадку, ненадійними.  

Натомість чисті дані можна фільтрувати, сортувати, аналізувати, візуалізувати, створювати на їхній основі сервіси. За потреби такий набір даних можна легко доповнити новою інформацією.

Що таке Big Data?

Великі дані (англ. Big Data) — набори інформації (як структурованої, так і неструктурованої) настільки великих розмірів, що традиційні способи та підходи аналітики та обробки не можуть бути застосовані до них.

У широкому сенсі про “великі дані” говорять як про соціально-економічний феномен, що пов'язаний з появою технічних можливостей аналізувати величезні набори даних. Натомість ще одне альтернативне визначення називає великими даними феноменальне прискорення нагромадження даних та їх ускладнення.

На сьогодні різні дослідники виділяють від 3 до 10 основних характеристик Big Data. Давайте розглянемо п'ять ключових з них, які ще називають “V’s” (оскільки в англійській мові всі слова починаються з відповідної букви):

Volume (об'єм) – мабуть одна з найвідоміших характеристик Big Data. Накопичені дані настільки великі, що їх практично нереально обробляти та зберігати традиційними способами. Так, за підрахунками експертів, кожну хвилину на YouTube завантажується 300 годин відео, а щороку робиться понад 1 трлн фото.

Velocity (швидкість) – швидкість накопичення даних постійно збільшується. Наприклад, 90% всієї інформації, якою оперує людство, зібрано за останні декілька років. Також ця характеристика має на увазі швидкість обробки даних. Наприклад, Google обробляє в середньому понад 70 000 пошукових запитів щосекунди.

Variety (різноманітність) – раніше людство зосереджувалося на обробці структурованих даних. Проте насправді 80% наборів зараз є неструктурованими. Ця характеристика означає можливість одночасної обробки різних типів інформації.

Veracity (достовірність) – обсяг інформації постійно збільшується, проте чи залишаються дані достовірними? Це один з головних викликів у сфері Big Data. Хто створив дані? Хто їх редагував? Який їхній загальний контекст? Яка методологія була використана при їхньому створенні? Це лише маленький перелік питань для визначення достовірності даних, що у свою чергу допомагає краще прораховувати потенційні ризики.

Value (цінність) – мабуть, найважливіша цінність Big Data. Адже інші характеристики не мають значення, якщо Ви не можете використати ці дані. Крім того, під час збору великої кількості інформації варто одразу розуміти усі потенційні витрати та переваги кінцевого результату.

Таким чином, на сьогодні фактично необмежена велика кількість даних, яка щосекунди збільшується, дає змогу вирішувати складні глобальні проблеми: від боротьби з голодом до лікування хвороб і прогнозування надзвичайних ситуацій.

Проте, окрім беззаперечних переваг, великі дані несуть і великі ризики, які напряму пов’язані із приватністю, безпекою та недискримінацією.