1.2.2 Типи даних

Тема
Матеріали

Крім поділу на структуровані та неструктуровані, у світі існує ціла низка класифікацій даних. Відповідно до інформації, які несуть певні файли, зазвичай виділяють:   

  • Текстові дані;  
  • Табличні або структуровані дані;  
  • Графічні;   
  • Аудіо;  
  • Відео;   
  • Геопросторові;   
  • Архівні та інші дані.   

Текстові дані – це представлення інформації в обчислювальній системі у вигляді послідовності друкованих символів. Іншими словами, якщо більшість місця у вашому наборі займає простий текст – ви маєте справу з текстовими даними. Прикладом текстових даних можуть бути звіти, нормативно-правові акти, логи, рішення чи розпорядження органів влади, нотатки тощо.  

Публікуються текстові дані передусім у відкритих форматах TXT, RTF та ODT. Також дозволяється використовувати формати DOCX та PDF (із несканованим зображенням). Категорично не підходять для текстових даних формати JPG, JPEG, PNG, GIF, TIFF, а також PDF зі сканованим зображенням. Публікація текстових даних у цих форматах унеможливлює їх обробку автоматизованими засобами, оскільки їх потрібно додатково оцифровувати.  

 Єдиний державний портал відкритих даних дає цілком слушну рекомендацію для розпорядників. Якщо ви плануєте публікувати багато типових наборів даних у текстових форматах, наприклад, рішень міської ради, є сенс додатково створити табличку у форматі CSV, у якій буде подано перелік цих рішень. Наприклад, із зазначенням дати ухвалення, ідентифікаційного номеру, заголовку чи опису одним реченням та назви файлу, у якому міститься повний текст рішення чи посилання на нього. У такому випадку користувачі будуть легко знаходити інформацію, яка їм потрібна, а розпорядник не засмічуватиме ресурс публікації купою папок, які насправді є одним набором.  

 Табличні або структуровані дані – це впорядкована сукупність стовпців та рядків, наприклад, усім звичні таблиці Excel. Тобто варто запам’ятати, якщо у вашому наборі даних є таблиці, значить, ви маєте справу зі структурованими даними.  Найчастіше структуровані дані зустрічаються у відкритому форматі CSV. Також зустрічається формат XLS(X). Часто програмні та інформаційні системи дають змогу експортувати дані у форматах XML або JSON, тому їх часто використовують розпорядники для публікації набору даних.  Втім, найкраще формати XML і JSON підходять для ієрархічних даних, про це ми поговоримо трішки далі. Якщо ваші дані не є ієрархічними за природою, для їх публікації буде достатньо формату CSV. Для публікації структурованих (табличних) даних категорично не підходять формати: DOC(X), RTF, PDF, JPG, JPEG, TIFF, PNG.  

Графічні дані. Якщо набір даних є фотографією чи зображенням, будьте певні – ви маєте справу з графічними даними. Прикладом таких даних можуть бути фото архівних документів, генеральні плани міст тощо. Графічні дані зазвичай публікуються у відкритих форматах PNG, JPG чи JPEG. Часто буває, що текстові чи навіть структуровані дані оприлюднюються у вигляді графічних. Тоді для розпізнавання тексту потрібно використовувати технології OCR (Оптичне розпізнавання тексту). Мабуть, найвідомішою у цій сфері програмою є ABBYY FineReader.  

Геопросторові дані — це інформація, що визначає географічне положення та характеристики об'єктів та/або їхні кордони на поверхні Землі. Якщо набір даних містить інформацію про розташування певних об’єктів із зазначенням широти й довготи, або опис меж певних територій із використанням полігонів, ви маєте справу з геопросторовими даними.  

Прикладом геопросторових даних можуть бути генеральні плани населених пунктів, схеми планування територій і плани зонування територій, межі виборчих округів та дільниць, відомості з Держгеокадастру, маршрути й дані про місцезнаходження громадського транспорту тощо. 

Геопросторові дані передусім публікуються у відкритих форматах GeoJSON, SHP, рідше GPX, GeoTIFF. Проте бувають випадки, коли певні набори можуть бути збагачені геоданими, а саме географічними координатами, що позначають точне розташування об’єкта, наприклад, інформація про розташування виборчих дільниць. Такі набори даних публікуються у звичайних табличних форматах CSV чи XLSX.  

Архіви — дані, що містять у собі один або декілька файлів та метадані. Файли можуть бути як стиснені (без втрат), так і мати початковий розмір та структуру. Метадані можуть містити інформацію про початковий розмір файлів, інформацію про формат файлів, структуру директорій, коментарі до файлів тощо. Архіви файлів створюються за допомогою спеціалізованих програм — архіваторів, які можуть бути як окремими програмами, так і частиною інших програм. Якщо ваш набір даних міститься у файлі великого розміру, або ви публікуєте багато типових файлів, що є частиною одного набору даних, є сенс використовувати для публікації архіви даних. Вони допомагають зменшити розмір набору даних і завантажити велику кількість типових файлів за один раз. Для публікації архівів даних насамперед треба використовувати відкриті формати ZIP та 7z. Не варто використовувати для публікації архівів даних формат RAR, який є пропрієтарним, адже тоді користувачі потребуватимуть додаткової програми для витягування файлів.  

П’ять зірок відкритих даних

https://5stardata.info

Іноді формат оприлюднення даних викликає багато запитань і як наслідок – труднощів. Тож для кращого розуміння важливості коректного оприлюднення відкритих даних давайте звернемося до відомої класифікації “5 Stars Open Data”, що була розроблена одним із творців Всесвітньої павутини Тімом Бернерсом-Лі. У даному рейтингу якість та рівень відкритості даних визначається кількістю зірок від 1 до 5 (чим більша цифра – тим краще).

Одна зірка – ваша інформація доступна в мережі Інтернет у будь-якому форматі, але під відкритою ліцензією. У цю категорію потрапляють файли у форматі PDF, у тому числі скановані копії документів. Вашу інформацію можна переглянути, роздрукувати та поширити, але опрацювати її без додаткових маніпуляцій (оцифрування) неможливо.

Дві зірки – ваші дані оприлюднені у структурованому вигляді, проте формат даних не є відкритим (наприклад, XLSX). Багато користувачів для отримання даних залежать від комерційного програмного забезпечення. Ваші дані можна обробляти автоматично, їх можна експортувати в інший формат, проте вони все ще містять зайві елементи оформлення, навігації, а значить також потребують додаткових дій для аналізу.

Три зірки – ваша інформація доступна у відомих та добре описаних відкритих структурованих форматах (наприклад, CSV, JSON, XML, YAML). Користувачі можуть користуватися даними будь-яким чином та без необхідності використання комерційного програмного забезпечення. Проте з іншої сторони, ваша інформація все ще не є даними, що по-справжньому інтегровані у веб (in the Web).

Чотири зірки – ви використовуєте стандарти W3C21 (зокрема, RDF та SPARQL), ваші дані мають постійне посилання. Користувачі можуть отримати первинні набори відкритих даних у вигляді файлів (довідники, списки, таблиці у відкритому форматі, архів документів тощо) або через запит до API за вказаними параметрами. Це дає змогу отримувати тільки потрібну інформацію. Якщо у Вас є API – він має бути добре описаний, а доступ до нього може бути анонімний без обмежень або з реєстрацією, за вказаним ідентифікатором, лімітами на кількість одночасних запитів тощо.

П’ять зірок – ваші набори відкритих даних пов’язані між собою (linked data). Вони мають спільні довідники, класифікатори, ідентифікатори, посилання між документами та іншими елементами тощо. Дані являють собою семантичну мережу, що постійно оновлюється й змінюється відповідно до сучасних запитів. Від мережевого ефекту виграють і користувач, і публікатор.

Таким чином, відкритість та якість даних залежить не лише від форматів у яких здійснюється публікація, але й від способів доступу до інформації та кількості додаткових дій, які необхідні для її отримання, збереження та використання.