«Hadoop дозволив споживачеві зберігати всю інформацію в одному місці й сортувати її за часом, і раптом фахівці побачили, що робить користувач протягом певного часу, – сказав Каттінг. – Вони довідалися, яка частина сайту веде людей до іншого сайту. Yahoo реєстрував не тільки те, коли ви клікнули на сторінці, але й усе на тій сторінці, на що можна було клікнути. Потім вони змогли побачити, що ви клікнули, а що ні, що пропустили, як це залежало від змісту цього місця та його розташування на сторінці. Це дало нам аналітику великих даних: коли ви більше бачите, ви можете більше зрозуміти, а якщо ви можете більше зрозуміти, то приймете рішення кращі, ніж рішення здогадні. Дані, прив’язані до аналітики, дають нам краще бачення. Зрозуміти й донести це людям поза Google дав змогу Hadoop, а відтак і почалася нестримна ескалація можливостей».
Отже, тепер є система Google з пропрієтарним закритим кодом, яка працює лише в дата-центрах Google і яку люди використовують для всього: від простого пошуку до розпізнавання образів, – і є система Hadoop із відкритим кодом, яку використовують усі інші для роботи з дешевими серверами в галузі аналітики великих даних. Сьогодні такі технологічні гіганти, як IBM і Oracle, використовують Hadoop як стандарт і роблять свій внесок у роботу спільноти, що працює з відкритим кодом. І оскільки на платформі з відкритим кодом набагато менше огріхів і працює більше фахівців, ніж у пропрієтарній системі, розвинулася вона з блискавичною швидкістю.
Hadoop масштабував великі дані завдяки ще одному критичному винаходу – трансформації неструктурованих даних.
До Hadoop більшість великих компаній мало уваги приділяли неструктурованим даним. Вони натомість покладалися на Oracle SQL, мову для комп’ютерів, створену в 70-ті роки в IBM, яка використовують для збереження, керування й запитів до масивів структурованих запитів і таблиць. Саме скорочення SQL означає «мова структурованих запитів». ПЗ у структурованій базі даних ідентифікує кожен елемент цих даних. У банківській системі виникають визначення – «це чек», «це трансакція», «це баланс». Вони всі закладені в структуру, і ПЗ може швидко знайти ваш останній банківський депозит.
Проте SQL не опрацьовувала запитів до неструктурованих даних. Неструктуровані дані були суцільним безладом. Це означає, що з безладу можна було витягти геть усе відцифроване та збережене, але структури в цьому масиві не було. Завдяки Hadoop дата-аналітики змогли здійснювати пошук у неструктурованих даних і виявляти патерни. Ця здатність просіювати гори неструктурованих даних, не знаючи, що саме шукають, а також здатність робити запити, одержувати відповіді та ідентифікувати патерни стала величезним проривом.
Як пояснив Каттінг, з’явився Hadoop і сказав користувачам: «Дайте мені ваші структуровані й неструктуровані цифрові дані, і ми знайдемо в них