Характеристики больших данных
По разным источникам, большие данные характеризуются тремя, четырьмя, а по некоторым мнениям пятью, шестью и даже восемью компонентами. Но давайте остановимся на самой, как мне кажется, разумной концепции из четырех компонентов.
– Volume (объём): информации должно быть много. Обычно говорят о количестве от 2 терабайт. Компании могут собирать огромное количество информации, размер которой становится критическим фактором в аналитике.
– Velocity (скорость): данные должны обновляться, иначе они устаревают и теряют ценность. Практически всё происходящее вокруг нас (поисковые запросы, социальные сети) производит новые данные, многие из которых можно использовать для анализа.
– Variety (разнообразие): генерируемая информация неоднородна и может быть представлена в различных форматах: видео, текст, таблицы, числовые последовательности, показания датчиков.
– Veracity (достоверность): качество анализируемых данных. Они должны быть достоверными и ценными для анализа, чтобы им можно было доверять. Также данные с низкой достоверностью содержат высокий процент бессмысленной информации, которая называется шумом и не имеет ценности.
Ограничения на пути внедрения Big Data
Основное ограничение – качество исходных данных, критическое мышление (а что мы хотим увидеть? какие боли? – для этого делаются онтологические модели), правильный подбор компетенций. Ну, и самое главное – люди. Работой с данными занимаются дата-саентисты. И тут есть одна расхожая шутка: 90% дата-сайентистов – это дата-сатанисты.
Цифровые двойники
Цифровой двойник – это цифровая/виртуальная модель любых объектов, систем, процессов или людей. По своей концепции она точно воспроизводит форму и действия физического оригинала и при этом синхронизирована с ним. Погрешность между работой двойника и реальным объектом не должна превышать 5%.
При этом надо понимать, что создать абсолютный цифровой двойник практически невозможно, поэтому важно определить, какую область рационально моделировать.
Впервые концепцию цифрового двойника описал в 2002 году Майкл Гривс, профессор Мичиганского университета. В книге «Происхождение цифровых двойников» он разложил их на три основные части:
– физический продукт в реальном пространстве;
– виртуальный продукт в виртуальном пространстве;
– данные и информация, которые объединяют виртуальный и физический продукт.
Сам же цифровой двойник может быть:
– прототипом – аналогом реального объекта в виртуальном мире, который содержит все данные для производства