Что такое большие данные? Почему это так популярно?

We use cookies. Read the Privacy and Cookie Policy

Виталий Данюк

стратег

В буквальном понимании термин «большие данные» действительно означает большие по объему (в терабайтах, петабайтах и экзобайтах) данные. Но суть в другом.

Более точной формулировкой может служить «сложные данные». Когда говорят «большие данные», подразумевают данные с такими характеристиками: их сложно и дорого анализировать, необходимы значительные человеческие и вычислительные ресурсы; в них может находиться информация, использование которой приведет к конкретному, измеримому увеличению бизнес-показателей компании.

Примером больших данных может служить набор данных очень крупного интернет-магазина, аналитическая система которого собирает действия пользователей на сайте: каждую посещенную страницу, источник трафика, движения мышки, клики по ссылкам, статистику из социальных профилей пользователей, историю покупок и так далее. Результатом успешного анализа такого набора данных будет увеличение продаж, среднего чека или повторных покупок, что приведет к отслеживаемому росту дохода магазина.

О больших данных говорят, потому что эта методология работает. Компании (и не только) принимают стратегические решения на основании результатов анализа. На данный момент количество необработанных данных значительно превышает количество специалистов и вычислительную мощность серверов для их анализа. Спрос на анализ больших данных рождает предложение.

Именно коммерческое использование больших данных генерирует такой интерес вокруг этой области знании. Но большие данные очень важны и для науки. Большой Адронный Коллайдер, к примеру, генерирует невообразимо огромные объемы данных. И именно успешный анализ и обработка этих данных позволяют ученым открывать новые элементарные частицы.