90% доступных данных было создано за последние два года, а термин «большие данные» был примерно в 2005 году, когда он был запущен O'Reilly Media в 2005 году. Однако использование больших данных и необходимость понимания всего доступного данные существуют гораздо дольше.
Фактически, самые ранние записи об использовании данных для отслеживания и контроля предприятий относятся к 7000 лет назад, когда в Месопотамии был введен учет для регистрации роста сельскохозяйственных культур и стад. Принципы бухгалтерского учета продолжали совершенствоваться, и в 1663 году Джон Граунт записал и изучил всю информацию о ролях смертности в Лондоне. Он хотел понять и построить систему предупреждения о продолжающейся бубонной чуме. В первой записанной записи статистического анализа данных он собрал свои выводы в книге «Естественные и политические наблюдения, сделанные на счетах смертности», которая дает глубокое понимание причин смерти в семнадцатом веке. Благодаря своей работе Граунта можно считать отцом статистики. С этого момента принципы бухгалтерского учета улучшились, но ничего особенного не произошло.
==============================================
Пока в 20 веке не началась информационная эра. Самые ранние воспоминания о современных данных относятся к 1887 году, когда Герман Холлерит изобрел вычислительную машину, которая могла считывать отверстия в бумажных карточках, чтобы систематизировать данные переписи.ХХ век.
Первый крупный проект данных создан в 1937 году по заказу администрации Франклина Д. Рузвельта в США. После того, как Закон о социальном обеспечении стал законом в 1937 году, правительству пришлось отслеживать взносы 26 миллионов американцев и более 3 миллионов работодателей. IBM получила контракт на разработку устройства для чтения перфокарт для этого масштабного бухгалтерского проекта.
Первая машина для обработки данных появилась в 1943 году и была разработана британцами для расшифровки нацистских кодов во время Второй мировой войны. Это устройство, названное Colossus, искало шаблоны в перехваченных сообщениях со скоростью 5000 символов в секунду. Таким образом, задача сокращается с недель до часов.
===============================================
В 1952 году создано Агентство национальной безопасности (АНБ), которое в течение 10 лет наняло более 12 000 криптологов. Они столкнулись с информационной перегрузкой во время холодной войны, поскольку они начали автоматически собирать и обрабатывать разведывательные сигналы. В 1965 году правительство США решило построить первый центр обработки данных для хранения более 742 миллионов налоговых деклараций и 175 миллионов комплектов отпечатков пальцев путем переноса всех этих записей на магнитную ленту компьютера, которая должна была храниться в одном месте. Позже проект был исключен из-за опасений за «Большого брата», но общепризнанно, что это было началом эры электронного хранения данных.
================================================
В 1989 году британский ученый-компьютерщик Тим Бернерс-Ли изобрел Всемирную паутину. Он хотел облегчить обмен информацией через систему «гипертекста». В тот момент он мало что мог знать о влиянии своего изобретения. Начиная с 90-х годов создание данных ускоряется, поскольку все больше и больше устройств подключаются к Интернету. В 1995 году был построен первый суперкомпьютер, который мог делать столько работы за секунду, сколько калькулятор, которым управляет один человек, может сделать за 30 000 лет.
=================================================
21 век
В 2005 году Роджер Мугалас из O’Reilly Media впервые ввел термин «большие данные», всего через год после того, как они создали термин «Web 2.0». Это относится к большому набору данных, которыми практически невозможно управлять и обрабатывать с помощью традиционных инструментов бизнес-аналитики.
================================================
2005 год также стал годом создания Hadoop компанией Yahoo! построен на основе MapReduce от Google. Его целью было проиндексировать всю всемирную паутину, и в настоящее время Hadoop с открытым исходным кодом используется многими организациями для обработки огромных объемов данных. По мере того как появляется все больше и больше социальных сетей, а Web 2.0 взлетает, ежедневно создается все больше и больше данных. Инновационные стартапы медленно начинают копаться в этом огромном объеме данных, а также правительства начинают работать над проектами больших данных.
================================================
В 2010 году Эрик Шмидт выступает на конференции Techonomy в озере Тахо в Калифорнии, и он заявляет, что «было 5 экзабайт информации, созданной всем миром между зарождением цивилизации и 2003 годом. Теперь такое же количество создается каждые два дня». В отчете McKinsey 2011 года о больших данных: следующий рубеж для инноваций, конкуренции и производительности говорится, что в 2018 году одни только США столкнутся с нехваткой 140 000 - 190 000 специалистов по обработке данных, а также 1,5 миллиона менеджеров данных.
В последние несколько лет резко увеличилось количество стартапов в области больших данных, все они пытаются иметь дело с большими данными и помогают организациям понять большие данные, и все больше и больше компаний постепенно переходят на большие данные. Однако, хотя кажется, что большие данные существуют уже давно, на самом деле большие данные так далеко, как Интернет был в 1993 году. Революция в области больших данных все еще впереди, поэтому в ближайшие годы многое изменится.