С чего началось изучение больших данных?

ОбразованиеТехнологии+4

Anna Shefel · 29 окт 2021 · 2,5 K

Openstack DevOps and IBM/Informix Certified DBA... · 11 нояб 2021

90% доступных данных было создано за последние два года, а термин «большие данные» был примерно в 2005 году, когда он был запущен O'Reilly Media в 2005 году. Однако использование больших данных и необходимость понимания всего доступного данные существуют гораздо дольше.

Фактически, самые ранние записи об использовании данных для отслеживания и контроля предприятий относятся к 7000 лет назад, когда в Месопотамии был введен учет для регистрации роста сельскохозяйственных культур и стад. Принципы бухгалтерского учета продолжали совершенствоваться, и в 1663 году Джон Граунт записал и изучил всю информацию о ролях смертности в Лондоне. Он хотел понять и построить систему предупреждения о продолжающейся бубонной чуме. В первой записанной записи статистического анализа данных он собрал свои выводы в книге «Естественные и политические наблюдения, сделанные на счетах смертности», которая дает глубокое понимание причин смерти в семнадцатом веке. Благодаря своей работе Граунта можно считать отцом статистики. С этого момента принципы бухгалтерского учета улучшились, но ничего особенного не произошло.

==============================================

Пока в 20 веке не началась информационная эра. Самые ранние воспоминания о современных данных относятся к 1887 году, когда Герман Холлерит изобрел вычислительную машину, которая могла считывать отверстия в бумажных карточках, чтобы систематизировать данные переписи.ХХ век.

Первый крупный проект данных создан в 1937 году по заказу администрации Франклина Д. Рузвельта в США. После того, как Закон о социальном обеспечении стал законом в 1937 году, правительству пришлось отслеживать взносы 26 миллионов американцев и более 3 миллионов работодателей. IBM получила контракт на разработку устройства для чтения перфокарт для этого масштабного бухгалтерского проекта.

Первая машина для обработки данных появилась в 1943 году и была разработана британцами для расшифровки нацистских кодов во время Второй мировой войны. Это устройство, названное Colossus, искало шаблоны в перехваченных сообщениях со скоростью 5000 символов в секунду. Таким образом, задача сокращается с недель до часов.

===============================================

В 1952 году создано Агентство национальной безопасности (АНБ), которое в течение 10 лет наняло более 12 000 криптологов. Они столкнулись с информационной перегрузкой во время холодной войны, поскольку они начали автоматически собирать и обрабатывать разведывательные сигналы. В 1965 году правительство США решило построить первый центр обработки данных для хранения более 742 миллионов налоговых деклараций и 175 миллионов комплектов отпечатков пальцев путем переноса всех этих записей на магнитную ленту компьютера, которая должна была храниться в одном месте. Позже проект был исключен из-за опасений за «Большого брата», но общепризнанно, что это было началом эры электронного хранения данных.

================================================

В 1989 году британский ученый-компьютерщик Тим Бернерс-Ли изобрел Всемирную паутину. Он хотел облегчить обмен информацией через систему «гипертекста». В тот момент он мало что мог знать о влиянии своего изобретения. Начиная с 90-х годов создание данных ускоряется, поскольку все больше и больше устройств подключаются к Интернету. В 1995 году был построен первый суперкомпьютер, который мог делать столько работы за секунду, сколько калькулятор, которым управляет один человек, может сделать за 30 000 лет.

=================================================

21 век

В 2005 году Роджер Мугалас из O’Reilly Media впервые ввел термин «большие данные», всего через год после того, как они создали термин «Web 2.0». Это относится к большому набору данных, которыми практически невозможно управлять и обрабатывать с помощью традиционных инструментов бизнес-аналитики.

================================================

2005 год также стал годом создания Hadoop компанией Yahoo! построен на основе MapReduce от Google. Его целью было проиндексировать всю всемирную паутину, и в настоящее время Hadoop с открытым исходным кодом используется многими организациями для обработки огромных объемов данных. По мере того как появляется все больше и больше социальных сетей, а Web 2.0 взлетает, ежедневно создается все больше и больше данных. Инновационные стартапы медленно начинают копаться в этом огромном объеме данных, а также правительства начинают работать над проектами больших данных.

================================================

В 2010 году Эрик Шмидт выступает на конференции Techonomy в озере Тахо в Калифорнии, и он заявляет, что «было 5 экзабайт информации, созданной всем миром между зарождением цивилизации и 2003 годом. Теперь такое же количество создается каждые два дня». В отчете McKinsey 2011 года о больших данных: следующий рубеж для инноваций, конкуренции и производительности говорится, что в 2018 году одни только США столкнутся с нехваткой 140 000 - 190 000 специалистов по обработке данных, а также 1,5 миллиона менеджеров данных.

В последние несколько лет резко увеличилось количество стартапов в области больших данных, все они пытаются иметь дело с большими данными и помогают организациям понять большие данные, и все больше и больше компаний постепенно переходят на большие данные. Однако, хотя кажется, что большие данные существуют уже давно, на самом деле большие данные так далеко, как Интернет был в 1993 году. Революция в области больших данных все еще впереди, поэтому в ближайшие годы многое изменится.

1 эксперт согласен

Артём Бойко

подтверждает

14 дек 2021

Хороший ответ.

alexandr azevich

Учитель - увлекаюсь нейронными сетями, создаю... · 1 нояб 2021

Изучение и структурирование данных происходило постоянно. Однако большой рост данных произошёл на рубеже 2000-х годов - это показано на диаграмме из Википедии в статье о Big Data ( ) В 2001 года Дуг Лейни (Doug Laney) из Meta... Читать далее

Иван Пальчиков

11 нояб 2021

Вообще-то потребность обработки больших объемов данных возникла во второй половине ХХ века в физических научных... Читать дальше

Светлана Ильина

Готова говорить часами о науке, искусстве и... · 30 окт 2021

Sorry! Сама хотела бы знать ответ на этот вопрос. Понятие алгоритма относится к первоначальным, основным, базисным понятиям математики и известны человечеству с глубокой древности. Наука может взломать алгоритм, а технология –... Читать далее

Марк Сударкин

я школьник, который интересуется всем на свете... · 29 окт 2021

Наверно, с обнаружения. После него данные начали собирать, преобразую в единую большую систему данных. данные надо обработать и подтвердить их подлинность, после чего можно спокойно ими пользоваться и ориентироваться по ним.