Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Каким критерии должны соответствовать большие данные?

ТехнологииПрограммирование+4
Владимир К.
  ·   · 2,7 K
Openstack DevOps and IBM/Informix Certified DBA...  · 15 нояб 2021
Пять составляющих больших данных (скорость, объем, ценность, разнообразие и достоверность) - это пять основных и неотъемлемых характеристик больших данных. Что такое большие данные?
Большие данные - это комбинация неструктурированных, полуструктурированных или структурированных данных, собираемых организациями. Эти данные можно добывать для анализа и использовать в проектах машинного обучения, прогнозного моделирования и других приложениях расширенной аналитики.Большие данные можно использовать для улучшения операций, улучшения обслуживания клиентов и создания персонализированных маркетинговых кампаний - все это увеличивает ценность. Например, большие данные могут предоставить компаниям ценную информацию о своих клиентах, которую затем можно использовать для совершенствования маркетинговых методов, чтобы повысить вовлеченность клиентов и коэффициент конверсии.
Объем
Объем, первое из 5 V больших данных, относится к количеству существующих данных. Объем похож на базу больших данных, поскольку это исходный размер и объем собираемых данных. Если объем данных достаточно велик, это можно считать большими данными. Однако то, что считается большими данными, относительно и будет меняться в зависимости от доступной вычислительной мощности на рынке.
Скорость
Следующее из пяти составляющих больших данных - это скорость. Это относится к тому, как быстро генерируются данные и как быстро эти данные перемещаются. Это важный аспект для компаний, которым требуется быстрый поток данных, чтобы они были доступны в нужное время для принятия наилучших возможных бизнес-решений.Организация, использующая большие данные, будет иметь большой и непрерывный поток данных, который создается и отправляется по назначению. Данные могут поступать из таких источников, как машины, сети, смартфоны или социальные сети. Эти данные необходимо обрабатывать и анализировать быстро, а иногда и в режиме, близком к реальному времени.Например, в сфере здравоохранения сегодня производится множество медицинских устройств для наблюдения за пациентами и сбора данных. От стационарного медицинского оборудования до носимых устройств - собранные данные необходимо отправлять по назначению и быстро анализировать. Однако в некоторых случаях может быть лучше иметь ограниченный набор собранных данных, чем собирать больше данных, чем может обработать организация, поскольку это может привести к снижению скорости передачи данных.
Разнообразие
Следующая V в пяти 5 V больших данных - это разнообразие. Разнообразие относится к разнообразию типов данных. Организация может получать данные из ряда различных источников данных, которые могут различаться по ценности. Данные могут поступать из источников как внутри предприятия, так и за его пределами. Проблема разнообразия связана со стандартизацией и распределением всех собираемых данных. Собранные данные могут быть неструктурированными, частично структурированными или структурированными. Неструктурированные данные - это неорганизованные данные, поступающие в разных файлах или форматах. Как правило, неструктурированные данные не подходят для основной реляционной базы данных, поскольку не подходят для традиционных моделей данных. Полуструктурированные данные - это данные, которые не были организованы в специализированный репозиторий, но имеют связанную информацию, такую как метаданные. Это упрощает обработку неструктурированных данных. Между тем структурированные данные - это данные, которые были организованы в форматированный репозиторий. Это означает, что данные становятся более адресуемыми для эффективной обработки и анализа данных.
Достоверность
Правдивость - это четвертая V из 5 V больших данных. Это относится к качеству и точности данных. В собранных данных могут отсутствовать фрагменты, они могут быть неточными или не могут предоставить реальную и ценную информацию. Под достоверностью в целом понимается уровень доверия к собранным данным.
Иногда данные могут стать беспорядочными и сложными в использовании. Большой объем данных может вызвать больше путаницы, чем понимание, если он неполный. Например, в области медицины, если данные о том, какие лекарства принимает пациент, неполны, жизнь пациента может оказаться под угрозой.
И ценность, и правдивость помогают определить качество и аналитическую информацию, полученную на основе данных.
Ценность
Последняя V в 5 V больших данных - это ценность. Это относится к ценности, которую могут предоставить большие данные, и напрямую связано с тем, что организации могут делать с этими собранными данными. Возможность извлекать пользу из больших данных является обязательным требованием, поскольку ценность больших данных значительно возрастает в зависимости от того, какую информацию можно извлечь из них.
Организации могут использовать одни и те же инструменты для работы с большими данными для сбора и анализа данных, но то, как они извлекают пользу из этих данных, должно быть уникальным для них.
Программист, преподаватель, Data Scientist...  · 15 нояб 2021
Своеобразный вопрос, но попробую ответить. Во-первых, если мы говорим с точки зрения Data Science, то сейчас на самом деле достаточно 1000 единиц данных (записей, картинок и тд), чтобы уже сделать какую-то модельку, которая... Читать далее
1 эксперт согласен
Да, обычно понятие больших данных условно, но если уже нужно использовать специальные инструменты - это точно оно.