Арболит для строительства

Арбомонолит и другие необычные материалы.

Обзор технологий хранения больших данных. История вопроса и определение термина

28.04.2022 в 06:00

Обзор технологий хранения больших данных. История вопроса и определение термина

Термин Big Data появился сравнительно недавно. Google Trends показывает начало активного роста употребления словосочетания начиная с 2011 года ( ссылка ):

При этом уже сейчас термин не использует только ленивый. Особенно часто не по делу термин используют маркетологи. Так что же такое Big Data на самом деле? Раз уж я решил системно изложить и осветить вопрос – необходимо определиться с понятием.

В своей практике я встречался с разными определениями:

· Big Data – это когда данных больше, чем 100Гб (500Гб, 1ТБ, кому что нравится)

· Big Data – это такие данные, которые невозможно обрабатывать в Excel

· Big Data – это такие данные, которые невозможно обработать на одном компьютере

И даже такие:

· Вig Data – это вообще любые данные.

· Big Data не существует, ее придумали маркетологи.

В этом цикле статей я буду придерживаться определения с wikipedia :

Большие данные ( англ. big data ) — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети , сформировавшихся в конце 2000-х годов , альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence .

Таким образом под Big Data я буду понимать не какой-то конкретный объём данных и даже не сами данные, а методы их обработки, которые позволяют распредёлено обрабатывать информацию. Эти методы можно применить как к огромным массивам данных (таким как содержание всех страниц в интернете), так и к маленьким (таким как содержимое этой статьи).

Приведу несколько примеров того, что может быть источником данных, для которых необходимы методы работы с большими данными:

· Логи поведения пользователей в интернете

· GPS-сигналы от автомобилей для транспортной компании

· Данные, снимаемые с датчиков в большом адронном коллайдере

· Оцифрованные книги в Российской Государственной Библиотеке

· Информация о транзакциях всех клиентов банка

· Информация о всех покупках в крупной ритейл сети и т.д.

Количество источников данных стремительно растёт, а значит технологии их обработки становятся всё более востребованными.

Который из носителей предлагает наибольший срок хранения данных. Традиционные накопители и сроки сохранности информации на них

Наиболее распространенные способы хранения различного рода информации на сегодня — жесткие диски, Flash-накопители (SSD, USB флешки, карты памяти), оптические диски (CD, DVD, Blu-Ray) и не относящиеся к накопителям, но также служащие той же цели облачные хранилища (Dropbox, Яндекс Диск, Google Drive, OneDrive).

Какой из перечисленных способов является надежным способом сохранить данные? Предлагаю рассмотреть их по порядку (я веду речь лишь о бытовых способах: стримеры, например, учитывать не буду):

  • Жесткие диски — традиционные HDD наиболее часто используются для хранения самых разных данных. При обычном использовании их средний срок службы 3-10 лет (такая разница обусловлена как внешними факторами, так и качеством устройства). При этом: если вы запишите информацию на жесткий диск, отключите его от компьютера и положите в ящик стола, то данные можно будет считать без ошибок в течение примерно того же промежутка времени. Сохранность данных на жестком диске в значительной степени зависит от внешних воздействий: любые, даже не сильные удары и встряхивания, в меньшей степени — магнитные поля, могут послужить причиной преждевременного выхода накопителя из строя.

    Который из носителей предлагает наибольший срок хранения данных. Традиционные накопители и сроки сохранности информации на них

  • USB Flash, SSD — срок службы Flash накопителей в среднем около 5 лет. При этом, обычные флешки очень часто выходят из строя значительно раньше этого срока: достаточно одного статического разряда при подключении к компьютеру, чтобы данные стали недоступны. При условии записи важной информации и последующего отключения SSD или флешки для хранения, срок доступности данных составляет около 7-8 лет.

    Который из носителей предлагает наибольший срок хранения данных. Традиционные накопители и сроки сохранности информации на них

  • CD, DVD, Blu- Ray — из всех перечисленных, оптические диски обеспечивает наибольший срок хранения данных, способный превышать 100 лет, однако с данным типом накопителей связано и наибольше количество нюансов (например, записанная вами DVD болванка, скорее всего проживет лишь пару лет), а потому он будет рассмотрен отдельно далее в этой статье.
  • Облачные хранилища — срок хранения данных в облаках Google, Microsoft, Яндекс и других неизвестен. Скорее всего, будут храниться в течение долгого времени и пока это коммерчески оправдано для компании, предоставляющей услугу. Согласно лицензионным соглашениям (я прочитал два, для самых популярных хранилищ), ответственности за утрату данных эти компании не несут. Не стоит забывать о возможности потери своего аккаунта из-за действий злоумышленников и других непредвиденных обстоятельств (а их перечень действительно широк).

Где лучше хранить файлы. Где хранить свои файлы? Обзор облачных хранилищ

    В этой статье мы рассмотрим облачные хранилища 2021. Проведём сравнение облачных хранилищ 2021, проанализируем их плюсы и минусы.

    Университет Калифорнии подсчитал объём медийного контента (телевидение, веб-сайты, радио, газеты), который потребляет каждый американец. Средний житель США потребляет 36 ГБ информации за 12 часов нерабочего времени. Минутка математики. В год ― это 13 140 ГБ. «Игра престолов» весит примерно 70 ГБ, то есть в год человек может посмотреть все сезоны сериала 188 раз. Несмотря на то что исследование проходило среди американцев, вряд ли данные других крупных стран будут сильно отличаться.

    Это исследование касается уже готового контента, который выпущен на просторы интернета. Однако к каждому видеоролику блогер готовит сценарий, хранит удачные и неудачные кадры. Журналисты готовят запись интервью и расшифровывают их. Да и каждый пользователь интернета оставляет постоянные заметки для работы и бытовых дел. Уже не так много людей, которые держат все свои мысли на бумаге. Удобнее использовать электронные носители.

    Хочется, чтобы доступ к информации был везде и на любом устройстве. Не будешь же повсюду ходить с сумкой с флешками? Это неудобно и небезопасно. К счастью, человечество придумало облачное хранилище .

    Облачное хранилище ― это онлайн-хранилище, где данные хранятся на различных серверах, соединённых одной сетью. Клиент арендует место для своих данных.

    Огромным плюсом облачного хранения является доступность. Неважно, где вы находитесь, используете ли вы своё устройство или взяли у друга. Для доступа к своим данным вам нужен только интернет (ну и знание логина и пароля от облака, разумеется).

    Также стоит отметить высокую экономичность такого вида хранения. Вам не нужно тратиться на покупку внешних устройств хранения информации (флешки, жёсткие диски, серверы). Вы арендуете столько памяти, сколько вам нужно на данный момент.

    Также облачное хранение отличается безопасностью. Компании, отвечают за качество предоставляемых услуг, следовательно, и ответственность за сохранность данных ложится на их плечи. Они тщательно заботятся о «здоровье» серверов и охраняют ваши данные от злоумышленников.

    Можно ли самому создать систему похожую на облачное хранилище, чтобы не платить сторонней компании? Можно. К таким сервисам относится NextCloud. NextCloud ― это программа, которая устанавливается на хостинг или собственный сервер и даёт возможность создать облачное хранилище. С её помощью создаётся платформа, на которую можно загружать все нужные файлы на подконтрольный только вам сервер. Это хорошая программа, но для рядового пользователя не подходит, так как нужно будет платить за хостинг, самому устанавливать и настраивать программу. Поэтому чаще всего пользователи отдают предпочтение уже готовым решениям от компаний.

    Теперь давайте сделаем обзор облачных хранилищ.

    Мы выделили лучшие облачные хранилища 2021, которые подойдут для разных задач. В этом рейтинге облачных хранилищ мы сделаем акцент именно на бесплатные облачные хранилища в 2021 году.

    Google Диск (Google Drive)

    На данный момент Google Диск – самое популярное приложение для облачного хранения данных. И это неслучайно. Google Диск ― это часть крупной системы: вы просто заводите Google Аккаунт и сразу получаете почту, календарь, чат, облачное хранилище и многое другое. Это очень удобно и бесплатно.

    Что же ещё предлагает Google Drive?

    Бесплатно 15 ГБ памяти. Для тех, кто использует облачное хранилище для фото и видео, этого явно мало, но для текстовых документов этой памяти хватит на много лет.

    Редактирование текстовых файлов онлайн. Google предлагает собственные офисные программы, которые работают в онлайн-режиме. Здесь есть и Word, и Excel, и презентации. Несмотря на то что это продукты Гугл, их функционал очень похож на традиционные программы Microsoft. Из-за этой схожести освоение редактора проходит очень быстро.

    Работа с общими файлами. Иногда над текстовым документом или презентацией работает не один человек. Офлайн-программы для редактирования файлов значительно усложняют коллективную работу, так как второму пользователю нужно скачать файл, внести в него правки и потом снова отправить его коллеге. С онлайн-редактором Google таких неудобств нет. Над одним документом в режиме реального времени может работать несколько человек. Правки каждого будут видны сразу. Ничего не нужно скачивать. Варианты использования Google Диск расширяются и благодаря дополнительному внутреннему функционалу. Внутри документа можно оставлять комментарии – таким образом обычный текстовый документ или презентация одновременно выполняет и функцию чата.

Диски для хранения информации. Как и где хранить данные в течение долгого времени

Многие задумываются о том, как сохранить данные на долгие годы, а те, кто нет, могут просто не знать, что компакт диск с фотографиями со свадьбы, видео с детского утренника или другой семейной и рабочей информацией с большой вероятностью нельзя будет прочитать лет через 5-10. Я задумываюсь. Как же в таком случае хранить эти данные?

В этой статье постараюсь рассказать максимально подробно о том, на каких накопителях хранение информации является надежным, а на каких — нет и каков срок хранения при разных условиях, где хранить данные, фотографии, документы и в каком виде это делать. Итак, наша цель — обеспечить сохранность и доступность данных в течение максимально возможного промежутка времени, хотя бы 100 лет.

Общие принципы хранения информации, продлевающие срок её жизни

Существуют наиболее общие принципы, которые применимы к любому типу информации, будь то фотографии, текст или файлы и способные увеличить вероятность успешного доступа к ней в будущем, среди них:

  • Чем больше количество копий, тем вероятнее, что данные проживут дольше: книга, напечатанная миллионным тиражом, фотография, распечатанная в нескольких экземплярах для каждого родственника и сохраненная в цифровом виде на разных накопителях, скорее всего будут храниться и быть доступными долго.
  • Следует избегать нестандартных способов хранения (во всяком случае, как единственного способа), экзотических и проприетарных форматов, языков (например, для документов лучше использовать ODF и TXT, а не DOCX и DOC).
  • Хранить информацию следует в несжатых форматах и в незашифрованном виде — в противном случае, даже незначительное повреждение целостности данных может сделать всю информацию недоступной. Например, если требуется надолго сохранить медиа файлы, то для звука лучше будет WAV, для фотографий — несжатые RAW, TIFF и BMP, для видео — кадры без сжатия, DV, хотя это не вполне возможно в быту, учитывая объемы видео в данных форматах.
  • Регулярная проверка целостности и доступности данных, повторное их сохранение с использованием новых появившихся способов и устройств.

Как хранить большие объемы данных. Объектные хранилища S3 — еще один тип хранения данных в облаке

В S3 данные хранятся в виде объектов. Объект — это некая совокупность данных с уникальным идентификатором и бесконечным количеством метаданных. Для группировки объектов есть дополнительная сущность — бакеты. Это контейнеры для объектов, похожие на папки, но не являющиеся их полным аналогом. В проекте может быть один или несколько бакетов.

Лучше всего S3 подходит для хранения неструктурированных данных и обработки большого количества объектов малого и среднего размера, которые редко изменяются и часто требуют параллельного доступа большого числа пользователей. Для обработки больших объектов доступна дополнительная функциональность — мультипоточная загрузка.

S3 может выступать в качестве более надежной и дешевой альтернативы дискам HDD для большей части сценариев их использования.

Мы используем реализацию объектного хранилища S3 собственной разработки

В нашем облаке доступны три класса объектных хранилищ S3 , которые различаются по своему назначению и стоимости:

    S3 HotBox предназначен для хранения горячих данных — с частым доступом. В первую очередь это онлайн-сервисы с повышенной нагрузкой, работа которых требует хранения и раздачи контента: потоковая раздача мультимедиа, хостинг статических сайтов, хранилища для Backend-платформ. Могут также использоваться для анализа данных в Big Data, Data Mining и так далее. В HotBox хранение дороже, а исходящий трафик дешевле, входящий трафик не тарифицируется.

    S3 IceBox используют для хранения холодных данных — с редким доступом, например несколько раз в месяц. Чаще всего это годовая и месячная отчетность, документы, бэкапы и журналы, к которым периодически нужен быстрый доступ. По сравнению с HotBox в IceBox хранение дешевле, а исходящий трафик дороже, входящий трафик также не тарифицируется.

    Glacier подходит для хранения ледяных данных — массивных данных (от 100 Тб) с очень редким доступом. Это бэкапы, архивы и логи, к которым доступ может потребоваться несколько раз в год и реже. Из трех типов хранилищ в Glacier самая низкая цена на хранение данных, а весь трафик бесплатный. Такое хранилище подключается по отдельному запросу клиента.

Самый надежный способ хранения данных. Отказоустойчивость


Самая важное свойство системы хранения данных – это то, что система призвана СОХРАНЯТЬ данные без каких-либо компромиссов, то есть обеспечивать максимальную доступность и ни в коем случае не потерять даже малой их части. Почему-то очень многие задумываются о производительности, цене, но мало внимания уделяют надежности хранения данных.Для обеспечения отказоустойчивости в случае сбоя существует одна-единственная техника – резервирование. Вопрос в том, на каком уровне применяется резервирование. С некоторым грубым упрощением, можно сказать, что уровня два: Hardware и Software.Самый надежный способ хранения данных. ОтказоустойчивостьРезервирование на уровне Hardware давно зарекомендовало себя в Enterprise-системах. SAN/NAS коробки имеют двойное резервирование всех модулей (два, а то и три блока питания, пара плат «мозгов») и сохраняют данные одновременно на нескольких дисках внутри одной коробки. Лично я метафорически представляю это себе как очень безопасную кружку: максимально надежную для сохранения жидкости внутри, с толстыми стенками и обязательно с двумя ручками на случай, если одна из них сломается.Самый надежный способ хранения данных. ОтказоустойчивостьРезервирование на уровне Software только начинает проникать в Enterprise-системы, но с каждым годом отъедает все больший и больший кусок у HW решений. Принцип тут прост. Такие системы не полагаются на надежность железа. Они считают, что оно априори ненадежно, и решают задачи резервирования на уровне ПО, создавая копии (реплики) данных и храня их на физически разном железе. Продолжая аналогию с чашками, это — когда есть несколько совершенно обычных чашек, и ты разлил чай в обе, вдруг одна разобьется.Таким образом, SW решения не требуют дорогостоящего оборудования, как правило, более выгодны, но при этом обеспечивают ровно такую же отказоустойчивость, хотя и на другом уровне. Их также легче оптимизировать, например, разносить данные на разные сайты, выполнять балансировку, менять уровень отказоустойчивости, линейно масштабировать при росте кластера.Расскажу, как решается вопрос резервирования на примере Parallels Cloud Storage (PStorage). PStorage не имеет привязки к какому-либо вендору железа и способен работать на совершенно обычных машинах, вплоть до настольных PC. Мы не доверяем железу, поэтому архитектура PStorage рассчитана на потерю любого физического сервера целиком (а не только отдельного диска). Все данные в Parallels Cloud Storage хранятся в нескольких копиях (репликах). При этом PStorage никогда не хранит более одной копии на физическом сервере/стойке/комнате (как захотите). Мы рекомендуем хранить 3 копии данных, чтобы быть защищенным от одновременного сбоя сразу двух серверов/стоек. Комментарий: на рисунке показан пример кластера, хранящего данные в двух копиях.

Какая технология используется для сбора и хранения данных. Носители данных, использующие перфорацию

Перфокарты

До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM , сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.

Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.

Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.

Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.

Перфоленты

Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.

Подробнее об эволюции СХД читайте здесь .

Где брать большие данные для проекта. Что такое Big Data

Big Data (большие данные) — огромные наборы разнообразных данных. Огромные, потому что их объемы такие, что простой компьютер не справится с их обработкой, а разнообразные — потому что эти данные разного формата, неструктурированные и содержат ошибки. Большие данные быстро накапливаются и используются для разных целей.

Big Data — это не обычная база данных, даже если она очень большая. Вот отличия:

Не большие данные Большие данные
База записей о тысячах работников корпорации. Информация в такой базе имеет заранее известные характеристики и свойства, ее можно представить в виде таблицы, как в Excel.Журнал действий сотрудников. Например, все данные, которые создает во время работы колл-центр, где работает 500 человек.
Информация об именах, возрасте и семейном положении всех 2,5 миллиардов пользователей Фейсбук* — это всего лишь очень большая база данных.Переходы по ссылкам, отправленные и полученные сообщения, лайки и репосты, движения мыши или касания экранов смартфонов всех пользователей Фейсбук*.
Архив записей городских камер Данные системы видеофиксации нарушений правил дорожного движения с информацией о дорожной ситуации и номерах автомобилей нарушителей; информация о пассажирах метро, полученная с помощью системы распознавания лиц, и о том, кто из них числится в розыске.

Объем информации в мире увеличивается ежесекундно, и то, что считали большими данными десятилетие назад, теперь умещается на жесткий диск домашнего компьютера.

60 лет назад жесткий диск на 5 мегабайт был в два раза больше холодильника и весил около тонны . Современный жесткий диск в любом компьютере вмещает до полутора десятков терабайт (1 терабайт равен 1 млн мегабайт) и по размерам меньше обычной книги.

В 2021 году большие данные измеряют в петабайтах. Один петабайт равен миллиону гигабайт. Трехчасовой фильм в формате 4K «весит» 60‒90 гигабайт, а весь YouTube — 5 петабайт или 67 тысяч таких фильмов. 1 млн петабайт — это 1 зеттабайт.