19.03.2020 Экспертиза, Открытый код/Linux
Следующее поколение хранилищ больших данных строится на основе транзакционных таблиц. Конечно, транзакции допускают новые сценарии использования, которые подчас требуют обновления, удаления и объединения строк данных. Но важно то, что ориентированная на транзакции архитектура позволяет реализовать расширенные функции, такие как материализованные представления, агрессивное кэширование данных и эффективная репликация между хранилищами данных. Эти функции имеют решающее значение для современной аналитики и бизнес-аналитики (BI). Ранее такие продвинутые функции были доступны для традиционных хранилищ данных — дорогих и ограниченных проприетарными инструментами вендора, масштабируемых до ограниченных объемов данных, что вынуждало создавать изолированные «островки данных». Важной характеристикой экосистемы больших данных, напротив, был богатый набор инструментов с открытым исходным кодом для доступа к таблицам в большом общем озере данных. В хранилищах больших данных следующего поколения мы сохранили инновационный набор инструментов и добились успехов в оптимизации системы, чтобы эти хранилища общего типа могли также хорошо работать в медленном облачном хранилище, используя при этом предоставляемые нашим движком возможности кэширования. Сценарий для транзакционных таблиц Экосистема больших данных явно мигрирует к таблицам в качестве предпочтительной модели для хранения данных. Таблицы достаточно гибки для использования в пакетных и потоковых системах. Они могут моделировать ...
читать далее.