29.01.2025 Экспертиза, Искусственный интеллект, Открытый код/LinuxОзеро-хранилище (lakehouse) данных робко появилось около восьми лет назад, когда организации искали золотую середину между беспорядочностью озер данных (data lakes) и замкнутой суетливостью хранилищ данных (warehouses). Новый архитектурный паттерн привлек несколько последователей, но рост не был впечатляющим. Однако в 2025 г., согласно новому исследованию Dremio, благодаря стечению обстоятельств озера-хранилища данных будут развиваться весьма активно, сообщает портал BigDATAwire. В 2010 г., когда наступила эра больших данных, Hadoop стала самой популярной технологией, поскольку она позволяла создавать большие кластеры из недорогих стандартных серверов X86 для хранения и обработки петабайтов данных гораздо дешевле, чем существовавшие дорогие хранилища данных и устройства, построенные на специализированном оборудовании. Позволяя клиентам сбрасывать большие объемы полуструктурированных и неструктурированных данных в распределенную файловую систему, кластеры Hadoop получили прозвище «озера данных». Клиенты могли обрабатывать и преобразовывать данные для своих конкретных аналитических нужд по требованию, реализуя так называемый подход «structure on read» (стратегия сбора и анализа данных, при которой их структура определяется во время чтения). Это существенно отличалось от подхода «structure on write» (структура определяется при записи), который использовался в типичных хранилищах данных того времени. До появления Hadoop предприятиям приходилось тратить время на преобразование ...
читать далее.