Специалисты IBM разработали новый алгоритм, в разы ускоряющий процесс обработки информации. Благодаря этой технологии анализ необработанных терабайтов данных занимает всего несколько минут вместо целых суток. Как стало известно, математический алгоритм предназначен для сверхбыстрых сортировки, сопоставления и анализа миллионов случайных наборов данных. При этом его исходный код занимает менее тысячи строк.
На создание этой технологии у коллектива исследовательской лаборатории IBM в швейцарском Цюрихе ушло два года. По их окончании разработчики поставили эксперимент на суперкомпьютере Blue Gene/P, занимающем четвертое место в мировом рейтинге. С использованием нового алгоритма девять терабайт данных удалось обработать всего за 20 минут, в то время как по традиционной методе та же работа заняла бы не меньше суток на пределе возможностей компьютера.
Как сообщает "Компьюлента", алгоритм найдет применение в анализе постоянно растущих объемов собираемых данных, например, при выявлении тенденций пользования электроэнергией, измерении уровня загрязнения воздуха или воды, метеорологических наблюдениях и отслеживании финансовых рынков.
Что касается технологии, то данный алгоритм комбинирует модели калибровки данных и статистического анализа, определяя нужные модели измерения и скрытые взаимосвязи между наборами данных. В отличие от традиционных методик, он не обрабатывает индивидуальные данные, а сразу сравнивает между собой их наборы.
Предполагается, что успешно показавшую себя разработку ученых IBM включит в состав некоторых своих услуг, например – в пакет программного обеспечения для статистического анализа.