Чтение онлайн

ЖАНРЫ

Риски цифровизации: виды, характеристика, уголовно-правовая оценка
Шрифт:

Технологии анализа позволяют автоматически находить в потоках данных зависимости, которые не в состоянии выявить человек, такие как, например, влияние атмосферного давления на покупку молочной продукции. Однако, если атмосферное давление за анализируемый период было приблизительно одно и тоже, собранные данные не будут содержать знания о существующей взаимосвязи и ценность системы будет

нулевой.

Важной частью инициатив в области больших данных является понимание того, каковы затраты и выгоды от сбора и анализа данных. Необходим обоснованный прогноз, что в конечном счете получаемый результат анализа принесет конкретную пользу.

Качество данных и достоверность системы – свойства, которые показывают, что данные были получены из доверенных источников, в неискаженном виде, по доверенным каналам.

В случае, если анализ проводится на основе искаженных данных, выводы и решения не будут корректными. Например, сообщения в Twitter содержат хэш-теги, сокращения, опечатки, указание личных мнений и т. д. Таким образом данные не являются качественными т. к. искажение текста может привести к искажению заложенного в сообщения смысл. Впрочем, Twitter вызывает сомнения и как источник изначально достоверных данных. А если невысока исходная достоверность их сбор и анализ бесполезны.

Следующий пример относится к использованию данных систем глобальной навигации: часто GPS рассчитывает недостоверные координаты местоположения, особенно при размещении приемника в городских районах. Спутниковые сигналы теряются и искажаются, когда они отражаются от высоких зданий или других сооружений. Как единственный источник данных спутники сами по себе недостоверны. Для повышения качества данные о местоположении следует объединить со сведениями из других источников данных, например, с данными акселерометра или сигналами вышек сотовой связи.

Технологии систем Больших данных. Базовыми технологиями систем Big Data являются технологии сбора, анализа и представления данных.

Технологии сбора:

– смешение и интеграция данных (data fusion and integration) – набор техник для интеграции разнородных данных из разнообразных источников в целях анализа (например, обработка естественного

языка, включая анализ настроения говорящего – тональности высказывания);

– краудсорсинг – привлечение широкого и заранее не определенного круга лиц для повышения ценности данных без вступления в трудовые отношения с этими лицами.

Технологии анализа:

– прогнозная аналитика – выявление закономерностей в имеющихся данных, помощь в оценке происходящих процессов и прогнозирование дальнейших событий;

– классификация – отнесение объекта к группе по определенному признаку;

– кластерный анализ – автоматизированное формирование сравнительно однородных групп и отнесение к ним объектов (например, по ряду поведенческих факторов можно выяснить намерение человека украсть что-либо: на основании схемы перемещения покупателя по торговому центру определить, что его поведение не является обычным и предотвратить кражу);

– регрессионный анализ – выявление вероятных последствий (например, можно смоделировать дорожные аварии как последствия сочетания скорости, дорожных условий, погоды, трафика);

– обучение ассоциативным правилам – определение непрямых зависимостей (например, рост количества покупок спичек при покупке мяса, но только в случае приобретения маринада);

– пространственный анализ (Spatial analysis) – класс методов с использованием топологической, геометрической и географической информации для обоснования градостроительных решений;

– машинное обучение – применение программ, которые независимо от человека самомодифицируются на основании обрабатываемых данных;

– классический статистический анализ;

– получение комплексных прогнозов на основе базовых моделей;

– создание самомодифицируемых систем, сходных по структуре с головным мозгом человека.

Технологии представления данных. К ним относится визуализация аналитических данных – представление информации в виде рисунков, диаграмм с использованием интерактивных возможностей и анимации как для получения результатов, так и для применения в качестве исходных данных в целях дальнейшего анализа человеком.

Конец ознакомительного фрагмента.

Поделиться с друзьями: