WikiDer > Исследование данных

Data exploration

Исследование данных подход аналогичен начальному анализ данных, посредством чего аналитик данных использует визуальное исследование, чтобы понять, что находится в наборе данных и характеристики данных, а не через традиционные системы управления данными.^[1] Эти характеристики могут включать размер или количество данных, полноту данных, правильность данных, возможные отношения между элементами данных или файлами / таблицами в данных.

Исследование данных обычно проводится с использованием комбинации автоматизированных и ручных действий.^[1]^[2]^[3] Автоматизированные действия могут включать профилирование данных или же визуализация данных или же табличные отчеты чтобы дать аналитику первоначальное представление о данных и понимание ключевых характеристик.^[1]

За этим часто следует руководство детализация или фильтрация данных для выявления аномалий или закономерностей, выявленных с помощью автоматизированных действий. Исследование данных также может потребовать написания сценариев и запросов к данным вручную (например, с использованием таких языков, как SQL или же р) или используя электронные таблицы или аналогичные инструменты для просмотра необработанные данные.^[4]

Все эти действия направлены на создание ментальной модели и понимания данных в уме аналитика, а также на определение основных метаданные (статистика, структура, отношения) для набора данных, который можно использовать в дальнейшем анализе.^[1]

Как только будет получено это первоначальное понимание данных, их можно сократить или уточнить, удалив неиспользуемые части данных (очистка данных), исправляя плохо отформатированные элементы и определяя соответствующие отношения между наборами данных.^[2] Этот процесс также известен как определение Качество данных.^[4]

Исследование данных также может относиться к специальным запросам и визуализации данных для выявления потенциальных взаимосвязей или идей, которые могут быть скрыты в данных.^[1]

Традиционно это было ключевой областью внимания статистиков, Джон Тьюки быть ключевым евангелистом в этой области.^[5] Сегодня исследование данных более широко распространено и находится в центре внимания аналитиков данных и специалисты по данным; последнее является относительно новой ролью на предприятиях и в более крупных организациях.

Интерактивное исследование данных

Эта область исследования данных стала областью интересов в области машинное обучение. Это относительно новая область, и она все еще развивается.^[4] В качестве самого базового уровня алгоритм машинного обучения может получать набор данных и использоваться для определения того, верна ли гипотеза на основе набора данных. Распространенные алгоритмы машинного обучения могут сосредоточиться на выявлении определенных закономерностей в данных.^[2] Многие общие шаблоны включают регресс и классификация или же кластеризация, но существует множество возможных шаблонов и алгоритмов, которые можно применить к данным с помощью машинного обучения.

Используя машинное обучение, можно найти закономерности или взаимосвязи в данных, которые было бы трудно или невозможно найти с помощью ручной проверки, проб и ошибок или традиционных методов исследования.^[6]

Программного обеспечения

Trifacta - платформа для подготовки и анализа данных
Паксата - ПО для самостоятельной подготовки данных
Альтерикс - программное обеспечение для смешивания данных и расширенного анализа данных
Microsoft Power BI - интерактивный инструмент визуализации и анализа данных
OpenRefine - автономное настольное приложение с открытым исходным кодом для очистки и преобразования данных
Программное обеспечение Tableau - программное обеспечение для интерактивной визуализации данных

Navigation

Navigation

Themenportale

WikiDer > Исследование данных

Содержание

Интерактивное исследование данных

Программного обеспечения

Смотрите также

Рекомендации