Google refine – универсальное средство очистки данных
Вышла обновленная версия продукта Google Refine, популярного открытого решения для анализа, очистки и обработки наборов данных из разных источников. Это программное обеспечение, ранее известное под именем Freebase Gridworks, было унаследовано корпорацией Google в результате приобретения компании Metaweb в июле этого года.
Инструментарий Google Refine может оказаться полезным при необходимости извлечения нужной информации из набора данных, содержащих заведомые неточности. Предлагаемое настольное ПО способно, к примеру, обнаружить все варианты написания выбранного слова в специфическом наборе данных и заменить их на нужный вариант.
Процесс приведения набора данных в надлежащий вид называется нормализацией и не является революционным открытием. Однако обычно нормализация данных предполагает написание кода для каждого конкретного набора данных.
Уникальность продукта Google Refine, написанного на языке Java, заключается в его универсальности. Решение может использоваться с широким спектром наборов данных без написания дополнительного кода.
В комплект поставки Google Refine входят и другие полезные инструменты, а кроме того, продукт поддерживает собственный язык выражений, который может использоваться для анализа наборов данных. Для отделения подмножеств данных друг от друга могут применяться специальные фильтры.
Google Refine позволяет обрабатывать документы, состоящие из нескольких сотен тысяч строк, и может использоваться с неформатированными текстовыми файлами, содержимое которых разделено на колонки с использованием запятых. Результаты обработки экспортируются в документ JSON (JavaScript Object Notation), который, в свою очередь, может быть сконвертирован в таблицу HTML или другой популярный формат.
Вниманию пользователей предлагается возможность связывания доступных записей со сторонними источниками данных, а также целый набор новых команд трансформации и выражений.
Свежую версию Google Refine 2.0 можно загрузить с сайта производителя.
По материалам сайта PCWorld.
Источник: SoftLine
Источник: news.ferra.ru
CT SPJ Lunchtime Learning: Data Spring Cleaning with Google Refine