Лидеры мысли
Нечеткое сопоставление — определение, процесс и методы

An акцентный обзор показали, что 75% потребителей предпочитают покупать у розничных продавцов, которые знают их имя и покупательское поведение, а 52% из них с большей вероятностью поменяют бренд, если они не предлагают персонализированный опыт. Поскольку бренды собирают миллионы точек данных почти каждый день, выявление уникальных клиентов и создание их профилей является одной из самых больших проблем, с которыми сталкивается большинство компаний.
Когда предприятие использует несколько инструментов для сбора данных, очень часто неправильно пишут имя клиента или принимают адрес электронной почты с неправильным шаблоном. Более того, когда разрозненные приложения данных имеют разную информацию об одном и том же клиенте, становится невозможным получить представление о поведении и предпочтениях ваших клиентов.
Далее мы узнаем, что такое нечеткое сопоставление, как оно реализуется, какие общие методы используются и с какими проблемами приходится сталкиваться. Давайте начнем.
Что такое нечеткое соответствие?
Нечеткое совпадение — это метод сопоставления данных, который сравнивает две или более записей и вычисляет вероятность того, что они принадлежат одному и тому же объекту. Вместо того, чтобы классифицировать записи как совпадающие и не совпадающие, нечеткое сопоставление выводит число (обычно от 0 до 100%), которое определяет, насколько вероятно, что эти записи принадлежат одному и тому же клиенту, продукту, сотруднику и т. д.
Эффективный алгоритм нечеткого сопоставления учитывает ряд неоднозначностей данных, таких как изменение имени/фамилии, акронимы, сокращенные имена, фонетические и преднамеренные орфографические ошибки, сокращения, добавление/удаление знаков препинания и т. д.
Процесс нечеткого сопоставления
Процесс нечеткого сопоставления осуществляется следующим образом:
- Записи профиля основных ошибок стандартизации. Эти ошибки исправляются, чтобы обеспечить единообразное и стандартизированное представление для всех записей.
- Выбрать и сопоставить атрибуты на основе которого будет происходить нечеткое сопоставление. Поскольку эти атрибуты могут называться по-разному, они должны быть сопоставлены между источниками.
- Выберите метод нечеткого сопоставления для каждого атрибута. Например, имена могут сопоставляться на основе расстояния между клавиатурой или вариантов имени, а номера телефонов могут сопоставляться на основе числовых показателей сходства.
- Выберите вес для каждого атрибута, так что атрибуты, которым присвоены более высокие веса (или более высокий приоритет), будут иметь большее влияние на общий уровень достоверности соответствия по сравнению с полями, имеющими более низкие веса.
- Определите пороговый уровень – записи с показателем нечеткого совпадения выше уровня считаются совпадающими, а несоответствующие – несовпадениями.
- Запуск алгоритмов нечеткого сопоставления и анализировать результаты матчей.
- Отменить любые ложные срабатывания и негативы, которые могут возникнуть.
- идти, дедуплицировать или просто исключить дубликаты записей.
Нечеткие параметры соответствия
Из описанного выше процесса видно, что алгоритм нечеткого сопоставления имеет ряд параметров, которые составляют основу этого метода. К ним относятся веса атрибутов, метод нечеткого сопоставления и пороговый уровень оценки.
Чтобы получить оптимальные результаты, вы должны выполнить методы нечеткого сопоставления с различными параметрами и найти значения, которые лучше всего подходят для ваших данных. Многие поставщики включают такие возможности в свои решения для нечеткого сопоставления, где эти параметры настраиваются автоматически, но могут быть настроены в зависимости от ваших потребностей.
Что такое методы нечеткого сопоставления?
Сегодня используется множество методов нечеткого сопоставления, которые различаются в зависимости от точного алгоритма формулы, используемой для сравнения и сопоставления полей. В зависимости от характера ваших данных вы можете выбрать метод, который подходит для ваших требований. Вот список распространенных методов нечеткого сопоставления:
- Сходство персонажей метрики, которые лучше всего соответствуют строкам. К ним относятся:
- Изменить расстояние: Вычисляет расстояние между двумя строками, вычисляемое посимвольно.
- Расстояние аффинного зазора: Вычисляет расстояние между двумя строками, также учитывая промежутки или пробелы между строками.
- Расстояние Смита-Уотермана: Вычисляет расстояние между двумя строками, также учитывая наличие или отсутствие префиксов и суффиксов.
- Расстояние Яро: Лучше всего совпадать по имени и фамилии.
- Сходство на основе токенов метрики, которые лучше всего соответствуют полным словам в строках. К ним относятся:
- Атомарные строки: делит длинные строки на слова, разделенные знаками препинания, и сравнивает отдельные слова.
- WHIRL: аналогично атомарным строкам, но WHIRL также присваивает веса каждому слову.
- Показатели фонетического сходства которые лучше всего сравнивать слова, которые звучат одинаково, но имеют совершенно разный характерный состав. К ним относятся:
- Soundex: Лучше всего сравнивать фамилии, которые различаются по написанию, но звучат одинаково.
- NYSIIS: похож на Soundex, но также сохраняет информацию о положении гласных.
- Метафон: сравнивает похожие по звучанию слова, существующие в английском языке, другие слова, знакомые американцам, а также имена и фамилии, обычно используемые в США.
- Показатели числового сходства которые сравнивают числа, насколько они далеки друг от друга, распределение числовых данных и т. д.
Проблемы нечеткого сопоставления
Процесс нечеткого сопоставления – несмотря на удивительные преимущества он предлагает — может быть довольно сложно реализовать. Вот некоторые распространенные проблемы, с которыми сталкивается бизнес:
1. Более высокий уровень ложных срабатываний и отрицательных результатов
Многие решения нечеткого сопоставления имеют более высокий уровень ложных срабатываний и отрицательных результатов. Это происходит, когда алгоритм неправильно классифицирует совпадения и несовпадения или наоборот. Настраиваемые определения совпадений и нечеткие параметры могут помочь максимально уменьшить количество неверных ссылок.
2. Вычислительная сложность
В процессе сопоставления каждая запись сравнивается с любой другой записью в том же наборе данных. А если вы имеете дело с несколькими наборами данных, то количество сравнений увеличивается еще больше. Замечено, что сравнения растут квадратично по мере роста размера базы данных. По этой причине вы должны использовать систему, способную обрабатывать ресурсоемкие вычисления.
3. Валидация тестирования
Сопоставленные записи объединяются вместе, чтобы представить полное 360-градусное представление сущностей. Любая ошибка, допущенная во время этого процесса, может увеличить риск для ваших деловых операций. Вот почему необходимо провести подробное проверочное тестирование, чтобы убедиться, что настроенный алгоритм постоянно дает результаты с высокой точностью.
Заворачивать
Компании часто думают о решениях для нечеткого сопоставления как о сложных, ресурсоемких и затратных проектах, которые выполняются слишком долго. Правда заключается в том, чтобы инвестировать в правильное решение, которое дает быстрые и точные результаты. Организации должны учитывать ряд факторов при выборе инструмента нечеткого сопоставления, такие как время и деньги, которые они готовы инвестировать, проект масштабируемости, который они имеют в виду, и характер их наборов данных. Это поможет им выбрать решение, которое позволит им максимально эффективно использовать свои данные.












