Описание проекта: При добавлении новой строки в базу данных производить анализ существующих строк и, с помощью нейросети, предлагать похожие элементы, чтобы избежать дублирование. База данных состоит из четырех столбцов: «Описание», «Завод изготовитель», «Расход», «Давление».
«Описание» - текстовая информация, «Завод изготовитель» - текстовая, «Расход» и «Давление» - числовая. Поиск схожести определяется по этим колонкам.
Для текста необходимо реализовать preprocessing. Алгоритм должен реагировать в «Описании» на синонимы. При нахождении схожих позиций по «Описанию» и «Заводу изготовителя», необходимо отобрать варианты по «Расходу» и «Давлению». Если при числовом отсеивании все варианты отсекаются, то необходимо оставить самые близкие по значению варианты.
Данные будут предоставлены в формате Excel. Код можно предоставить в формате .ipynb с обязательными комментариями к коду внутри ячеек.