1. Импорт данных
s1_import.sh
Скрипт загрузит CSV во внутреннее хранилище KnoDL и запомнит номер справочника.
Бесплатная CLI-версия KnoDL для тестирования алгоритма дедупликации и matching на ваших данных.
Если у вас ещё нет Docker:
docker pull knodlang/kdlfree:kdl
Перейдите в директорию с вашими CSV-файлами:
cd /path/to/your/data
docker run --rm -ti -v "$(pwd)":/opt/data knodlang/kdlfree:kdl
Вы попадёте в CLI KnoDL, ваши файлы будут видны в /opt/data.
Ваш CSV должен:
Подготовка файла:
s0_prepare_csv.sh
Скрипт попросит указать файл и устранит типичные проблемы CSV.
Если есть переносы строк внутри полей:
mlr --csv gsub -a '\n' ' ' "input.csv" > "output.csv"
s1_import.sh
Скрипт загрузит CSV во внутреннее хранилище KnoDL и запомнит номер справочника.
s2_dedup.sh
Сопоставление записей из двух разных справочников:
s3_match.sh
Для каждой записи из справочника A найдёт наиболее похожую из справочника B.
s9_export.sh
Экспортирует результаты в CSV.
Шаг 1 (до дедупликации):
1. iPhone 13 Pro
2. iPhone 13Pro
3. Samsung Galaxy S21
4. Samsung Galaxy S 21
5. MacBook Pro 16
Шаг 2 (KnoDL отметил дубли):
1. iPhone 13 Pro
2. iPhone 13Pro ← дубль с #1
3. Samsung Galaxy S21
4. Samsung Galaxy S 21 ← дубль с #3
5. MacBook Pro 16
Шаг 3 (после дедупликации):
1. iPhone 13 Pro
3. Samsung Galaxy S21
5. MacBook Pro 16
Дубли удалены: позиции 2 и 4.
| Скрипт | Описание |
|---|---|
| s0_prepare_csv.sh | Подготовка CSV к импорту |
| s1_import.sh | Импорт данных в KnoDL |
| s2_dedup.sh | Дедупликация справочника |
| s3_match.sh | Fuzzy matching двух справочников |
| s9_export.sh | Экспорт результатов в CSV |
| sh_select_dict.sh | Выбор справочника для работы |
| sh_weight_cut.sh | Настройка порога отсечки |
| Параметр | KnoDL Free (CLI) | KnoDL Commercial |
|---|---|---|
| Интерфейс | Командная строка (CLI) | REST API + UI |
| Объём данных | До 100K записей | Без ограничений |
| Интеграция | Ручной экспорт/импорт CSV | API для автоматизации |
| Поддержка | Community (GitHub issues) | SLA, email, phone |
| Production use | Запрещено лицензией | Разрешено |
| Цена | $0 | От $50K/год |
Нет. Free версия лицензирована только для:
Для production использования нужна коммерческая лицензия.
Free:
Commercial:
Если Free версия показала хорошую точность и вы готовы к интеграции в ваши системы - запросите коммерческий пилот.
Что включено:
Docker Hub: hub.docker.com/r/knodlang/kdlfree
Размер образа: 219 MB
Последнее обновление: ~1 месяц назад