Методика

Explainable Analytics

Прозрачное описание того, как система формирует выводы для гостиничного менеджмента.

1. Сбор и загрузка данных

  • Поддерживаются CSV/JSON, выгрузки площадок и dataset-коннекторы.
  • Пайплайн: загрузка -> валидация -> нормализация -> дедупликация -> хранение -> анализ -> агрегация.
  • Сохраняются исходный текст, очищенный текст и метаданные источника.

2. Предобработка текста

  • Удаляются технический шум, дубликаты пробелов и служебные символы.
  • Применяются нормализация регистра, токенизация и извлечение маркеров.
  • MVP ориентирован на русскоязычные отзывы с архитектурой расширения на другие языки.

3. Модель тональности

  • Гибридная explainable-логика: словари маркеров + обработка отрицаний + усилители + корректировка по rating.
  • Классы тональности: positive / neutral / negative.
  • Оценка отзыва используется как дополнительный сигнал, а не как единственный фактор.

4. Тематический анализ

  • Используется контролируемый словарь тем (чистота, сервис, расположение, check-in/out, Wi-Fi и др.).
  • Один отзыв может относиться к нескольким темам с отдельной topic-level тональностью.

5. Сегментация аудитории

  • Сегментация вероятностная, основана на текстовых и контекстных признаках.
  • Сегменты MVP: бизнес-гость, семья, пара, транзит, гость мероприятия, одиночный путешественник.
  • Система не определяет личные характеристики автора отзыва и не выполняет персональное профилирование.

6. Объяснимость результатов

  • Для каждого отзыва показываются признаки, классификация, уверенность и управленческая интерпретация.
  • Отдельно отображаются факты (обнаруженные сигналы), вероятностные выводы и рекомендации.

7. Рекомендации

  • Модуль рекомендаций rule-based и проверяемый: маркетинг, операционная деятельность, репутация, стратегия.
  • Каждая рекомендация содержит приоритет, ожидаемый эффект, трудоемкость и обоснование.

8. Ограничения модели

  • Система не является «магической нейросетью» и не гарантирует абсолютную точность.
  • Качество выводов напрямую зависит от полноты и достоверности входных данных.
  • Результаты предназначены для поддержки управленческих решений, а не для автоматических санкций по персоналу.