Данные

Задача о распределении путевок

Для задачи о распределении путевок СИБУР сгенерировал набор данных, который аналогичен реальным данным реальных сотрудников. В том числе, в данных присутствуют ошибки, которые есть в реальных данных:


Задача о предсказании закоксованности

Для построения моделей СИБУР предоставил исторические данные о температуре внутри реактора, данные о закоксованности и пробегах реактора. Тестовые данные не содержат временных меток и относятся к временному периоду после тренировочных данных.

  • train_data.csv.zip - тренировочные данные,
  • train_runs.csv - данные о прогонах (т.е. интервалах нормальной работы) реактора в тренировочном периоде,
  • train_coke.csv - данные о закоксованности для каждого датчика в тренировочном периоде,
  • sample_submission.csv - правильный формат решения для загрузки,
  • sibur_utils.py - полезные утилиты (визуализация, разбиение тренировочных данных на фреймы),
  • test_frames.zip - тестовые данные. Каждый файл относится к одному фрейму в тестовый период и содержит данные за непрерывный интервал продолжительностью в 24 часа. Для каждого фрейма и каждого датчика необходимо предсказать, будет ли закоксован датчик в следующую неделю после окончания фрейма. Предсказание должно быть бинарным, а точный момент, в который наступает закоксованность датчика, не имеет значения, важно только, что он находится в недельном интервале от окончания фрейма,
  • Sibur Challenge Baseline.ipynb - код простого baseline решения,
  • baseline_submission.csv - baseline решение
  • full_data.csv.zip - полные данные за тренировочный и тестовый периоды с временными метками,
  • full_runs.csv - полные данные о прогонах реактора,
  • full_coke.csv - полные данные о закоксованности для каждого датчика.