Методы нейросетевой кластеризации для прогнозирования исходов матчей по игровым видам спорта

Искусственный интеллект

Современные математические методы и уровень развития информационных технологий позволяют с высокой точностью прогнозировать исходы матчей в игровых видах спорта (футболе, хоккее, баскетболе, теннисе и других). В свою очередь, максимальная точность прогнозов, при правильном их использовании, способна принести максимальную прибыль в игре на ставках на исходы спортивных событий.

Сразу оговоримся, что под точностью подразумевается не совпадение однозначных предсказаний исходов (победа одной из команд или ничья) с реальными спортивными результатами, а статистическое соответствие между предсказанными вероятностями всех возможных исходов и частотами этих же исходов среди массы обобщенных спортивных результатов.

Не так давно (летом 2014 года) на сайте neuronus.com была опубликована статья об одном из самых интересных и перспективных подходов к предсказанию исходов матчей, связанном с применением методов нейросетевой кластеризации данных о предыгровых раскладах команд с целью расчета вероятностей того или иного исхода игры.

В общем случае, кластеризация – это способ интеллектуальной обработки значительного объема статистических данных с целью их распределения по кластерам. При этом каждый кластер должен содержать группы примеров с близкими по значению характеристиками объекта исследования, в нашем случае – статистическими показателями команд, участвующих в матче, прогноз на исход которого предстоит сделать. Если таких примеров в кластере оказалось достаточно много, то их можно обработать методами математической статистики и получить со сравнительно небольшой погрешностью вероятности всех возможных исходов любого матча, предыгровой расклад которого соответствует (наиболее близок) данному кластеру.

В качестве методов, использующихся для нейросетевой кластеризации, называются искусственные нейронные сети Кохонена; искусственные нейронные сети на основе радиально-базисных функций и аналоговые искусственные нейронные сети адаптивного резонанса.

Из теории искусственного интеллекта известно, что любые нейронные сети настраиваются с помощью специальных обучающих выборок. Эти выборки составляются на основе данных, полученных в результате продолжительных наблюдений – результатов матчей по футболу, хоккею и другим спортивным играм с соответствовавшими им предыгровыми раскладами.

Решение задачи прогнозирования исхода матча предложено получать в виде такого алгоритма действий:

  • Во-первых, требуется собрать достаточно большой массив статистических данных об имевших место результатах матчей в том же игровом виде спорта, а по возможности, в аналогичных по значимости турнирах и среди того же круга команд;
  • Во-вторых, следует выбрать класс нейронной сети, которую планируется использовать для решения поставленной задачи;
  • Далее выбрать готовое или создать новое информационно-программное обеспечение, реализующее нужный класс нейронной сети и адаптировать его под решение задачи прогнозирования исходов спортивных матчей;
  • Создать обучающую выборку и представить ее в формате, понимаемом информационно-программным обеспечением;
  • Настроить ход и параметры обучения;
  • Провести само обучение и проанализировать данные в полученных кластерах;
  • Далее можно использовать обученную нейронную сеть для предсказания исходов конкретных матчей и при этом продолжать ее обучение, когда появляется статистическая информация о новых сыгранных матчах.

Обратимся к отдельным аспектам и стадиям работы алгоритма, наиболее интересным болельщикам и прогнозистам. Вопросы, касающиеся нейронных сетей, оставим специалистам в области методов искусственного интеллекта.

Происхождение, количество и качество статистических данных.

Чем больше объем статистических данных для обучения, тем точнее будет решена задача. Но при этом важно исключить из рассмотрения зашумляющую информацию. Например, нельзя использовать в одной выборке статистику матчей по футболу и хоккею команд Английской футбольной премьер-лиги и второго дивизиона чемпионата Молдавии. Экспертная оценка специалиста, подбирающего матчи для выборки, крайне важна и существенно повлияет на точность прогнозирования результатов.

Какие же именно факторы следует учитывать при прогнозировании? Вот их неполный список: фактор поля (проходит ли игра на своем поле или на чужом, а может быть, на нейтральном или без зрителей, насколько высока разница в часовых поясах), оперативная информация о предыгровом раскладе (сила играющих команд с учетом данного фактора поля на текущий момент и динамика ее изменения в течение последнего ограниченного периода времени), статистика по нескольким последним личным встречам данной пары команд.

Дополнительно могут влиять на вероятности исходов матчей факторы, которые практически невозможно оценить численно: наличие травм или дисквалификаций ведущих спортсменов, увольнение или назначение тренеров, значимость игры с точки зрения турнирной ситуации.

Статистический анализ кластеров.

Для всех примеров (матчей) каждого кластера должны быть известны результаты игр. Таким образом, рассчитав средние значения исходов (количества выигрышей, поражений или ничьих к общему количеству матчей в кластере), можно получить вероятности исходов прогнозируемого матча. Поскольку вероятности нормированы (их сумма равна единице), нет смысла делать кластеры очень большими. Оптимальный их размер – около 200 примеров. Лучше рассчитывать вероятности на этих, наиболее близких к исследуемому, примерах.

Ограничения практического использования кластеров.

Ряд кластеров может оказаться небольшого размера. Вместо 200–300 примеров в нем могут быть 20–30. За основу предсказания исхода игры полученное статистическое обобщение, конечно, можно принять, однако слепо доверять ему, с точки зрения математической статистики, не следует.

На нашем сайте на страницах, посвященных прогнозированию результатов матчей, используется достаточно большое количество элементов интеллектуального анализа данных и нейросетевой кластеризации, в том числе упомянутые в данной статье. И следует заметить, что опыт их использования подтверждает перспективность данной группы методов.