Aller au contenu
Ce sujet

Messages recommandés

Salut salut,

J'ai commencé un projet qui vise à utiliser le machine learning pour prédire les résultats des matchs.
Pour le moment je commence juste  à collecter des données (historique, météo, géolocalisation (distance entre les tournois),....) et à regarder un peu les données.
Ça prend beaucoup de temps. Si des personnes sont motivées n'hésiter pas à me contacter.

 

EDIT:

Modifié par Actimel54

Partager ce message


Lien à poster
Partager sur d’autres sites

En gros le but c'est de construire une base de données en récupérant des informations un peu partout.

Une fois la base de données constituée, explorer ces données et tester des hypothèses dessus (ex: Hypothèse 1: les joueurs du top 20 perdent plus souvent contre des joueurs moins bien classé qu'eux en ATP250; Hypothèse 2: les joueurs droitier jouant peu souvent contre les gauches ont plus de probabilité de perdre contre un gaucher, ....) et les vérifier de manière empirique.

Et enfin développer un model qui fixe nos propres odds et les compares au book. Avec le machine-learning (intelligence artificielle qui apprend à partir de données) il est possible de répliquer de façon assez précise les odds des bookmakers sans pour autant comprendre ou connaitre leurs modèles. Une fois que l'on a trouvé des patterns bien précis que leur modèle ne prend pas en compte on prends la valeur.

Partager ce message


Lien à poster
Partager sur d’autres sites

En gros le but c'est de construire une base de données en récupérant des informations un peu partout.

Une fois la base de données constituée, explorer ces données et tester des hypothèses dessus (ex: Hypothèse 1: les joueurs du top 20 perdent plus souvent contre des joueurs moins bien classé qu'eux en ATP250; Hypothèse 2: les joueurs droitier jouant peu souvent contre les gauches ont plus de probabilité de perdre contre un gaucher, ....) et les vérifier de manière empirique.

Et enfin développer un model qui fixe nos propres odds et les compares au book. Avec le machine-learning (intelligence artificielle qui apprend à partir de données) il est possible de répliquer de façon assez précise les odds des bookmakers sans pour autant comprendre ou connaitre leurs modèles. Une fois que l'on a trouvé des patterns bien précis que leur modèle ne prend pas en compte on prends la valeur.

Tu vas utilises quel algo pour ton machine learning ? J'ai abordé en surface le réseau neuronal, adaboost...

Partager ce message


Lien à poster
Partager sur d’autres sites

Tu vas utilises quel algo pour ton machine learning ? J'ai abordé en surface le réseau neuronal, adaboost...

Le problème du tennis, est que le nombre de match est limités (environs 2600 par ans en ATP). C'est suffisant pour faire des tests d'hypothèses mais pour les neural-nets c'est difficile. Si le nombre de features est trop important le problème de l'overfitting se pose rapidement. De plus dans le cas du tennis de nombreuse donnée seront manquantes pour certains tournois. Du coup je pense utiliser un réseau Bayésien.

 

Partager ce message


Lien à poster
Partager sur d’autres sites

Hello,

 

Très intéressé si c'est pas trop tard.

J'ai pas un super-niveau en maths / stats mais je suis plutôt à l'aise en manipulation de données.

Je me fais violence pour essayer de me former  à lire des bouquins sur R tellement le machine-learning me passionne. J'ai découvert le truc avec ce blog https://teouchanalytics.wordpress.com/ 

Ce blog était assez génial au départ car le type était super-pédago et j'ai essayé de reproduire ce qu'il racontait. J'ai tenté le truc sur la Bundesliga et pour l'instant c'est pas trop mal : http://www.bettingexpert.com/fr/archiver/pronostic/2966620-bayer-leverkusen-ingolstadt 9.03% après 61 tips c'est assez encourageant.

Une chose est sûre c'est hyper-chronophage, je pensais mettre à profit la trêve estivale pour creuser mon modèle allemand et tenter d'en trouver des rentables sur les autres ligues de foot europeennes majeures mais pourquoi ne pas se lancer sur le tennis... Etre plusieurs à bosser sur le truc serait à mon avis un gros plus.

 

Partager ce message


Lien à poster
Partager sur d’autres sites

Hello,

 

Très intéressé si c'est pas trop tard.

J'ai pas un super-niveau en maths / stats mais je suis plutôt à l'aise en manipulation de données.

Je me fais violence pour essayer de me former  à lire des bouquins sur R tellement le machine-learning me passionne. J'ai découvert le truc avec ce blog https://teouchanalytics.wordpress.com/ 

Ce blog était assez génial au départ car le type était super-pédago et j'ai essayé de reproduire ce qu'il racontait. J'ai tenté le truc sur la Bundesliga et pour l'instant c'est pas trop mal : http://www.bettingexpert.com/fr/archiver/pronostic/2966620-bayer-leverkusen-ingolstadt 9.03% après 61 tips c'est assez encourageant.

Une chose est sûre c'est hyper-chronophage, je pensais mettre à profit la trêve estivale pour creuser mon modèle allemand et tenter d'en trouver des rentables sur les autres ligues de foot europeennes majeures mais pourquoi ne pas se lancer sur le tennis... Etre plusieurs à bosser sur le truc serait à mon avis un gros plus.

 

Travailler en groupe force un peu à respecter les deadlines.
De plus on économise du temps (mutualise les connaissances et l'apprentissage des erreurs).


Le plan se déroule en 3 parties:

 1) Création de la base de donnée

  • trouver les sources d'informations
  • définir un data model approprié
  • collecter de manière automatique les données

 2) Création et sélection du modèle

  • features engineering (modifier les données pour les rendrent utilisables par les modèles)
  • tester des modèles
  • sélectionner les modèles les plus performant

 

  3) Implémenter la stratégie pour qu'elle fonctionne en temps réel

 

 

Pour l'instant je n'y ai pas encore passer trop de temps j'essaye de collecter les données depuis le site de l'atp. Au vu du peu de temps que j'y passe ce ne sera pas pour tout de suite. mais un fois finis je reviendrais vers toi.

Partager ce message


Lien à poster
Partager sur d’autres sites

J'ai bientôt finis de récolter quelques données. Par contre je n'arrive pas à trouver la date et l'heure exacte du match ainsi que sa durée. Mais on peut déjà commencer à explorer le jeu de données.

Partager ce message


Lien à poster
Partager sur d’autres sites

Salut,

Content de voir que tu avances dans ton projet.
On peut en effet commencer à discuter du jeu de données. Honnêtement je n'ai pas du tout réfléchi au sujet préférant attendre que ça se concrétise...
Ce qui m'interpelle un peu c'est le "collecter de manière automatique les données", je m'attendais plus à une collecte manuelle sur une longue période (une année ?) et c'est à ce niveau que je pensais que tu "recrutais" des petites mains pour constituer ton jeu de données.

Au niveau des marchés à battre : Tu as aussi pensé à récupérer les cotes des bookies ? Tu te focalise sur un seul bookie ou sur plusieurs avec cote moyenne et cote max ? .fr ou .com ? Et sur quel type de paris penses-tu rechercher des modèles : uniquement vainqueur ou as-tu d'autres idées en tête ?

C'est pas les questions qui manquent tant le projet me semble ambitieux et à long terme mais c'est très intéressant en tout cas...

Partager ce message


Lien à poster
Partager sur d’autres sites

Pour la collecte j'ai fait un script qui récupère les données.

Pour les cotes j'en ai récupérer de bookees en .com (pour backtest les stratégies) et je vais faire un script pour récupérer ceux du futur.

Pour les autres questions, c'est un peu tout (book et types de paris)

Le but de travailler en groupe, c'est pour ne pas perdre son temps à faire les mêmes erreurs et améliorer ce qui fonctionne.

Partager ce message


Lien à poster
Partager sur d’autres sites

Déjà, bien joué pour la récupération automatiques des datas ! J'imagine que pour lier tes différentes sources ça doit être un peu galère mais d'entrée ça en impose et t'as pas l'air là pour rigoler :-)

Pas vraiment comme moi en fait. En ce moment je passe pas mal de temps sur le package caret et ses 200 modèles de prédictions avec la vague sensation que plus j'en sais moins j'en sais tellement le sujet est vaste. J'ai l'impression d'appuyer sur des boutons plus ou moins au pif et de jouer à l'apprenti-sorcier : des fois je chope un modèle qui semble fonctionner et c'est super rigolo !

Bref je ne pense pas qu'on joue dans la même catégorie mais si tu es prêt à partager ton dataset pour que je fasse mumuse avec de mon côté  dans mon bac à sable, ça sera avec grand plaisir. Si par hasard je tombe sur une piste prometteuse je serai tout fier de t'en faire part.

Partager ce message


Lien à poster
Partager sur d’autres sites

Tout ça à l'air intéressant.

Voici selon moi quelques données sur lesquelles ça vaut le coup de se pencher:

- antécédents blessures/forme

- points à défendre

- projected hold (break% adversaire+ service hold%)

- vitesse du court/surface préférée

Ca regorge d'infos ici: http://www.tennisabstract.com et ici: http://www.tennisabstract.com/blog/

Partager ce message


Lien à poster
Partager sur d’autres sites

Interesting sources for data:

- ATP world tour : http://www.atpworldtour.com/en/tournaments (data + qq stat basique 1991-)

- tennisabstract: http://www.tennisabstract.com/ (csv files: https://github.com/JeffSackmann/tennis_atp)(data(atpworldtour) + point by point data for qq match)

- matchstat:  https://matchstat.com/ (qq past bet365 odds)

- tennis-data: http://www.tennis-data.co.uk/alldata.php (csv files with match date and some odds from bookees, 2000-)

- flashscore:  http://www.flashscore.com/tennis/ (set stats and point by point data from recent games)

 

Modifié par Actimel54

Partager ce message


Lien à poster
Partager sur d’autres sites

C'est pas les données qui manquent !!

Malheureusement le lien vers les csv de tennisabstract est mort alors que c'est sans doute le plus intéressant avec celui de tennis-data. Si on parvient à lier ces deux sources on peut alors vraisemblablement enrichir chaque rencontre de tennis-data d'indicateurs issus de calculs fait avec les données de tennisabstract.

Au niveau de ces indicateurs je verrai bien une série basée sur les 52 dernières semaines précédent le match divisée en 3 familles selon le type de surface jouée, puis une série identique basée sur les 30 jours précédent le match en guise d'indicateurs de forme (sans différencier les surfaces pour éviter les NA et avec peut-être une règle de pondération à définir pour tenir compte des différences de niveau entre les joueurs).

On pourrait alors obtenir 3 datasets (un par type de surface) qui seraient des bonnes bases de travail pour aller dans R et voir si il y a moyen de battre les avg des bookies sur les marchés des gagnants.

Après je sais pas c'est peut-être un peu naïf et d'autres s'y sont sûrement essayé. Je n'y connais pas grand chose en tennis et ça implique déjà un gros boulot de saisie puisqu'il faut créer une table de liaison entre les deux sources.

My 2 cents...

 

 

Partager ce message


Lien à poster
Partager sur d’autres sites

La donnée qui me manque et qui me serait utile, c'est le % de win quand le/la joueur(se) est favori ou outsider. Sinon les stats de tennis abstract sont parfaite malgré l'austérité de leur site.

Partager ce message


Lien à poster
Partager sur d’autres sites

Créer un compte ou se connecter pour commenter

Vous devez être membre afin de pouvoir déposer un commentaire

Créer un compte

Créez un compte sur notre communauté. C’est facile !

Créer un nouveau compte

Se connecter

Vous avez déjà un compte ? Connectez-vous ici.

Connectez-vous maintenant

  • En ligne récemment   0 membre

    Aucun utilisateur enregistré regarde cette page.

Retour en haut de page
×