Projets pour freelances & agences web

Retrouvez l'actualité des projets pour freelances et agences web.

Scraping de sites d'annonces immobilières

Posté le 21/07/2021 à 04:00 - Budget : 500 - 1000

Objectif : développer un « robot » qui va scraper régulièrement des sites d’annonces immobilières en France (une fois par jour par exemple), pour filtrer les annonces non intéressantes et envoyer un mail avec les liens pour les annonces retenues.
Site à scraper :
- seloger.com
On complétera par la suite avec d’autres sites (par exemple, leboncoin)
Pour commencer, je pense que tous les extracts et enregistrements devront être effectués sur un drive sur le cloud (je ne sais pas si tu en connais quelques-uns comme dropbox par exemple). Ainsi, nous pourrions tous les deux y avoir accès.
Informations à scraper :
Pour commencer, je pense qu’il faudrait, une fois par jour par exemple, aller sur seloger ensuite rentrer les informations suivantes :
- Sélectionner : « acheter » c’est-à-dire biens en vente (et non pas en location)
- Localisation : Paris
- Trier par date => afin d’avoir les offres récentes (le but étant de ne pas scraper 2 fois la même annonce, donc si 200 nouvelles annonces ont été publiées depuis hier, le scrap d’aujourd’hui doit s’arrêter quand il aura scraper ces 200 annonces et qu’il retrouve par la suite une annonce qu’il a déjà scrapé la veille)
ð Voici le lien que j’obtiens : [Url visible pour les membres Pro]
Il faudrait ensuite, pour les nouvelles annonces, extraire les annonces suivant les colonnes suivantes (sous forme d’un CSV enregistré à chaque scrap sur le drive) :
1. Référence incluant la référence unique à chaque annonce
2. Arrondissement
3. Quartier
4. Titre annonce
5. Prix (P)
6. Surface (S)
7. Prix par m² (Psqm = P / S)
8. Description
9. Etage
10. Présence d’ascenseur ou pas (en vérifiant si les chaines de caractères suivantes existent dans la description par exemple : « sans ascenseur » ou « par escalier de service »)
11. Surface normalisée (Sm) :
a. si les chaines de caractères « carrez » ou « LC » n’existent pas dans la description alors Sm = S ;
b. dans le cas contraire, il faut choper le nombre qui est juste avant ces chaines de caractères qui sera égal à Sm
 exemple : si dans la description, on lit « un appartement de 30 m² au sol et 25 m² en loi carrez » ou « un appartement de 30 m² au sol et 25 m² LC » alors Sm = 25 m²
12. Prix normalisé (Pm) : il faut d’abord calculer une décote D (voir ci-dessous), le prix normalisé sera alors calculé selon la simple formule : Pm = P / (1 – D)
a. si l'appartement se situe au RDC (étage = 0), alors D = 25% (25% étant une hypothèse)
b. si l'appartement se situe au 1er étage, alors D = 10% (10% étant une hypothèse)
c. si l'appartement se situe à un étage autre que RDC ou 1er étage, alors :
 s'il n'y a pas d'ascenseur, il y aura une décote de 5% (idem hypothèse) par étage au-delà du 2ème étage
 dans le cas contraire, D = 0 (pas de décote)
13. Prix par m² normalisé : Psqmm = Pm / Sm
14. Station métro détectée d’abord à partir du titre, ensuite si aucune station n’est trouvée dans le titre, chercher dans la description (la liste des station est sur ce lien : [Url visible pour les membres Pro] )
 Si aucune station n’est détectée, alors rentrer « na »
15. Prix par m² dans la station trouvée (disponible sur ce lien : [Url visible pour les membres Pro] ), que l’on nommera Ps
16. Prime = (Psqmm / Ps) – 1, exprimée en %
 Si aucune station n’est détectée, alors rentrer « na » également pour la prime
17. Lien de l’annonce
ð Voici donc le tableau qu’il faudra enregistrer à chaque scrap
***
Voici un exemple à partir de cette annonce : [Url visible pour les membres Pro],4&places=%5b%7bci%3a750117%7d%5d&price=NaN%2f280000&projects=2&qsversion=1.0&surface=30%2fNaN&types=1,2&bd=ListToDetail
1. Référence : 006048E12N4V
2. Arrondissement : 75017
3. Quartier : Epinettes-Bessières
4. Titre annonce : Vente Appartement 41m² Paris 17ème - Epinettes-Bessières
5. Prix (P) : 226 800
6. Surface (S) : 41
7. Prix par m² (Psqm = P / S) : 5 532
8. Description : Porte de Saint Ouen, Duplex de 23.76 M² Loi Carrez et 41.29 m² au sol, avec vue sans vis à vis sur Sacré Coeur au 5ème et dernier étage avec ascenseur sur cour, très calme et ensoleillé.. Comprenant une pièce à vivre, cuisine indépendante, salle d'eau avec WC et une pièce en mezzanine. Faibles charges, double vitrage récent.. Garantie revente offerte (pour plus de renseignements contacter l'agence). Information: nous vous rappelons que suite à L'article L. 561-5 du Code monétaire et financier, la copie de la pièce d'identité de tous les visiteurs sera demandée, si vous n'avez pas de copie, une photo de votre pièce d'identité sera effectuée avant la visite. Nous vous remercions de faciliter cette démarche à votre conseiller.. 226800 euros (214000 euros Hors Honoraires) - Honoraires: 5.98 % TTC à la charge de l'acquéreur.
9. Etage : 5
10. Ascenseur : oui
11. Surface normalisée (Sm) : 23,76
12. Prix normalisé (Pm) : 226 800 (décote D = 0)
13. Prix par m² normalisé : 9 545
14. Station métro détectée : Porte de Saint-Ouen
15. Prix par m² dans la station trouvée : 7 911
16. Prime = 20,7%
17. Lien de l’annonce : [Url visible pour les membres Pro],4&places=%5b%7bci%3a750117%7d%5d&price=NaN%2f280000&projects=2&qsversion=1.0&surface=30%2fNaN&types=1,2&bd=ListToDetail
Elimination des annonces non intéressantes et envoi par mail des annonces retenues :
Si une annonces intègre une des conditions suivantes, elle sera automatiquement éliminée :
 Eliminer les annonces dont la description contient une des chaines de caractères suivantes : « senior », « sénior », « hespérides », « nue-propriété », « nue-propriete », « vedette », « péniche », « viager », « résidence de service », « résidence service », « résidences avec service » « résidence avec service » « amaré » « amarré » « sanibroyeur » => on pourra en rajouter d’autres plus tard s’il le faut
 Eliminer les annonces où la donnée de la colonne Prime est :
o égal à « na » ; ou
o supérieure à zéro
Pour les annonces non éliminées, envoyer un mail avec les liens correspondant.

Accéder à la fiche du projet

Autres projets susceptibles de vous intéresser