Accueil Tour du Web Référencement SEO Scraper priceminister à partir d'un code barre EAN13 avec YQL

Scraper priceminister à partir d'un code barre EAN13 avec YQL

scrap de priceministerUne demande un peu étrange à l'origine de ce post. Si j'ai entre 200 et 300 produits culturels à écouler via un site e-commerce et que je ne veux pas perdre de temps à rédiger un descriptif détaillé pour chacun d'eux, quelles solutions s'offrent à moi ?

@Martin1975 m'a donné envie de replonger dans le YQL (Yahoo Queries langage) pour essayer de pomper les descriptifs produit sur Priceminister (le premier site m'étant venu à l'esprit pour trouver une référence en fonction de son EAN13)

Première étape : Faire la requête YQL en fonction du Xpath du résumé sur Priceminister

Soit je prend mon bugzilla et je fais un copier/coller du chemin Xpath. Sois j'affiche la source et je jette un oeil à la structure de la page. Faisons compliqué et jetons un oeil à la source.

Mouais un body (jusque là tout va bien !), des scripts par dizaine, et enfin je trouve la div qui m'intéresse qui a pour id : prd_information. Continuons, une div avec comme id : fp_info et mes <p> avec la class : edito. Seul le premier <p> m'intéresse alors voilà la tête de la requête YQL (exemple sur le bouquin de Claude Demeure sur le marketing, intéressant mais très scolaire au passage ) :

select * from html where url="http://www.priceminister.com/offer/buy/61255754/Demeure-Claude-Marketing-Livre.html" and xpath='//div/div[@id=\'prd_information\']/div[@id=\'fp_info\']/p[@class=\'edito\'][1]'

J'ai vraiment pas le temps de faire le détail de comment traiter le résultat mais voici quelques pistes :

En bas de ma console Yahoo j'ai une ligne titrée "The REST QUERY" avec ça dedans :

http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fwww.priceminister.com%2Foffer%2Fbuy%2F61255754%2FDemeure-Claude-Marketing-Livre.html%22%20and%20xpath%3D'%2F%2Fdiv%2Fdiv%5B%40id%3D%5C'prd_information%5C'%5D%2Fdiv%5B%40id%3D%5C'fp_info%5C'%5D%2Fp%5B%40class%3D%5C'edito%5C'%5D%5B1%5D'&diagnostics=true

Un petit GET la dessus et vous avez votre résultat. Un petit Imacros la dessus avec une liste de code barre pour aller chercher mon produit et copier l'url. Je modifie ma requête YQL et j'extract mon résultat dans le .csv ou fichier texte de mon choix.

J'essaierais de détailler ça un jour de pluie... En attendant on avait déjà publié quelque chose sur le YQL et ses fonctions

Pratique nan?

Partager cet article

 

Commentaires 

 
#1 Trevor 29-03-2011 12:05
Bien entendu tu réprimes ce genre de comportement car c'est mal de copier !
Citer
 
 
#2 martin1975 04-06-2011 14:21
Et voilà, me voici mêlé à des comportements des plus... euh... comment dit-on, déjà ? Peu importe. Je rejoins Trevor : copier-c'est mal. Ça peut être une source d'informations intéressante, voire très intéressante, mais reste tout de même cantonnée à des usages devant respecter le droit d'auteur, ou encore celui relatif aux bases de données. De toutes façons, avec Google Panda, PriceMinister (indépendamment du scrapping dont il peut souffrir) et les sites qui en repompent le contenu pour le republier ailleurs (pour cause de scrapping, ici, en revanche) risquent d'être pénalisés.
Citer
 

Ajouter un Commentaire

Pour profiter d'une ancre optimisée entre ton pseudo@ton ancre


Code de sécurité
Rafraîchir

Enregistrement




Sujets au hasard

Twitter

09 Février 2012

http://t.co/6RvCdvr5

30 Janvier 2012

Bon allez hop ! on se remet un peu à twitter

28 Décembre 2011

Enfin un peu de temps pour passer sur twitter. 1 mois à rattraper !

21 Décembre 2011

@Papilouve Oui en autre. Mais il y a tellement d'autres succulentes recettes de par les Vosges !

21 Décembre 2011

Regrette sa lorraine natale pour profiter de la neige :-(

NGCW - Tous les billets