Récupérer le contenu complet des articles d’un flux RSS avec Yahoo Pipes

juil 17, 2012 by

Récupérer le contenu complet des articles d’un flux RSS avec Yahoo Pipes

Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés ‘complets’, les auteurs souhaitant parfois inciter les lecteur à revenir sur le site Web initial… afin d’alimenter leur régie publicitaire.

Comportement tout à fait explicable et justifiable pour un site commercial … mais pas pratique du tout pour alimenter notre veille quotidienne!

Récupérer des flux RSS complets avec Super Full Feeds

Nous avions vu dans cet article l’usage de l’extension Super Full Feeds pour Google Reader, permettant de réaliser cette fonction de manière transparente. Très pratique, je l’utilise au quotidien, mais on ne peut l’emporter avec nous dans nos smartphones et tablettes.

Yahoo Pipes : gestion du contenant … et du contenu

Jusqu’à présent, nous nous sommes servis de Yahoo Pipes pour:

Cette fois-ci, nous mettons les mains dans le cambouis, et attaquons le contenu!

L’opérateur Loop pour Yahoo Pipes

Cet opérateur, utilisé en sortie d’un flux RSS (opérateur Feed, Union, ou Filter, par exemple, ie tout opérateur récupérant ou modifiant votre flux), permet de mettre en place une itération sur l’ensemble des articles d’un flux.

On peut par exemple :

  • Remplacer le contenu par un texte prédéfini (probablement totalement inutile pour notre veille),
  • Appliquer des filtres au sein de chaque page Web,
  • Découper des tables HTML et les transformer en flux RSS,
  • Enfin, utiliser Yahoo Pipes pour récupérer du contenu au sein l’article, pour le modifier, le compléter, ou le remplacer par tout ce que bon nous semble.

Documentation de Yahoo Pipes sur l’opérateur Loop.

L’opérateur Fetch Page pour Yahoo Pipes

Fetch Page permet la récupération du contenu des pages Web. Il nécessite la définition du début et de la fin de la portion qui vous intéresse dans la page Web.

Se repérer dans la page Web du site qui vous intéresse

L’opérateur Loop, combiné avec l’opérateur Fetch peuvent permetrent de récupérer systématiquement le contenu de la page Web pointée par le lien contenu dans chaque article du flux initial.

Toute la complexité de l’opération réside dans la sélection de la portion des pages qui vous intéresse. En effet, les articles d’un site web sont souvent accolés à des publicités, des extensions et autres calendriers qui sont ici inutiles.

Vous allez avoir besoin d‘afficher le code HTML de la page en question (sur Chrome, « Clic-Droit », puis « Afficher le contenu de la page »), pour repérer le début du texte, et la fin. Souvent des marqueurs intitulés « article », « begin content », etc.

Texte à placer dans l’opérateur Fetch Page (début de l’article, « From »)

 

Texte à placer dans Fetch Page (fin de l’article, « To »)

Ensuite, c’est une histoire d’essais et de patience pour trouver la partie ‘statique’ de la page web en question, à savoir ce qui permettra à Yahoo Pipes de trouver systématiquement le début et la fin de l’article. On finit par se repérer assez vite dans ces pages web.

C’est probablement plus simple à comprendre si vous avez déjà fait de la programmation … Bon courage!

 

Mise en place et utilisation

Une fois que vous avez identifié les balises pertinentes, vous pouvez renseigner les champs ‘From’ et ‘To’ de l’opérateur Loop, et commencer à tester votre nouveau Yahoo Pipes.

Cela va de soi, mais faites attention à respecter le droit d’auteur quant à l’utilisation du contenu récupéré.

Pour vous aider, je vous ai mâché le travail ici.

Pour aller plus loin

Quelques bons articles en anglais qui m’ont mis le pied à l’étrier dans ce thème :

 

1 Comment

  1. YP_amateur

    Bonjour,

    merci pour votre blog et pour la promotion de cet outil au fort potentiel qu’est YP.
    Néanmoins, en ce qui concerne ce post, l’usage du module « Fetch Page » est à délaisser au profit du module « XPATH Fetch Page ».
    En effet il devrait supplanter le premier. Voir ici : http://pipes.yqlblog.net/2012/04/24/new-module-xpath-fetch-page/

    Bien à vous et à vos lecteurs.

Trackbacks/Pingbacks

  1. Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes | Veille et Recherche | Scoop.it - [...] Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés ‘complets’, …
  2. Récupérer le contenu complet des articles d'un flux RSS avec Yahoo! Pipes | Veille, Publication et Curation 2.0 via les formats RSS et Atom | Scoop.it - [...] "L’opérateur Loop, combiné avec l’opérateur Fetch peuvent permetrent de récupérer systématiquement le contenu de la page Web pointée par …
  3. Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes | Blogs | Scoop.it - [...] Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés ‘complets’, …
  4. Récupérer le contenu complet des articles d'un flux RSS avec Yahoo! Pipes | ARCHIVE | Scoop.it - [...] "L’opérateur Loop, combiné avec l’opérateur Fetch peuvent permetrent de récupérer systématiquement le contenu de la page Web pointée par …
  5. Récupérer le contenu complet des articles d'un flux RSS avec ... | Intelligence Economique 64 | Scoop.it - [...] Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés 'complets', …
  6. Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes | Réseaux et médias sociaux, veille, technique et outils | Scoop.it - [...] Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés ‘complets’, …
  7. Récupérer le contenu complet des articles d’un flux RSS avec Yahoo Pipes | veille documentaire | Scoop.it - [...] Les flux RSS sont bien pratiques pour alimenter notre veille, mais malheureusement, ils ne sont pas toujours publiés ‘complets’, …
  8. Sémio/Veille/analyse | Pearltrees - [...] Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes [...]
  9. Veille : outils | Pearltrees - [...] Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes [...]
  10. Yahoo! Pipes : présentation » Stratégies digitales - [...] Récupérer le contenu complet des articles d’un flux RSS avec Yahoo Pipes http://veille-et-recherche.fr/recuperer-le-contenu-complet-des-articles-dun-flux-rss-avec-yahoo-pipe... [...]
  11. Rss | Pearltrees - [...] Récupérer le contenu complet des articles d'un flux RSS avec Yahoo Pipes [...]

Laisser un commentaire