doku:αΩ « Wikidd »

des 𝞹-pes, du sudo maso & la main sur l'hacker !

User Tools

Site Tools


prog:web:wikipedia-api

Wikipedia API

Trouver des pages par mot-clé

Admettons qu'on s'intéresse aux pages qui font référence aux baleines. On devrait toujours (et plus) s'intéresser aux baleines.

En passant par mon utilitaire de requête HTTP.py :

$ HTTP.py https://en.wikipedia.org/api/rest_v1/page/related/whales \
| jq '.response.body.pages[]|.pageid,.title,.revision'
 
[...]
7965463
"List_of_cetaceans"
"1002096877"
11367038
"List_of_mammals_of_Antarctica"
"995764825"
17122243
"Aetiocetus"
"981516167"

Plus classiquement avec curl qui supporte bien sûr le chaînage avec jq :

$ curl https://en.wikipedia.org/api/rest_v1/page/related/whales -L | jq keys
[
  "pages"
]
$ HTTP.py https://en.wikipedia.org/api/rest_v1/page/related/whales \
| jq '.response.body.pages[]| [(.pageid|tostring),.title,.revision]|join(" ")'
 
"4925 Blue_whale 1000773789"
"7626 Cetacea 1002104636"
"33557 Whaling 1000805144"
"60257 Marine_mammal 1001033604"
"230361 Fin_whale 1001871936"
"231030 Baleen_whale 1002095943"
[...]

Pour récupérer les clefs d'une page :

$ HTTP.py https://en.wikipedia.org/api/rest_v1/page/related/whales | jq '.response.body.pages[0]|keys'
[
  "content_urls",
  "description",
  "description_source",
  "dir",
  "displaytitle",
  "extract",
  "extract_html",
  "index",
  "lang",
  "namespace",
  "normalizedtitle",
  "ns",
  "originalimage",
  "pageid",
  "revision",
  "thumbnail",
  "tid",
  "timestamp",
  "title",
  "titles",
  "type",
  "wikibase_item"
]

On peut ainsi cibler une page particulière (un titre en particulier, un id ou une autre info) en partant d'un mot clef.

Révision de pages

/home/duke/www/dukeart/wiki/data/pages/prog/web/wikipedia-api.txt · Last modified: 2021/01/24 20:03 (external edit)