Numéro du 01 juillet 2024

Monday, 1 July 2024 00:00 UTC

L'édito de ElsaBester — Il paraît que l'année 2024 est une année électorale record dans le monde. Dans le mouvement Wikimédia, on peut affirmer sans se tromper qu'on vote beaucoup et pas que cette année d'ailleurs. Deux brèves dans ce numéro sont consacrées à une élection passée et une autre en cours. Il est également question de publications d'universitaires sur différents aspects du mouvement.

Dans RAW, on bricole et on expérimente aussi. La section « Atelier » proposée par PAC2 (d · c · b) est consacrée à l'intelligence artificielle. Je vous laisse découvrir 😉.

Je tiens à rappeller aussi que le Mois de la wikification commence aujourd'hui et à remercier Fécamp №0² (d · c · b) pour la création de Violet Piercy proposée dans le dernier numéro.

J'espère que ce numéro vous plaira. Malheureusement, pas de focus ce mois-ci. Nous vous invitons à vous exprimer sur les différents enjeux de l'écosystème Wikimédia dans cette section et à participer de manière générale à la rédaction du prochain numéro ! Cela fait toujours plaisir de lire vos réactions dans la section du courrier du lectorat. D'ici-là, je vous souhaite de bonnes contributions !

Brèves

Résultats de la première élection du Comité de Coordination du Code de conduite universelle (U4C) — Du au , 1300 wikimédien(ne)s éligibles ont voté pour choisir parmi 37 candidat(e)s les membres de l'U4C chargé de faire respecter le Code de conduite universel du mouvement. Les résultats révèlent que seulement 3 sièges régionaux sur 8 ont été pourvus ainsi que 4 sièges globaux sur 8. La faible participation à cette élection ainsi que l'organisation du processus ont fait réagir des contributeurices sur les Bistros du et du , où on peut relever les remarques d'O.Taris :

« Il y a je crois plusieurs difficultés, notamment celle que, s'il existe une communauté Wikipédia en français dont les membres connaissent souvent les participants les plus actifs (pareil pour les autres langues et les autres projets), il n'y a pas vraiment de communauté Wikimédia internationale. Outre le fait de ne connaître aucun candidat avant le vote, une autre difficulté est de prendre connaissance des candidats et de leur position quand on ne lit pas l'anglais couramment. Et le processus depuis 2020 ou 2021 me parait horriblement bureaucratique, processus particulièrement complexe et éloigné des communautés. »

Il est à noter que :

« L'U4C peut siéger avec n'importe quel nombre de membres, mais aucune décision ou vote ne peut être pris par le Comité si le quorum de 50% (8 membres) de l'électorat (16 membres) n'est pas atteint. Lorsque le quorum n'est pas atteint, l'U4C continue à travailler sur les questions pour lesquelles aucun vote n'est nécessaire et convoque une élection extraordinaire si nécessaire.[1] »

D'autres discussions sur le déroulement de l'élection ont également eu lieu sur la page de discussion meta de l'élection. Le comité actuel, après s'être réuni, envisage une élection spéciale conformément à la charte pour remplir les autres sièges.

Un appel à commentaires est ouvert pour recueillir tout avis sur ce processus électoral passé afin de mieux organiser les prochaines échéances. Vous pouvez donner votre avis en français.

Comprendre l'expérience des éditeurs et lecteurs des peuples Aborigènes d'Australie sur WikipédiaWikimédia Australie a commandé une étude au département d'études critiques indigènes de l'université Macquarie. L'objectif était de comprendre l'expérience des éditeurs et lecteurs d'origine aborigène en Australie sur Wikipédia afin de mieux prendre la mesure des défis à relever pour une meilleure inclusion. Ce projet de recherche s'est appuyé sur une méthodologie de recherche indigéniste[2] et a utilisé trois méthodes de collecte de données qualitatives : des entretiens individuels semi-structurés, des cercles d'apprentissage et une enquête en ligne. Un participant parmi le groupe étudié relève :

« Cette plateforme [Wikipédia] a le potentiel de perturber les modes de production coloniaux, mais elle a aussi le potentiel de les perpétuer.[3],[4] »

Une annonce a été faite par le chapitre sur Diff où différents points ont été relevés : traduction en français.

La liste des docteurs honoris causa de l'université de Bordeaux sur Wikidata — Sur le réseau social Mastodon, le compte des bibliothèques universitaires de l'université Bordeaux-Montaigne célèbre 100 ans de docteurs honoris causa à l'université Bordeaux Montaigne[5]. Suite à la lecture du fil, le compte @[email protected], connu pour promouvoir la science ouverte, demande la publication des données en open data[6] :

« @bubmontaigne Bravo et merci pour ce thread ! Une idée : si vous pouviez publier la liste des docteurs honoris causa en open data, avec leur nationalité, discipline, etc., ça pourrait donner des stats super sympa. Merci d'avance ! »

Petit miracle, le compte des bibliothèques universitaires de Bordeaux publie effectivement les données en open data sur Wikidata :

« @enroweb Suite à votre suggestion, notre collègue Sylvain Machefert @symac a fait le nécessaire pour les #honoriscausa de @ubmontaigne postérieurs à 1970-1971 et la division de l'Université de Bordeaux en 3 universités distinctes, avec un ensemble de données en #opendata sur Wikidata @wikidata : https://w.wiki/AJgL

Visualisable également en timeline : http://ubxm.fr/honoriscausaopendata[7] »

  • Liste des docteurs honoris causa de l'université de Bordeaux-Montagne : https://w.wiki/AKSU

Quel a été l'impact du lancement de ChatGPT sur l'engagement sur Wikipedia ? — Dans le numéro du 8 juin, The Signpost présente en détail les résultats d'un article de recherche qui étudie l'effet du lancement de ChatGPT sur l'engagement des utilisateurices sur Wikipédia. Les auteurices de l'article ne trouvent aucun élément montrant une baisse de l'engagement des utilisateurices mais montrent que la croissance de Wikipédia a pu être légèrement ralentie.

Votez (ou pas).

Vote de ratification de la Charte du Mouvement Wikimédia — Le texte final de la Charte du Mouvement Wikimédia a été publié le dernier. La Charte définit les valeurs, les principes et la base politique des structures du Mouvement Wikimédia.

« Cette Charte s'applique à tout le monde et à toute entité officiellement associée au Mouvement Wikimédia : personne participant à titre individuel ou entité à titre institutionnel, entités du mouvement, projets, et espaces en ligne et hors ligne. »

Un vote de ratification est en cours depuis le et se termine le prochain.

Edit Check, un outil prometteur — Dans les actualités techniques du 18 juin, il est annoncé que l’outil de vérification du sourçage est désormais déployé sur un nouvel ensemble de Wikipédia. Il s'agit d'une fonctionnalité qui a pour but d'aider les nouvelles personnes contribuant à Wikipédia en les invitant quand elles ajoutent du nouveau contenu à un article de l'encyclopédie à ajouter une référence lorsqu'elles ne le font pas elles-mêmes et aussi et d'assister celles et ceux qui patrouillent. Lors d’un test sur onze wikis dont Wikipédia francophone, le nombre de références ajoutées a plus que doublé lorsque l’outil était affiché, passant pour la Wikipédia en français de 27,7% à 42,6%. Des résultats vraiment satisfaisants issus de ce premier test à découvrir dans cette publication.

Des biographies de femmes plus vite proposées à la suppression que celles des hommes ? — C'est ce qu'ont trouvé Khandaker Tasnim Huq et Giovanni Luca Ciampaglia de l'université du Maryland dans le processus de débats d'admissibilité sur la Wikipédia anglophone en rassemblant des données du au . Les résultats indiquent que les articles sur les femmes sont proposés plus rapidement à la suppression que ceux consacrés aux hommes suggérant une forte influence du genre dans le risque de suppression.

Dans cette étude, il est aussi observé comment des facteurs tels que le sexe du sujet, la « durée de vie » de l'article ainsi que son niveau d'avancement influencent les nominations aux suppressions. L'influence du genre sur le risque de nomination était négative jusqu'en 2006, année à partir de laquelle elle est devenue puis restée positive. Les femmes décédées, qu'elles soient historiques ou contemporaines présentent un risque élevé de suppression rapide dès les débuts de ce wiki, ce qui est toujours le cas. Les impacts parfois réduits des projets comme « Women in Red » pour réduire le biais de genre peuvent être étudiés en prenant aussi en compte ces facteurs.

Une conférence sur Wikipédia et les droits culturels — Le 18 juin, Virginie de Marco, de la Bibliothèque municipale de Lyon, a organisé une conférence avec deux invités pour, d'une part, dialoguer autour de l'histoire et l'évolution de Wikipédia avec Noé Gasparini (Noé) et, d'autre part, pour présenter la défense des droits culturels avec Michel Kneubühler. La conférence a été filmée et mise en ligne sur le site de la bibliothèque.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

L'atelier

L' atelier est une section consacrée au bricolage et aux expérimentations.

L'intelligence artificielle peut elle nous aider à comprendre le langage SPARQL ?

Depuis l'ouverture de ChatGPT en novembre 2022, beaucoup de contributeurices réfléchissent à la bonne manière d' utiliser l'intelligence artificielle générative dans le mouvement Wikimédia. Si l'utilisation des IA génératives dans l'édition des articles pose de nombreuses questions, on peut aussi imaginer de nombreux autres usages. Par exemple, écrire ou comprendre des requêtes SPARQL à Wikidata.

Parmi les outils d'intelligence artificielle générative, Perplexity AI se distingue de ses concurrents par son design. L'outil met l'accent sur le fait de citer ses sources et s'appuie sur une recherche Web plutôt que sur des données d'entraînement pour générer la réponse. Par ailleurs, Perplexity est accessible sans création de compte, ce qui est très pratique.

On peut essayer d'utiliser Perplexity pour expliquer une requête. Ça marche plutôt pas mal. Par exemple, dans la newsletter Wikidata du 3 juin, on trouve une requête complexe.

SELECT ?item ?itemLabel ?idnt ?numItems
WITH {
SELECT ?idnt (COUNT(DISTINCT(?item)) AS ?numItems) WHERE {
  ?item   wdt:P5696 ?idnt.
} 
GROUP BY ?idnt
} AS %1
WHERE {
  INCLUDE %1.
  ?item   wdt:P5696 ?idnt.
  FILTER(?numItems > 1)
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

Cliquez pour essayer !

On peut demander à Perplexity d'expliquer la requête[8] :

Explique moi cette requête Wikidata SPARQL

SELECT ?item ?itemLabel ?idnt ?numItems
WITH {
SELECT ?idnt (COUNT(DISTINCT(?item)) AS ?numItems) WHERE {
  ?item   wdt:P5696 ?idnt.
} 
GROUP BY ?idnt
} AS %1
WHERE {
  INCLUDE %1.
  ?item   wdt:P5696 ?idnt.
  FILTER(?numItems > 1)
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
}

Si l'explication est pertinente, Perplexity semble faire quelques erreurs, notamment pour trouver les libellés.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Perplexity
J'interroge régulièrement ChatGPT, Gemini et Copilot sur des requêtes SPARQL, avec des résultats peu concluants, surtout quand je leur demande d'en pondre une.
J'ai finalement compris comment utiliser le WITH d'une requête, pour apprendre en même temps qu'il devrait disparaître en même temps que Blazegraph. Je ne sais pas quand la transition sera faite (j'avais l'impression que ça se serait fait au début des années 2020) et QLever (d) me semble être un bon (le seul ?) candidat. - Simon Villeneuve 1 juillet 2024 à 16:26 (CEST)


 –
Rédigé/traduit par ElsaBester et PAC2
Citations originales
Notes
Références
  1. « Code de conduite universel/Comité de coordination/Charte »
  2. (en) L. I. Rigney, « Internationalism of an Aboriginal or Torres Strait Islander anti-colonial cultural critique of research methodologies: a guide to Indigenist research methodology and its principles », Research and development in higher education: advancing international perspectives, no 20,‎ , p. 629-636
  3. (en) “This platform [Wikipedia] has the potential to disrupt colonial modes of production and it also has the potential to perpetuate them.”
  4. (en) AlphaLemur, « Wikimedia australia first nations focus group report released », (consulté le )
  5. https://mastodon.social/@bubmontaigne/112553463624055798
  6. https://mastodon.social/@[email protected]/112568530634937517
  7. https://mastodon.social/@[email protected]/112568530634937517
  8. https://www.perplexity.ai/search/Explique-moi-cette-sa9ahlyGT0K0IG.jjswfWA
  9. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 30 juin 2024

Sunday, 30 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 29 juin 2024

Saturday, 29 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 28 juin 2024

Friday, 28 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 27 juin 2024

Thursday, 27 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 26 juin 2024

Wednesday, 26 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 25 juin 2024

Tuesday, 25 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 24 juin 2024

Monday, 24 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 23 juin 2024

Sunday, 23 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Numéro du 22 juin 2024

Saturday, 22 June 2024 00:00 UTC

L'édito de PAC2 — Ce numéro du est bien rempli avec beaucoup de brèves, le retour de la section « Focus » et surtout le retour de la section « Pages à créer du mois » (merci ElsaBester (d · c · b) 😉).

RAW a pour ambition d'être la gazette francophone du mouvement Wikimédia. N'hésitez pas à contribuer et surtout à parler de tous les projets du mouvement Wikimédia (Commons, LinguaLibre, Wikibooks, etc).

Brèves

Sous-classe ou instance de ? Comprenons nous l'ontologie de Wikidata ? — L'ontologie de Wikidata repose sur la distinction entre des instances (P31) et des sous-classes (P279). Si la distinction peut sembler intuitive, elle prête aussi à beaucoup de confusion. Par exemple, quand on dit « elles conduisent la même voiture », est-ce qu'on dit qu'elles conduisent le même modèle ou exactement la même voiture ? On rencontre la même ambiguïté dans les graphes de connaissance comme Wikidata. C'est ce qu'expliquent les chercheurs Atílio Dadalto, João Paulo Almeida, Claudenir Fonseca et Giancarlob Guizzardi dans un article intitulé « Evidence of large-scale conceptual disarray in multi-level taxonomies in Wikidata (d) Voir avec Reasonator » dans la revue Semantic Web (en).

« Les problèmes ont été caractérisés par un certain nombre d'anti-modèles[1], c'est-à-dire des structures de modèle sujettes à des erreurs récurrentes ; nous revenons ici plus en détail sur deux de ces anti-modèles, après plusieurs années de changements dans Wikidata. La prévalence continue des problèmes dans les taxonomies multi-niveaux de Wikidata suggère que de nouvelles lignes directrices et de nouveaux outils sont nécessaires pour atténuer le désordre conceptuel à grande échelle[2]. »

Par exemple, Q150 (« français ») est une instance de Q34770 (« langue ») mais c'est aussi une sous-classe de Q85380120 (« langue d'Europe du Sud ») qui est lui-même une sous-classe de Q34770 (« langue »). On se retrouve donc dans la situation incohérente où Q150 (« français ») est à la fois une instance et une sous-classe de Q34770 (« langue »). Les auteurs proposent de résoudre cette incohérence en distinguant le français de France et le français comme classe de langues : « Pour séparer les deux facettes d'une langue, nous avons besoin de deux éléments : l'un représentant la langue (disons le français de France (Q3083196)) en tant qu'instance de langue (ou de dialecte), et l'autre en tant que sous-classe de langue (ou de dialecte) (se référant à la classe des variantes du français, dont les instances comprennent le français du Québec (Q979914), le français suisse (Q1480152), et le français de France)[3]. »

Dans l'article, les auteurs quantifient le nombre d'occurrences de ces incohérences. Ils montrent que c'est un phénomène majeur lié à l'ambiguïté des concepts dans Wikidata.

Pour prévenir ces situations, les auteurs ont développé un outil web qui permet de tester les incohérences liées à un concept. Par exemple, on peut tester l'outil WAPA avec la langue française[4]. L'outil permet aussi de tester si l'ajout d'une nouvelle déclaration ajouterait une incohérence à l'ontologie de Wikidata. Par exemple, on peut montrer qu'ajouter Q46525 (« prix Pulitzer ») comme sous classe de Q11448906 (« prix scientifique ») créerait une nouvelle incohérence[5].

Celles et ceux qui souhaitent creuser la question peuvent consulter le Wikiprojet Ontologie sur Wikidata.

Résidences wikimédiennes — Après une année à l'Unité régionale de formation à l'information scientifique et technique de Bordeaux, Pyb rempile pour une année en tant que wikimédien en résidence. Il sera cette fois à l'Unité régionale de formation à l'information scientifique et technique Méditerranée. Il travaillera à nouveau sous le pseudonyme Pyb en résidence[6].

La recherche Google évolue — Le 10 mai, Liz Reid, la nouvelle responsable du moteur de recherche Google[7] a annoncé une évolution majeure de la recherche Google avec l'intégration de l'intelligence artificielle générative dans les résultats de recherche à travers une fonctionnalité dénommée Search Generative Experience[8]. Dans le Washington Post, Gerrit De Vynck et Cat Zakrzewski soulignent que « Ce changement risque d'ébranler les fondements mêmes du web[9],[10]. » Jusqu'à maintenant, Google était en effet une source de trafic majeur pour les sites producteurs de contenu. Dans le même article, Selena Deckelman, la responsable technique et produit de la fondation Wikimedia partage la même inquiétude. Selon elle, « Nous sommes actuellement dans une période où je pense que les profits poussent les gens dans une direction dont je ne suis pas sûr qu'elle soit très sensée[11]. » Elle ajoute : « C'est le moment de faire le point et de se demander quel est l'internet que nous voulons vraiment[12]. »

On en parle sur le bistro du 15 mai. Pronoia est assez perplexe face à cette évolution : « Il y a quelques mois, j’étais plutôt optimiste, Google ayant l’habitude d’utiliser Wikipédia, notamment dans les encarts des vidéos Youtube. Aujourd’hui je suis un peu perplexe.... Rien n’indique que Wikipédia fera partie des fameux heureux élus affichés en haut de la page. ».

The Signpost revient sur le sondage sur la mention du deadname des personnes trans — Dans l'édition du 16 mai, The Signpost revient en détail sur le sondage du mois de février concernant la mention du deadname.

Un nouvel outil pour analyser la liste des articles créés par un contributeur ou une contributrice.Categories of created articles est le dernier né d'une série d'outils permettant d'analyser la liste des articles créés par un contributeur ou une contributrice[13]. En s'appuyant sur l'API de xtools sur les pages créées[14] et la bibliothèque logicielle JavaScript wtf_wikipedia[15], il récupère la liste des catégories et affiche les catégories les plus fréquentes. L'outil est intégré au modèle {{Menu contributeur}}.

Des statistiques genrées pour Wikidata — Depuis quelques temps, l'outil GenderStats permet d'analyser la liste des articles créés par un ou une contributeurice[16]. Il manquait le même outil pour les éléments créés sur Wikidata. Wikidata's GenderStats récupère la liste des éléments créés grâce à l'API de xtools et récupère les valeurs de la propriété P21 grâce à la bibliothèque logicielle wikibase-sdk.

Au passage, l'outil Created items a été réparé et mis à jour. Il permet de récupérer les libellés des articles créés par un ou une contributeurice[17].

Wikivisibility — On en parlait dans RAW dès le dernier (Wikipédia:RAW/2023-09-01#orphelins). Des chercheurs travaillent sur un outil permettant de trouver comment relier des articles orphelins au reste de l'encyclopédie en s'appuyant sur les articles dans d'autres langues[18].

Segmentation sémantique — L'Institute for Strategic Dialogue (ISD) publie une étude intitulée « Identifying Sock-Puppets on Wikipedia: A Semantic Clustering Approach » (Traduction en français : « Identifier les marionnettes sur Wikipédia : Une approche par la segmentation sémantique »). L'idée c'est d'essayer d'identifier des groupes (ie clusters) de contributeurs et contributrices à partir de la sémantique de leur contributions et détecter des groupes faisant des contributions suspectes.

Les auteurs s'intéressent à l'article sur la guerre en Ukraine dans la Wikipedia anglophone et à 48 articles reliés.

Focus

RAW encourage les membres de la communauté à s'exprimer sur différents enjeux liés à l'écosystème Wikimedia. N'hésitez pas à proposer vos textes pour cette section. N'hésitez pas non plus à réagir dans la section du courrier du lectorat.

Wikidata et les données manquantes : réflexions libres
par PAC2

« Aucun jeu de données, aucune analyse, aucune visualisation, aucun modèle ou algorithme n'est le résultat du travail d'une seule personne. Le féminisme des données peut nous rappeler qu'avant d'avoir des données, il y a des personnes - des personnes qui offrent leur expérience pour qu'elle soit comptée et analysée, des personnes qui effectuent ce comptage et cette analyse, des personnes qui visualisent les données et promeuvent les résultats d'un projet particulier, et des personnes qui utilisent le produit en fin de compte. Il y a aussi, toujours, des personnes qui ne sont pas comptées - pour le meilleur ou pour le pire.- D'Ignazio et Klein 2020[19]. »

Dans l'ouvrage Data Feminism (d) Voir avec Reasonator, Catherine D’Ignazio (d) Voir avec Reasonator et Lauren F. Klein (d) Voir avec Reasonator rappellent qu'il y a toujours des gens qui pour une bonne ou une mauvaise raison ne sont pas comptés. Wikidata est une base de données extraordinairement riche. Son modèle de données est particulièrement souple et bien pensé. Et pourtant, quand je travaille sur Wikidata, je pense toujours à cette réflexion de D'Ignazio et Klein : Qu'est ce qu'on ne compte pas dans Wikidata ? Qu'est-ce qui nous échappe ? Qu'est-ce qu'on n'arrive pas à « dataifier » ?

P21
A la recherche des cis

D'après la description, la propriété « Sexe ou genre  » (P21) accepte les modalités suivantes : masculin (Q6581097), féminin (Q6581072), intersexué (Q1097630), femme transgenre (Q1052281), homme transgenre (Q2449503), non-binaire (Q48270). De manière surprenante, on mélange l'identité de genre et la transidentité. Surtout, on traite de manière asymétrique les personnes cisgenres et les personnes transgenres.

En mai 2024, on trouve dans Wikidata 42 femme cis (d) Voir avec Reasonator[20] et 23 homme cis (d) Voir avec Reasonator[21].

La cisidentité est conçue comme la situation par défaut et n'est quasiment pas renseignée dans Wikidata.

P6553
les pronoms manquants

La propriété:P6553 permet d'indiquer dans chaque langue le pronom avec lequel une personne se fait appeler. Globalement, cette propriété n'est presque pas renseignée en français. Au 6 mai 2024, on compte cette donnée pour 7 hommes, 7 femmes et 11 personnes non binaires[22]. En anglais, on compte à peine quelques milliers de déclarations de cette propriété[23].

P91 où sont les hétéros ?

La propriété P91 permet de modéliser l'orientation sexuelle d'une personne. La description de la propriété prévient qu'il faut être prudent sur l'usage : « orientation sexuelle de la personne — à utiliser SI ET SEULEMENT SI la personne en question l'a clairement indiqué elle-même ou si cela a été largement admis par les historiens après sa mort ».

En mai 2024, on ne trouve dans Wikidata que 352 êtres humains avec comme orientation sexuelle l'hétérosexualité[24].

Il n'y a pas de solutions simples à ces problèmes complexes. Les biais culturels encodés dans Wikidata reflètent les biais culturels de nos sociétés et s'expliquent largement par les biais des sources. On trouve généralement peu de sources pour expliquer qu'une personne est cisgenre, hétérosexuelle ou encore qu'elle préfère l'utilisation du pronom il ou elle. La symétrie de traitement entre cisgenres et transgenres ou entre l'hétérosexualité et homosexualité n'est sans doute pas tout à fait possible. Quoiqu'il en soit, quand on utilise ces données de manière statistique, par exemple pour faire des statistiques sur les articles créés par un contributeur ou une contributrice[25] ou encore pour analyser les personnes mentionnées dans un article[26], il faut toujours garder une grande prudence.

Pages à créer du mois

Le retour des pages à créer du mois ! Enfin, ce retour sera pérenne ou pas en fonction de votre réactivité Émoticône. En espérant que les sujets proposés vous inspireront. Davantage de propositions pour des créations sur les projets frères sont ajoutées.

Sur Wikipédia

un motif de damier
Damier (motif).

Sur le Wiktionnaire

Le Wiktionnaire décrit un peu plus de 200 couleurs en français, mais bien moins dans les autres langues ! Par exemple, seulement 18 en grec, 14 en breton et deux en fon !

De nouvelles traductions sont à documenter dans ce mois : Projet du mois/06 2024.

Sur Wikiquote

Clarisse au sol, le visage inquiet, dans une prise de judo.
Clarisse Agbégnénou, triple médaillée olympique avec un des plus beaux palmarès du Judo féminin français : Clarisse Agbégnénou (c'est rouge, cliquez !).

Sur Wikidata

Idéalement, cette catégorie devrait être vide !

La catégorie liste les articles appelant le module:Suivi des biographies mais sans entrée sur Wikidata.

Pour vider la liste, il faut créer l'entrée Wikidata de ces articles ou associer l'article à l'entrée existante.

Événements

La conférence Wikimania 2024 a lieu en Pologne.

Ailleurs dans le Wikiverse

La page Wikipédia:RAW/Découvrir recense les infolettres et blogs relatifs à Wikimedia.

Courrier du lectorat

(Il nous fera plaisir de lire les messages déposés ici et, si nécessaire, d'y répondre dans les plus brefs délais.)

Sur les questions de genre

« De manière surprenante, on mélange l'identité de genre et la transidentité » dit @PAC2, mais c'est l'inverse qui m'eut surpris : sait-on quel pourcentage des contributeurices a spontanément ces schémas de « genrage » en tête, avec des vocabulaires/catégories relativement nouvelles ?

Dans le corpus numérisé de Google books, le mot « cisgenre » n'apparaît que vers 2001, ce qui signifie que seules les jeunes générations ont pu l'entendre pendant la période de leur formation intellectuelle. Et si ce n'est pas enseigné à l'école, les bases mêmes ne seront connues que par l'environnement culturel/médiatique des personnes, et je ne parierais pas sur leur grande diffusion actuellement.

Parler de « biais » me semble sous-estimer ce qui est en jeu : c'est la redéfinition de l'ontologie même du genre, inscrite dans les représentations et le langage, qui est en question. Difficile d'avoir une symétrie avec un corpus où les concepts et les termes n'apparaissent que depuis 20-25 ans et de manière limitée. D'ailleurs, je me suis demandé si on ne devrait pas autoriser des doublons linguistiques d'articles plutôt que de chercher des normes universelles : un suffixe au titre pour qualifier le mode rédactionnel, un gadget en préférences pour rediriger automatiquement vers le mode voulu, et on laisse expérimenter les nouvelles formes de catégorie/langage. --Fabius Lector (discuter) 1 juin 2024 à 13:30 (CEST)

Bonjour Fabius Lector. Je suis en effet séduit par la proposition à la fin de votre commentaire. Surtout que cela me rappelle ce qu'en disait récemment Arthur Perret dans ce billet (paragraphes 39 à 43) mentionné dans le RAW d'avril. À quand un Wikipédia multiformats ? J'avoue ne pas avoir réfléchi en profondeur sur le sujet mais j'ai l'impression que ça pourrait aider à éviter certains conflits ou faire avec certains cas comme ici. Cela violerait-il certains de nos PF et règles ? À creuser. Avons-nous déjà des exemples prometteurs (à part l'expérimentation d'Arthur Perret) sur le web ? --ElsaBester (discuter) 1 juin 2024 à 18:48 (CEST)
Bonjour @ElsaBester, en fait, j'y ai pensé en découvrant cet ancien débat concernant le hockey avec des québecois contestant la prééminence du français de France. Peut-être y aurait-il un intérêt plus général à autoriser des doublons pour des variantes linguistiques ne pouvant ou ne voulant entretenir un Wiki complet (cf. notamment des créoles à base lexicale française avec un statut de langue à part entière mais pas forcément les moyens d'un Wiki). Et je n'ai pas cherché mais il se pourrait que ça ait été discuté au niveau international, p.e. pour les variantes de l'anglais, les arabes dialectaux etc. Fabius Lector (discuter) 1 juin 2024 à 19:48 (CEST)
Bonjour Fabius Lector Émoticône. En ce qui concerne les doublons pour les variantes linguistiques, j'ai trouvé des discussions sur l'anglophone qui pourraient t'intéresser : w:en:Wikipedia:Village pump (idea lab)/Archive 12#English variants (dialects) et w:en:Wikipedia:Village pump (proposals)/Archive 65#Proposal for Wikipedia in American English. — ElsaBester (discuter) 9 juin 2024 à 09:48 (CEST)

 –
Rédigé/traduit par PAC2, ElsaBester
Citations originales
Notes
Références
  1. F. Brasileiro, J.P.A. Almeida, V.A. Carvalho and G. Guizzardi, Applying a multi-level modeling theory to assess taxonomic hierarchies in Wikidata, in: Proc. 25th International Conference Companion on World Wide Web, WWW ’16 Companion, International World Wide Web Conferences Steering Committee, (2016) , pp. 975–980. doi:10.1145/2872518.2891117.
  2. « The problems were characterized in terms of a number of anti-patterns [5], i.e., recurrent error-prone model structures; we now revisit two of these anti-patterns here in further detail, following several years of changes in Wikidata. The continued prevalence of the problems in Wikidata’s multi-level taxonomies suggests that further guidelines and tools are required to mitigate the large-scale conceptual disarray. » Traduction avec l'aide de DeepL.
  3. Traduit avec l'aide de DeepL : « To separate the two facets of a language, we need two items: one representing the language (say French of France (Q3083196)) as an instance of language (or dialect), and another as a subclass of language (or dialect) (referring to the class of French variants, whose instances include Quebec French (Q979914), Swiss French (Q1480152), and French of France). »
  4. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=existent&inputEntity=Q150&inputNewProperty=&inputNewEntity=
  5. http://atilioa.me/WikidataAntiPatternAnalyzer/results.html?analysis-option=new&inputEntity=Q46525&inputNewProperty=P279&inputNewEntity=Q11448906
  6. https://mamot.fr/@Pyb/112434332243536193
  7. https://www.theverge.com/2024/3/19/24105705/google-liz-reid-search-ai-sge-gemini
  8. https://blog.google/products/search/generative-ai-search/
  9. Traduit avec Deepl de « The shift stands to shake the very foundations of the web. »
  10. (en) « Web publishers brace for carnage as Google adds AI answers », The Washington Post,‎ (lire en ligne).
  11. « Now, we’re just in this moment where I think that the profits are driving people in a direction that I’m not sure makes a ton of sense ».
  12. « This is a moment to take stock of that and say, ‘What is the internet we actually want? »
  13. https://observablehq.com/collection/@pac02/pages-created
  14. https://xtools.wmcloud.org/api#/User%20API/get_UserApiPagesCreated
  15. Lien vers le code source : https://github.com/spencermountain/wtf_wikipedia. On peut aussi regarder le notebook https://observablehq.com/@pac02/hello-what-the-f-wikipedia pour explorer les possibilités de wtf_wikipedia.
  16. https://observablehq.com/@pac02/user-level-gender-statistics-for-wikipedia
  17. https://observablehq.com/@pac02/wikidatas-list-of-created-items
  18. L'outil est intégré dans Utilisateur:PAC2/Chouette, ce qui permet d'avoir le lien en bas de chaque page sur téléphone portable.
  19. Traduit avec DeepL de « No dataset or analysis or visualization or model or algorithm is the result of one person working alone. Data feminism can help to remind us that before there are data, there are people—people who offer up their experience to be counted and analyzed, people who perform that counting and analysis, people who visualize the data and promote the findings of any particular project, and people who use the product in the end. There are also, always, people who go uncounted—for better or for worse. » in (en) Catherine D'Ignazio et Lauren F. Klein, « Introduction: Why Data Science Needs Feminism », dans Data Feminism, MIT Press, (lire en ligne)
  20. Requête effectuée le 11 mai : https://w.wiki/A3PC
  21. Requête effectuée le 11 mai 2024 : https://w.wiki/A3PJ
  22. Source : https://w.wiki/9zvV
  23. Décompte des prénoms par genre en anglais : https://w.wiki/9zvN
  24. Requete effectuée le 11 mai 2024 : https://w.wiki/A3PY
  25. https://observablehq.com/@pac02/look-at-your-list-of-created-articles-through-wikidata
  26. https://observablehq.com/@pac02/articles-wikilinks-inspector
  27. https://www.wikimedia.fr/la-france-accueillera-la-wikimania-en-2026/

Retour sur la Viki’acadEMI 2024

Thursday, 23 May 2024 13:43 UTC

Du 5 au 9 février s’est déroulée la seconde édition de la Viki’acadEMI. Organisée conjointement par l’association Vikidia, l’association Wikimédia France et le CLEMI, cette action vise à sensibiliser des élèves du CM1 à la seconde à l’éducation aux médias et à l’information (EMI) grâce à la contribution sur Vikidia. Retour sur cette édition 2024 […]

L’article Retour sur la Viki’acadEMI 2024 est apparu en premier sur Wikimédia France.

Plus de 80 personnes représentant 60 institutions culturelles étaient présentes à la 5e édition de la journée Wikimédia culture et numérique organisée par Wikimédia France au sein de l’Institut National de l’Histoire de l’Art (INHA). Comme chaque année, cette journée a réuni les institutions culturelles sensibilisées au rôle des projets Wikimedia dans leurs stratégies numériques. […]

L’article Retour sur la 5e édition de la journée culture et numérique est apparu en premier sur Wikimédia France.

Avec plus de 10 500 athlètes et 4 400 athlètes paralympiques attendus au Jeux Olympiques de Paris 2024, les bénévoles de Wikimédia France ont du pain sur la planche. Entre la création et la mise à jour des articles Wikipédia, la prise de photo pour Wikimedia Commons et l’actualisation des palmarès sur Wikidata, l’été sera intense.  Cet […]

L’article Wikimédia France se prépare pour les Jeux Olympiques et Paralympiques est apparu en premier sur Wikimédia France.

Vikidia, l’encylopédie en ligne pour les enfants à partir de 8 ans, lance 7 vidéos tutorielles de 2 minutes. L’objectif : vous aidez à mieux comprendre son fonctionnement et y contribuer. https://upload.wikimedia.org/wikipedia/commons/transcoded/2/28/Bande_annonce_Vikitutos.webm/Bande_annonce_Vikitutos.webm.720p.vp9.webm En savoir plus Vikidia, l’encylopédie en ligne pour les enfants à partir de 8 ans, lance 7  vidéos tutorielles de 2 minutes. L’objectif […]

L’article Les Vikitutos : une série pour apprendre à se servir de Vikidia est apparu en premier sur Wikimédia France.

Comment déclarer mes dons pour 2024 ?

Thursday, 21 March 2024 14:47 UTC

Comment déclarer mes dons sur ma déclaration de revenus 2024 ? Vous avez fait un don en 2023 à Wikimédia France et vous ne savez pas comment remplir votre déclaration de revenus en 2024 ? Voici 3 questions-réponses pour vous aider. 1. Quelle est la date limite pour déposer ma déclaration ? Pour les déclarations […]

L’article Comment déclarer mes dons pour 2024 ? est apparu en premier sur Wikimédia France.

Le saviez-vous ? Le mouvement mondial Wikimédia, qui est à l’origine de Wikipédia, a désormais un logo sonore ! Ce logo permettra de reconnaître le contenu de Wikimédia quel que soit l’endroit où vous l’écoutez – lorsque vous posez une question à votre téléphone portable ou à votre haut-parleur intelligent, ou lorsque vous apprenez quelque […]

L’article Logo sonore : Le son de toutes les connaissances humaines est apparu en premier sur Wikimédia France.

De 1er novembre au 15 décembre 2023 a eu lieu la 2ème édition francophone de la wiki Science Competition. Plus de 1 000 photos ont été téléversées sur Wikimédia Commons pour valoriser la science sur les projets Wikimédia. Retour sur un concours qui a attiré chercheurs, amateurs et même des organismes de l’administration centrale française Un […]

L’article Wiki Science Competition, le concours photo qui aime la science est apparu en premier sur Wikimédia France.

Lettre annuelle de l’open content 2024

Thursday, 25 January 2024 18:06 UTC

Table des matières Edito Depuis de nombreuses années, un grand nombre d’institutions culturelles et patrimoniales dans le monde se sont engagées dans une dynamique d’exploration, d’anticipation et d’adaptation aux nouvelles technologies numériques et aux nouveaux usages d’Internet, tels que le recours aux réseaux sociaux et à la numérisation de contenus. Mais depuis le début des […]

L’article Lettre annuelle de l’open content 2024 est apparu en premier sur Wikimédia France.

 

Bellevue - La Terrasse
 

Depuis 2017, les archives des Hauts-de-Seine mettent en ligne le fonds de cartes postales anciennes (CPA). En octobre 2020, cela représente 9558 CPA provenant de la sous-série 9Fi réunissant les CPA de 1900 à 1944. Ces photos tombées dans le domaine public accompagnées de quelques métadonnées sont publiées sur le site d'Open Data des Hauts-de-Seine. Cela peut surprendre mais il y a quelques fonds de cartes postales et fonds photographiques sur les sites d'open data. C'est en fait une très bonne idée car ces sites sont adaptés à une réutilisation massive des données, contrairement aux sites des archives qui ne sont pas faits pour récupérer des centaines ou milliers de documents d'un seul coup.

Suite à cette découverte, j'ai importé un peu plus de 200 photos de la revue municipale de Marseille des années 1930, une collection de cartes postales de la ville de Brocas dans les Landes, avant de m'attaquer à ce gros fonds.

Dans ce billet de blog, je souhaite vous montrer ma méthode qui est adaptée aux personnes, comme moi, qui ne savent pas se servir de l'API, coder en Python, etc. Je commence par récupérer les données en format CSV ou EXCEL afin de les visualiser dans un tableur. 

1. Télécharger les images

La première étape consiste à récupérer les images. Pour cela j'utilise l'extension Simple mass downloader qui existe en version Firefox et Chrome. Il suffit de copier les urls du csv dans l'extension :

  1. copier les liens
  2. lancer le logiciel
  3. onglet Download list 
  4. menu Hamburger Import URLs from clipboard 
  5. Lancer la sauvegarde en cliquant sur start selected

Dans le cas des archives des Hauts-de-Seine, j'atteins assez vite le quota quotidien de requêtes qui permet de télécharger environ 3000 fichiers. Tous les fichiers téléchargés iront dans le dossier Téléchargements si vous utilisez Windows.

Les fichiers n'ont pas d'extension, j'utilise le logiciel Advanced Renamer pour rajouter l'extension jpg (<Name>.jpg).

Enfin dans le tableur, il faut indiquer l'emplacement des fichiers en remplaçant https://opendata.hauts-de-seine.fr/api/v2/catalog/datasets/cartes-postales/files/ par le répertoire où sont stockés vos fichiers.

2. Mettre en forme les données

Un travail de mise en forme des données est nécessaire. 

2.1 Coordonnées géographiques

Pour les coordonnées, je crée une colonne avec la formule de LibreOffice Calc : CONCATENER("{{Object location|";B2;"}}"). Puis je fais un collage spécial du texte dans une autre colonne (Pattypan ne semblant pas comprendre les cellules avec des formules) et enfin je remplace la virgule par un pipe ( | ).

2.2 Identifiants

Il peut également être nécessaire dans certains cas de retravailler les identifiants qui sont de la forme 9FI/ANT_1, 9FI/ANT_15, 9FI/ANT_153, ce qui ne peut pas se trier correctement. Dans une autre colonne je copie le contenu, puis supprime tout sauf les chiffres à l'aide d'une expression régulière dans Rechercher/Remplacer : (.......)_ par rien. Puis dans Notepad++, j'ajoute les zéros manquants : \n(..)\r par \n0$1\r puis \n(.)\r par \n00$1\r

2.3 Noms des fichiers

Wikimedia Commons ne souhaite pas de titres incompréhensibles du type 2e8e8c525c2ae4c9f983c64e725ef047.jpg ou 9FI/ANT_15.jpg. Il faut donc créer un titre si possible simple mais explicite et précis. Avec la commande CONCATENER je créé les nouveaux titres ainsi : 
Carte postale - VILLE - TITRE - IDENTIFIANT.jpg.
L'ajout de l'identifiant permet d'éviter d'avoir des titres identiques, ce qui n'est pas possible sur Wikimedia Commons.
 
Attention le titre ne doit pas contenir de crochets et ne doit pas être trop long. Dans le cas contraire, le logiciel d'import des données arrêtera le téléchargement. La commande NBCAR permet de compter le nombre de caractères d'une cellule et ainsi rapidement détecter les titres très longs. La documentation de MediaWiki n'indique pas le nombre de caractères limite mais parle d'une limite de 255 bytes. Des tests sont nécessaires pour savoir à quoi cela correspond en caractères, mais de toute façon il est préférable d'utiliser des noms de fichier pas trop longs dans MediaWiki.

3. Importer les données

Pour cette phase j'utilise Pattypan. La première étape du logiciel consiste à Générer un tableau. Importez les photos, sélectionnez le modèle MediaWiki que vous souhaitez utiliser (dans mon cas il s'agit de Template:Photograph) puis indiquez les champs à remplir par défaut :

  • Photographer : {{unknown|author}}
  • Title : {{fr|Carte postale des Hauts-de-Seine}}
  • Institution : {{institution:Archives départementales des Hauts-de-Seine}}
  • Source : https://data.opendatasoft.com/explore/dataset/fr-219200730-cartes-postales-anciennes%40hauts-de-seine/information/
  • Licence : {{licence ouverte}}

Et je coche les champs Description, Date, Accession number et Partnership pour que Pattypan remplisse ces champs à l'aide des données dans le tableur. Vous obtenez un tableau de ce type avec des colonnes pré-remplies et d'autres à remplir à l'aide des données provenant des archives départementales :


Partnership va servir à indiquer la géolocalisation. Pour cela, il faut aller dans le 2e onglet Template du tableau créé par Pattypan afin de déplacer ce modèle. Cet onglet peut sembler vide mais en agrandissant la taille des cellules on voit le code des modèles de Wikimedia Commons. Le fonctionnement de cet onglet n'étant pas documenté, je ne sais pas exactement comment il fonctionne et pourquoi le contenu est dupliqué dans de nombreuses cellules. Faites donc le changement dans toutes les cellules.

'=={{int:filedesc}}==
{{Photograph
 |photographer = ${photographer}
 |title = ${title}
 |description = ${description}
 |depicted people =
 |depicted place =
 |date = ${date}
 |medium =
 |dimensions =
 |institution = ${institution}
 |department =
 |references =
 |object history =
 |exhibition history =
 |credit line =
 |inscriptions =
 |notes =
 |accession number = ${accession_number}
 |source = ${source}
 |permission =
 |other_versions =
}}
${partnership}
=={{int:license-header}}==
${license}

<#if categories ? has_content>
<#list categories ? split(";") as category>
[[Category:${category?trim}]]
</#list>
<#else>{{subst:unc}}
</#if>

Une fois le travail de mise en forme des données terminé, vous pouvez passer à la 2e étape de Pattypan qui s'intitule Valider et envoyer.

À l'heure actuelle, le logiciel s'arrête de téléverser les photos sans afficher le moindre message d'erreur s'il rencontre un problème. Par contre, il se contente de zapper l'import dans deux cas : s'il détecte que le fichier a déjà été importé et si le nom est déjà utilisé.

Je télécharge les photos dans la catégorie Collections of Archives départementales des Hauts-de-Seine de Wikimedia Commons, ainsi que dans une des catégories de Postcards of Hauts-de-Seine (Postcards in Meudon, Suresnes, etc.) Il est sans doute possible d'ajouter des catégories en utilisant les thèmes associés provenant des archives.

Les cartes postales géolocalisées peuvent être visualisées dans Wikimedia maps.


4. Dernières retouches

Quatre outils peuvent servir pour affiner la catégorisation et les données :

4.1 Fichiers manquants

À la fin de l'import, il y avait sur Wikimedia Commons un millier de cartes postales en moins que sur le site des Hauts-de-Seine. Des fichiers ont dû se perdre lors du téléchargement des milliers de photos. Pour identifier rapidement les fichiers manquants, j'ai utilisé un outil de comparaison de listes en lui demandant de comparer les noms de fichiers.

4.2 Remplacer et déplacer un modèle

Visual File Change va notamment me permettre de corriger une erreur faite lors des premiers imports en utilisant le modèle de coordonnées géographiques adéquat et en le déplaçant. L'expression régulière consister à rechercher :

/=={{int:license-header}}==\n\{\{licence ouverte\}\}\{\{location\|([^\|]+)\|([^\|]+)\}\}/ 

Et remplacer par :

{{Object location|$1|$2}}

=={{int:license-header}}==
{{licence ouverte}}

4.3 Affiner la catégorisation

Visual File Change peut également servir à catégoriser les CPA à partir de termes inclus dans le nom du fichier. Il est possible de faire des recherches du type :

intitle:"train" incategory:"Collections of Archives départementales des Hauts-de-Seine"

Puis d'ajouter la catégorie souhaitée :

Trois nouvelles résidences wikimédiennes en 2024 !

Friday, 12 January 2024 14:49 UTC

Dans la continuité du partenariat entre Wikimédia France et le Ministère de l’Enseignement Supérieur et de la Recherche (MESR), de nouvelles résidences prendront place à partir du 1er mars 2024 dans trois nouvelles Unités de Formation à l’Information Scientifique et Technique (URFIST)  :Lyon, Méditerranée (Nice) et Strasbourg, pour une durée d’un an. Qu’est-ce qu’une résidence […]

L’article Trois nouvelles résidences wikimédiennes en 2024 ! est apparu en premier sur Wikimédia France.

On parle de nous

Tuesday, 26 December 2023 14:21 UTC

Un coup d’œil sur les derniers articles parus dans la presse sur les projets soutenus par Wikimédia France. [POP Café numérique- février 2024] Wikipédia, la fiabilité de l’information se construit En savoir plus Rémy est directeur exécutif de l’association Wikimedia France depuis 2018, il a notamment lancé le projet Lingua libre pour contribuer à l’oral. […]

L’article On parle de nous est apparu en premier sur Wikimédia France.

33 millions de fichiers sur Commons, et après ?

Saturday, 25 March 2023 10:46 UTC

Wikimedia Commons, c’est 33 millions de fichiers. Beaucoup de ressources sont consacrées à augmenter ce nombre : contributeurs prenant de nombreuses photos, développement d’outils de versement automatique depuis Flickr, financement d’appareils-photos, studios et déplacements, organisation de concours avec prix (Wiki Loves Africa, Wiki Loves Earth, Wiki Loves Monuments) ou non (Wiki Takes, Opérations Libres), partenariats de versement des collections d’institutions culturelles, etc.

Je crois que Wikimedia Commons est un projet à part entière et plus un simple dépôt commun aux différentes versions linguistiques de Wikipédia (et ses projets-frères). Toutefois, en l’état actuel de la navigation est assez pauvre. Le plus simple pour trouver une image est de passer par une recherche Google plutôt que par l’outil de recherche interne, et l’arborescence des catégories est parfois obscure dans sa logique, sans compter qu’elle est multilingue au mauvais sens du terme : à tout moment, vous pouvez tomber dans une sous-catégorie dans une langue que vous ne maîtrisez pas. S’il est, je crois, urgent de réfléchir et implémenter une vraie navigation dans Commons (via la vraie gestion du multilingue, la possibilité d’afficher à la fois les images d’une catégorie et de ses sous-catégories, etc), en attendant, la meilleure manière de valoriser les fichiers de Commons est encore de les utiliser dans les autres projets Wikimedia.

La réflexion autour de ce sujet est encore balbutiante. Les global metrics n’intègrent que « nombre de fichiers réutilisés », ne faisant pas la différence entre un fichier utilisé une fois et une centaine de fois. La plupart des rapports d’activité (FDC, This Month in GLAM, billets de blog) ne comptent que le nombre de fichiers versés, sans regarder le reste.

Très peu d’actions existent en faveur de la valorisation des fichiers de Commons :

  • les nombreux outils de réutilisation de l’image du jour comme fond d’écran
  • les edit-a-thons ont parfois un volet « photographie et illustration », mais cela se limite aux nouveaux fichiers, pas au fond existant
  • certains programmes avec versement de fichiers veillent à l’aspect internationalisation avec des métadonnées au moins traduites en anglais
  • de nombreux versements (mais pas tous !) de collections institutionnelles inclus un travail préparatoire ou a posteriori de catégorisation des fichiers, mais assez peu de réflexion existe sur leur réutilisation
  • un atelier spécifiquement dédié à l’illustration d’articles Wikipédia grâce à un versement
  • des outils permettant de suggérer des fichiers à utiliser dans une version linguistique de Wikipédia basé sur leurs utilisations dans une autre langue

Que pourrait-on faire de plus pour mieux valoriser ces fichiers ? Quels sont les manques (outils, information, temps) qui nous manquent ?

Wikipédia a 15 ans

Thursday, 16 February 2023 12:14 UTC

Vous en avez sans doute entendu parler. Cet événement est l’occasion de revenir sur quelques usages de Wikipédia… en lui souhaitant un très joyeux anniversaire !

dm_009_wikipedia_a_15_ans

Crédit : Simon Gee Giraudot (Creative Commons By-Sa)

Action politique et biens communs en Catalogne

Tuesday, 14 February 2023 15:29 UTC

Le mois dernier, les médias ont abondamment montré et commenté la victoire électorale des militants de la mouvance «  Indignés  ». Ils ont en revanche plus parcimonieusement évoqué le programme, l’esprit et les convictions des responsables qui vont bientôt être aux commandes de Barcelone.
Le témoignage de l’universitaire Mayo Fuster Morell suggère que les valeurs et les pratiques du Libre ne sont pas étrangères à cette victoire, ce qui pourrait — rêvons un peu — servir d’exemple à d’autres pays européens confrontés à l’austérité. Ce relatif investissement du Libre dans le champ de la politique a de quoi nous réjouir  : voilà longtemps que le Libre n’est pas seulement du code ou de l’art. Culture et objets libres gagnent aussi du terrain désormais. À Barcelone, on en est peut-être au libre citoyen.

Les communs à la conquête de Barcelone  !

Une victoire de David sur Goliath

Par Mayo Fuster Morell
Article original  : http://www.onlinecreation.info/archives/1135
Traduction Framalang  : Piup, Obny, sebastienc, line, goofy, r0u

mayoFustellLe 24 mai, les candidats de la liste «  Barcelone en commun  » (Barcelona en Comú) ont remporté les élections municipales en réunissant sur leur nom un quart des suffrages exprimés. «  Maintenant Madrid  », une candidature aussi liée à l’éthique des communs, est devenue une force clé pour la gouvernance de la ville de Madrid. Ce ne sont que deux des nombreuses surprises survenues hier lors des élections municipales et régionales en Espagne. Ces villes pourraient donner le signal d’un changement politique plus vaste. Les résultats électoraux ont ouvert la voie à un scénario optimiste pour une chance de victoire aux élections nationales à la fin de cette année, ou même à un mandat plus ambitieux encore, une coalition européenne des pays du Sud contre l’austérité.

Irruption de candidatures citoyennes

Le Parti populaire et le Parti socialiste restent les principaux partis politiques, comme c’est le cas depuis la transition démocratique de la fin des années 70, mais le pouvoir politique habituel a encaissé une grosse claque. La part de ces deux formations a chuté de 65 % lors des précédentes élections il y a 4 ans à 52 % au niveau national. Le renouvellement ou plutôt le changement des forces politiques en présence a été provoqué […] par la création de nouveaux partis  : tel est le cas pour les «  Citoyens  », qui se sont imposés avec force comme un nouveau protagoniste de poids dans la vie politique. Cette irruption des candidatures citoyennes a été aussi impressionnante que rapide. Elle a contribué à l’augmentation d’au moins 5 points de la participation au scrutin.

Seulement quatre ans après que les Indignés du mouvement du 15 mai se sont mobilisés pour «  une vraie démocratie maintenant  » en opposition aux hommes politiques «  qui ne nous représentent pas  » et à la «  dictature des marchés  », l’impact de leur mouvement est désormais si visible qu’il ne peut plus être démenti. Les listes de candidature sont pleines de personnes venant du réseau des mouvements sociaux. Pour en donner une idée, Ada Colau, militante connue pour ses actions contre l’expulsion des activistes et des squatters va être le prochain maire de Barcelone. C’est l’ironie de l’Histoire  : une militante anti-expulsion «  expulse  » les politiciens traditionnels de la mairie. Si l’on regarde la trajectoire des leaders du mouvement, on peut également dire que le cycle a démarré avec le mouvement anti-mondialisation (l’origine de Colau ou de Pablo Iglesias, le leader de Podemos/Yes we can), mais qu’il a réussi à mobiliser une fois encore la génération qui s’est battue contre le régime de Franco pour ramener la démocratie en Espagne (c’est de là que vient Manuela Carmena de «  Madrid maintenant  », une juge en retraite et très probable future maire de Madrid).

En ce qui concerne leurs programmes, la première chose à souligner est la place centrale réservée aux plans d’urgence pour secourir les citoyens qui étouffent sous les politiques d’austérité, tels que la mise en œuvre de différentes variantes d’un revenu de base, et la révision de la privatisation des services publics. Un code d’éthique existe pour contrôler les personnels politique en ce qui concerne la transparence, la fin de leurs privilèges (par ex. une limitation des indemnités à 29 000 € par an) et leur engagement à soutenir les initiatives citoyennes.

Au-delà du poids politique, c’est fascinant d’un point de vue organisationnel. En moins d’un an et sans aucun lien avec les mondes politique, économique, judiciaire ni avec le pouvoir médiatique existant, des citoyens ordinaires joignant leurs forces ont été capables de conquérir des positions importantes dans le système politique. Une victoire de David contre Goliath. Pour cela, ils ont associé le financement participatif, les programmes collaboratifs, les assemblées de voisinage, et le vote en ligne. Ils ont aussi, comme le leader de Podemos, bâti leur succès sur la popularité obtenue par leur propre programme télé.

Que disait la chanson  ? «  Prenons d’abord Barcelone, puis nous prendrons Manhattan ?  » En effet, certains travaillent là-dessus. Une délégation d’activistes de New-York a parcouru l’Espagne pendant la campagne afin d’apprendre de cette expérience et «  d’exporter  » un tel soulèvement du peuple dans leurs propres villes. Il y a de nombreuses leçons et idées à en tirer. Voici quelques sources d’inspiration que je vous suggère d’envisager, pour démarrer un processus similaire dans d’autres pays.

L’effet CC

Un des combats citoyens (surtout chez les jeunes) qui a précédé et ensuite nourri le mouvement du 15 mai a vu le jour en réaction contre une loi imposée par le gouvernement, réprimant le partage en ligne et la culture libre (Loi Sinde de décembre 2010). Dans une large mesure, ce mouvement de culture collaborative sur le Web a réagi comme le fit Lessig en 2008, qui est passé des «  Creative Commons  » à «  Change Congress  » («  Changeons le Congrès  ») . Au départ concentré sur les politiques sectorielles en lien avec la propriété intellectuelle et la régulation d’Internet, il a évolué pour appréhender le fait que défendre ces libertés est nécessaire pour transformer le système politique dans son ensemble. Au cours de cette évolution, les modèles de la culture libre et du travail collaboratif sont devenus une voie à suivre pour organiser la protestation politique.

[…]

En somme, les secteurs ayant de l’expertise dans les méthodes de co-création et coopérant grâce aux ressources en ligne ont un grand potentiel politique.

 

Le modèle «  d’innovation cachée  » de Wikipédia

Même s’il existe de grandes innovations dans les structures, il faut que le discours soit «  simple  » voire «  strict  ». Mako Hill a étudié comment Wikipédia a pu réussir en 2001 alors que d’autres tentatives de création d’encyclopédie en ligne avaient échoué. Une de ses conclusions est que Wikipédia a adopté un concept très simple à comprendre, tout en étant très innovant dans son fonctionnement. Il s’est fermement accroché à la notion traditionnelle d’encyclopédie  : une idée vieille de plusieurs siècles qui est simple à comprendre. De la même façon, on peut dire la même chose ici. Le discours qui a pu faire grossir les votes en faveur d’un profond changement politique en Espagne n’est ni avant-gardiste ni particulièrement innovant, mais il est populaire, compréhensible par chacun et relié aux besoins fondamentaux. Quelques points se rapprochent de la démocratie radicale proche de Laclau et Mouffe. C’est un «  combat  » de bon sens, pour obtenir une hégémonie. Pendant ce temps, des modèles plus avant-gardistes, comme les nouveaux partis ayant un discours «  innovant  » et une identité sur Internet tels le Parti pirate ou le Parti X, sont pertinents en terme de conception d’organisation mais ne parviennent pas à mobiliser les votes du grand public (aux dernières élections européennes, le parti X a recueilli 0,64 % des voix). En somme, il faut des méthodes innovantes associées à un discours pour le peuple, en lien avec un programme portant sur les besoins fondamentaux.

La base et le sommet

Ces principes d’organisation ne sont ni du sommet vers la base, ni de la base vers le sommet, ils sont «  de la base et du sommet  ». Pour être plus précis  : «  un sommet facilement identifiable travaillant pour une base disséminée  ». Ces forces s’appuient sur des leaders forts, mais aussi sur le développement d’une base collaborative et libre d’agir. Un concept-clé est le «  débordement  ». Il se réfère à la capacité de perdre le contrôle du processus, et à la liberté d’agir laissée à ceux qui s’engagent dans le processus. L’augmentation de la créativité des actions et des soutiens hors du contrôle du «  parti  » semble être un des points pertinents dans le succès de ces méthodes (c’est le cas pour le mouvement de création graphique autour des candidatures). De plus, il n’existe pas de frontière précise entre qui est membre du «  parti  » et qui ne l’est pas, il n’y a pas de rituels pour dire qui est dedans et qui n’y est pas, c’est l’implication personnelle au travers de l’action qui permet d’être membre. Les leaders ont tout de même une présence forte, leurs visages sont devenus des symboles-clé du processus (c’est-à-dire que sur le bulletin de vote ne figure pas le logo du parti mais la photo du leader). Des symboles visuels sur un Internet visuel mais, même avec Internet, la télévision reste toujours un moyen-clé de communication. En particulier, l’association des leaders et de la télévision est un moyen-clé de communication vers les milieux populaires, ceux qui ne sont pas touchés par les mouvements sociaux de la classe moyenne relayés par Internet. La crédibilité des leaders se construit sur leur capacité à communiquer et sur un engagement social de longue date. Les candidatures féminines – peu importe leur âge – (les femmes sont en tête de liste dans des villes comme Barcelone, Madrid et Valence) ont une plus grande capacité à augmenter les votes car elles transmettent l’idée de changement et dirigent de façon plus démocratique. Comme le dit le prochain maire de Barcelone, Ada Colau (une Zapatiste d’origine)  : «  conduite par l’obéissance aux ordres du peuple  ». La position du leader est construite «  pour  » la base et non «  au-dessus  » d’elle. En somme, un leader social et très reconnaissable, mais une participation disséminée et non contrôlée.

Une fois encore, ce ne sont que trois visions «  impressionnistes  » du processus d’émancipation du peuple en Espagne. Il reste encore beaucoup à venir. 2015 est l’année du changement, cela continuera donc. En attendant, il est temps de fêter cela. Je vous laisse avec la rumba «  run run  » chantée par le prochain maire de Barcelone  :

defendreBienCommun
Ci-dessus, Ada Colau, dans un clip de campagne très joyeux. Le refrain de la rumba dit  : «  défendre le bien commun  ». Pour voir et entendre la vidéo sur YouTube  : https://www.youtube.com/watch?v=wB6NDWKDyKg

 

Ce texte est diffusé avec la licence d’origine  : CC BY-NC-SA 2.5 IT

Menaces sur les œuvres du domaine public

Tuesday, 14 February 2023 15:27 UTC

La numérisation des collections patrimoniales des musées devrait constituer une chance pour la diffusion de la culture. Trop souvent hélas, ce n’est pas le cas, à cause du copyfraud auquel se livrent les institutions. Comme l’a dit très justement Pier-Carl Langlais, le copyfraud est l’inverse du piratage : une revendication abusive de droits sur le domaine public pour en restreindre la réutilisation.

Les exemples de copyfraud ne manquaient déjà pas, mais le Reiss Engelhorn Museum de Mannheim en Allemagne a franchi cette semaine une ligne rouge en la matière. L’établissement a en effet décidé d’attaquer en justice la Wikimedia Foundation et Wikimedia Deuschland, pour la diffusion de 17 images d’œuvres du domaine public sur Wikimedia Commons. Depuis 2008, la Wikimedia Foundation a défini une position très claire à propos du copyfraud, en indiquant qu’elle ne reconnaissait pas la légitimité des restrictions rajoutées sur la réutilisation d’images en deux dimensions d’œuvres du domaine public. L’année suivante, une alerte sérieuse s’était produite lorsque le wikimédien Derrick Coetzee avait téléversé sur Wikimedia Commons plusieurs milliers d’images extraites du site de la National Portrait Gallery de Londres. Son geste dénonçait le fait qu’elle portait un copyright alors qu’elles correspondaient à des œuvres du domaine public . La National Portait Gallery avait alors agité la menace d’un procès, sans la mettre à exécution à la différence cette fois du musée Reiss Engelhorn.

Si l’on peut déplorer un tel comportement de la part d’une institution patrimoniale, ce sera peut-être aussi l’occasion pour un tribunal de se prononcer sur la légalité des pratiques de copyfraud. Comme le dit la fondation Wikimedia dans sa réponse au musée, la reproduction fidèle de tableaux ne crée pas une « nouvelle œuvre » et il est improbable que ces photographies satisfassent au critère de l’originalité, impliquant que le créateur imprime « l’empreinte de sa personnalité » dans son œuvre pour bénéficier d’une protection.

En France également, nombreux sont les établissements culturels se livrant à des pratiques de copyfraud. Le site Images d’art, lancé récemment par la Réunion des Musées Nationaux, comporte plus de 500 000 œuvres numérisées provenant de nombreux musées français. Mais toutes ces images portent le copyright du photographe les ayant réalisées, ce qui en interdit la réutilisation. Quelques institutions choisissent pourtant au contraire de diffuser librement leurs images et certaines comme le Musée des Augustins à Toulouse ou le Musée des Beaux Arts de Lyon ont engagé des partenariats avec Wikimedia France pour diffuser leurs images sur Wikipédia . Mais elles restent encore minoritaires.

Le plus inquiétant, c’est que la loi française risque bientôt d’évoluer pour légaliser les pratiques de copyfraud. Le recours au droit d’auteur par le musée Reiss Engelhorn reste juridiquement très fragile et la fondation Wikimédia peut encore affronter un procès avec des chances sérieuses de l’emporter. Mais la loi Valter, actuellement en cours d’adoption, s’apprête à consacrer la possibilité pour les établissements culturels de fixer des redevances de réutilisation sur les reproductions d’œuvres qu’elles produisent — y compris à partir des œuvres du domaine public —  en les assimilant à des données publiques.

Là où devant la justice allemande, on peut encore revendiquer le droit de réutiliser le domaine public librement, ce ne sera peut-être bientôt plus possible en France.

Lionel Maurel (Calimaq)

*  *  *  *  *

Wikimedia Foundation et Wikimedia Deutschland invitent instamment le musée Reiss Engelhorn à abandonner ses poursuites concernant des œuvres d’art du domaine public.

source : cet article du blog de Wikimedia
Traduction Framalang : KoS, goofy, Bromind, sebastien, r0u

Le 28 octobre, le musée Reiss Engelhorn de Mannheim, en Allemagne, a intenté un procès à la Wikimedia Foundation et ensuite à Wikimedia Deutschland, la branche allemande du mouvement international Wikimedia. L’objet en est une plainte pour copyright concernant 17 images d’œuvres d’art du musée qui relèvent du domaine public et qui ont été mises en ligne sur Wikimedia Commons. Wikimedia Foundation et Wikimedia Deutschland examinent la plainte et feront une réponse commune avant l’échéance fixée en décembre.

La Wikimedia Foundation et Wikimedia Deutschland maintiennent fermement leur engagement à rendre les œuvres publiques gratuites et libres d’accès. Les institutions publiques telles que les galeries et musées ont la même mission, et ont été des alliées historiques pour rendre accessibles à tous les connaissances du monde entier. Avec ce procès, le musée Reiss Engelhorn limite l’accès public à d’importantes œuvres culturelles qui seraient inaccessibles autrement pour le reste du monde.

Les peintures, portraits et autres œuvres d’art concernés par ce procès sont exposés au sein du musée Reiss Engelhorn, mais sont déjà présents dans le domaine public. Quoi qu’il en soit, la loi allemande sur le droit d’auteur peut s’appliquer aux photographies des œuvres qui appartiennent au domaine public, selon différents critères incluant l’artiste créateur de l’œuvre lui-même, la compétence et les efforts qui ont été mis dans la photographie, la créativité et l’originalité, et enfin l’art en tant que tel. Le musée Reiss Engelhorn prétend que ces images sont soumises au droit d’auteur car le musée a rémunéré le photographe qui a pris certaines d’entre elles, ce qui lui a demandé du temps, de la compétence et des efforts pour les prendre. Le Musée Reiss Engelhorn affirme encore que, à  cause de ce droit d’auteur, les images des œuvres d’art ne peuvent pas être partagées au travers des Wikimedia Commons.

635px-Hendrick_Goltzius_Cadmus_Statens_Museum_for_Kunst_1183Les œuvres du domaine public affrontant l’hydre du droit d’auteur (allégorie)

(Hendrick Goltzius, Cadmus (Statens Museum for Kunst). Licence Domaine public via Commons)

La Wikimedia Foundation et Wikimedia Deutschland estiment que le point de vue du musée Reiss Engelhorn est erroné. Les lois sur le droit d’auteur ne doivent pas être utilisées à mauvais escient dans le but de contrôler la dissémination d’œuvres d’art appartenant au domaine public depuis longtemps, telles que les peintures exposées au musée Reiss Engelhorn. Le but du droit d’auteur est de récompenser la créativité et l’originalité, et non de créer de nouveaux droits limitant le partage en ligne d’images d’œuvres du domaine public. De plus, même si la loi allemande accorde quelques droits sur ces images, nous pensons qu’utiliser ces droits dans le but d’empêcher le partage des travaux du domaine public va à l’encontre de la mission du musée Reiss Engelhorn et de la ville de Mannheim et appauvrit l’héritage culturel mondial.

De nombreuses institutions se sont donné pour mission de rendre leurs collections le plus accessible possible pour le monde entier. En octobre, le musée des Arts et Métiers d’Hambourg, en Allemagne, a rendu sa collection accessible librement en ligne. Le Rijksmuseum d’Amsterdam a fourni un accès en ligne à toutes ses peintures, y compris la possibilité de les télécharger et d’utiliser les reproductions sous licence domaine public CC0. Au Danemark, SMK (Statens Museum for Kunst, la Galerie Nationale du Danemark) a rendu publiques ses images et vidéos numériques sous la licence CC-BY. La British Library [N.d.T : Bibliothèque de Grande-Bretagne, équivalent de la BNF] et le Japan Center for Asian Historical Records [N.d.T : le Centre japonais d’archives historiques asiatiques] ont conjointement libéré plus de 200 gravures japonaises et chinoises dans le domaine public.
Ces institutions culturelles conservent les valeurs du domaine public et protègent le droit de prendre part à notre héritage culturel. La tentative du musée Reiss Engelhorn de créer un nouveau copyright dans le domaine public va à l’encontre des principes européens sur le domaine public.

soldatsFrançaisL’armée française part en campagne contre le copyfraud

(image issue du catalogue en ligne de The British Library, aucune restriction de droit d’auteur connue – Voir tous les détails)

Dans un communiqué du 11 août 2008, la Commission européenne a écrit : « il faut souligner qu’il est essentiel que les œuvres qui sont dans le domaine public restent accessibles après un changement de format. En d’autres termes, les œuvres qui sont dans le domaine public devraient y rester une fois numérisées et être rendues accessibles par Internet ». Cela a été renforcé par la charte d’Europeana de 2010 qui stipule : « Aucun autre droit sur la propriété intellectuelle ne doit être utilisé pour rétablir une exclusivité sur des matériaux du domaine public. Le domaine public fait partie intégrante de l’équilibre interne du système de droit d’auteur. Cet équilibre interne ne doit pas être rompu par des tentatives pour obtenir ou rétablir un contrôle exclusif via des règles extérieures au droit d’auteur. »

Ces dernières années, le mouvement Wikimédia a bénéficié de partenariats fructueux avec des musées et des galeries à travers le monde grâce à l’initiative GLAM-Wiki, qui aide des institutions culturelles à partager leurs ressources avec le monde entier par le biais de projets de collaboration avec des éditeurs expérimentés de Wikipédia. Ces partenariats ont permis à des millions de personnes de découvrir et d’apprécier des collections situées dans des endroits qu’ils ne pourront jamais visiter. Wikimédia Deutschland, seule, a travaillé avec plus de 30 musées en Allemagne pour rendre leurs collections accessibles gratuitement à n’importe qui n’importe où, au travers des projets Wikimédia. Ces partenariats font partie d’un effort indispensable qui permet aux institutions culturelles et à Wikimédia d’accomplir leur mission de libération de la connaissance et de partage de la culture.

Partout dans le monde des gens utilisent Wikipédia pour découvrir et comprendre le monde qui les entoure. Grâce à Internet, de nombreux obstacles traditionnels à la connaissance et à l’apprentissage ont disparu. Refuser l’accès en ligne à des images du domaine public empêche les gens d’explorer et de partager notre patrimoine culturel mondial. Nous exhortons le musée Reiss Engelhorn à reconsidérer sa position et à travailler avec la communauté Wikimédia pour rendre encore plus accessibles leurs œuvres élevées dans le domaine public.

Michelle Paulson, Legal Director
Geoff Brigham, General Counsel
Wikimedia Foundation

Plus de 15 articles en deux mois et demi pour vous décrire nos actions, et nous avons encore une petite surprise pour vous !

Cet article fait partie des « Carnets de voyage de Contributopia ». D’octobre à décembre 2019, nous y ferons le bilan des nombreuses actions que nous menons, lesquelles sont financées par vos dons (qui peuvent donner lieu à une réduction d’impôts pour les contribuables français). Si vous le pouvez, pensez à nous soutenir.

Dernier interlude « Nos actions sont financées par vos dons »

Les carnets de voyages de Contributopia sont aussi bien une campagne d’informations qu’une campagne de dons. Nous venons de publier une quinzaine d’articles en moins de deux mois pour faire le bilan de deux années à suivre la feuille de route Contributopia. C’est à la fois pour vous dire « voici ce que nous avons fait grâce à vos dons » mais aussi pour vous faire comprendre que « si vous voulez que nous poursuivions nos actions, nous avons besoin de dons ».

Cliquez pour découvrir la page des Carnets de Contributopia, et sa carte qui s’adapte à votre écran… (par David Revoy)

 

Alors voilà, c’est notre dernier moment « pub » de l’année ! Avant que d’aller boire avec la modération qui vous sied, d’aller demander si ce bisou sous le gui est consenti, et surtout avant d’aller dire au revoir à 2019… Nous voulions – une dernière fois – rappeler aux contribuables français qu’il ne leur reste plus que quelques heures pour faire un don à Framasoft qui soit défiscalisable en 2019 ! Car même avec le prélèvement à la source, un don de 100 € à Framasoft revient, après déduction à 34 €. Vous connaissez le chemin pour nous soutenir : c’est là.

Des carnets magnifiquement illustrés

Ces Carnets de voyage de Contributopia n’auraient pas été les mêmes sans le travail, l’enthousiasme et le talent de David Revoy, qui a de nouveau accepté de les illustrer pour nous. Il a commencé cette nouvelle prestation en nous posant une question simple : quelle est la contrainte ? Nous voulions une espèce de carte aux trésors, de carte de jeu vidéo, à afficher sur une page web. Mais aujourd’hui, une page web peut aussi bien être vue sur un écran 4K, une tablette ou un ordiphone tout en longueur…

– Tu peux nous faire une carte responsive ? Ça te va, comme contrainte, David ?

– Chiche !

Allez, franchement, avouez : est-ce que vous aviez remarqué que la carte des Carnets de Voyage de Contributopia peut s’afficher tout en longueur, tout en hauteur, ou dans un joli rectangle proportionné… ? Allez tester, pour voir : c’est bluffant !

Surprise : ces carnets vous appartiennent

David Revoy est connu comme un artiste libriste : il contribue à Krita, a travaillé avec la Blender Fondation, et son web-comic Pepper & Carrott est publié sous licence CC-By. Il est donc logique que les quatre panneaux de la carte retraçant nos Carnets de Voyage, ainsi que les 15 œuvres illustrant les 15 pages de nos carnets soient sous la même licence !

La surprise, c’est que chacune de ces illustrations a été ajoutée en contribution à Wikimédia Commons, le commun créé par la Wikimedia Fondation pour rassembler les œuvres libres.

Cliquez sur ces joyeux drilles pour retrouver l’ensemble des illustrations des Carnets de Voyage de Contributopia sur Wikimedia Commons

 

Il sera donc tout facile de les retrouver pour les utiliser, les modifier et les diffuser… Et pour les personnes qui veulent les étudier, aller bidouiller les calques, etc., les fichiers source de ces illustrations (créées avec le logiciel libre Krita) sont à votre disposition sur le site de David Revoy !

Belle année 2020 à vous

« Contributopia » n’est pas qu’un joli mot mettant dans une même valise nos désirs d’Utopies et de Contribution. Nous venons de montrer, dans ces Carnets de Voyages, que c’est aussi un ensemble d’actions, de réflexions, et de liens que nous tissons.

Nous espérons que ces partages vous ont plu, en tous cas vos retours nous ont souvent fait chaud au cœur, et remplis de l’envie de faire au moins aussi bien en 2020 !

Nous vous souhaitons, avec quelques heures d’avance, une année 2020 riche de contributions, d’utopies et d’émancipations.

— Les membres de l’association Framasoft.

Illustrration de David Revoy Le jeu de méracartes vu par David Revoy

Rendez-vous sur la page des Carnets de Contributopia pour y découvrir d’autres articles, d’autres actions que nous avons menées grâce à vos dons. Si ce que vous venez de lire vous plaît, pensez à soutenir notre association, qui ne vit que par vos dons. Framasoft étant reconnue d’intérêt général, un don de 100 € d’un contribuable français reviendra, après déduction, à 34 €.

Soutenir Framasoft

Illustration d’entête : CC-By David Revoy

Retour sur le premier Confin’atelier

Tuesday, 14 February 2023 11:36 UTC

Le samedi 25 avril dernier s’est tenu le premier Confin’atelier, premier Contribatelier en ligne, et ça a été un succès. Afin de valoriser cette belle initiative, nous republions ici le compte-rendu publié sur https://contribateliers.org/ et nous sommes ravi⋅es de vous annoncer qu’un second opus est en préparation ! La date est même fixée : ce sera le samedi 6 juin 2020 de 14h à 17h.

Alors qu’est-ce qu’on a fait pendant ce Confin’atelier, premier Contribatelier en ligne, et qu’est-ce qu’on en retient ? Plein de choses ! Allez on y va, on commence par le global et on détaillera pôle par pôle ;-). Ready ? Go !

Globalement

Déjà les chiffres qui nous réchauffent le cœur : plus 80 participant·es, 11 salons en simultané (10 salons pour les pôles et 1 pour l’accueil), 13 animateur·rices, plus de 3 heures de Confin’atelier : Wouhou ! On ne s’était pas fixé d’objectifs à atteindre mais même si ç’avait été le cas, on est plus que largement satisfait·es !

Autre chose notable : aucun souci rencontré concernant la technique. C’était un peu la crainte, qu’il y ait beaucoup de participant·es et que l’instance Big Blue Button de FAImaison soit surchargée. On avait même prévu un plan B si besoin, dans lequel on était prêt à migrer les salons de certains pôles sur une autre instance Big Blue Button pour absorber la charge. Au final RAS comme on dit, aucun pôle n’a subi de bugs, ralentissements ou autre : bref, on était bien à l’aise ! (bon on a aussi demandé à tou·tes les participant·es de ne pas utiliser leur webcam et de se contenter de l’audio : ça aide !)

Pôle par pôle

Le retour de chaque pôle a été rédigé par le ou les animateur·rices du pôle concerné, sauf pour le pôle accueil où c’est un participant qui a voulu nous faire part de son retour. Merci fabulousfabs !

Pôle Accueil

Pôle animé par MeTaL_PoU, Numahell & QuentinD

Du monde tout l’après-midi, le pôle accueil avait la lourde responsabilité d’accueillir sur le Confin’atelier, d’expliquer le fonctionnement de l’outil BBB, de guider les participant·e·s vers les différents pôles, de répondre aux questions. Ce pôle « tampon » était nécessaire et a été remarquablement bien orchestré par nos 3 ami·e·s ! Ambiance franchement sympathique, accueil chaleureux et patience dans leurs explications, MeTal_PoU & Numahell se sont données sans retenue sur le pôle accueil ! QuentinD gérait la comm’ sur les réseaux sociaux (de ce que j’ai compris, pour la première fois), et venait faire un coucou aux rares moments où il avait 5 minutes. Pendant ce temps, MeTal_PoU & Numahell prenaient leur temps pour dire bonjour, expliquer inlassablement le système de salons multiples, comment basculer vers un autre pôle, comment aider à régler / couper son micro sur BBB, tout cela sans jamais perdre le sourire (qui s’entendait) ou patience. Elles ont eu à cœur de laisser présenter les pôles aux responsables de salons qui en avaient le temps, permettant à nos 80 bonnes âmes de choisir où aller donner un coup de pattes. Bravo à vous 3 !

Pôle Framalibre

Pôle animé par Gavy

Environ une dizaine de personnes pour ce pôle autour de l’annuaire historique de Framasoft. On a commencé par une petite présentation de Framalibre – ce qu’est l’annuaire, ce qu’on peut y trouver et ce qu’on peut y faire – avant de voir comment y contribuer.

Au final, plusieurs comptes Framalibre ont été créés, des notices existantes ont été modifiées et de nouvelles sont apparues :

Notices crées :

Notices modifiées :

Si contribuer à Framalibre vous donne envie, le meilleur moyen pour commencer, c’est de venir en parler sur Framacolibri (le forum de Framasoft), dans la section dédiée à l’annuaire !

Pôle Design & Libre

Pôle animé par Maiwann

Une dizaine de personnes qui étaient présentes pour cet atelier visant à regrouper les designers ayant envie de faire bouger les choses coté logiciel libre ! Petite surprise : Il y avait aussi des personnes qui étaient plutôt développeurs et qui étaient en demande pour savoir comment trouver quelqu’un avec qui collaborer. Après plusieurs petites discussions sur « Pourquoi y a-t-il aussi peu de designers dans le monde du libre ? » nous avons décidé de faire un petit site afin de pouvoir renvoyer les différentes personnes intéressées par le sujet dessus \o/ Ni une, ni deux, entre celleux qui s’occupaient du contenu et celleux qui étaient lancés sur la technique, nous avons déjà une page à vous présenter regroupant des façons de nous contacter et des ressources autour du design : Foire aux questions, articles, témoignages de collaboration… C’est par là ! ! 🎉 => https://design-et-libre.frama.io/ Merci à celles et ceux qui ont participé à cet atelier 🥳

Pôle Communiquer pour des projets libres

Pôle animé par Pouhiou

La proposition était de faire un tour de table des expériences et besoins dans la communication pour des projets libres, puis de prendre chaque besoin un par un et de partager nos retours d’expérience dessus. S’en est suivie une conversation de 3h avec plus de 10 personnes présentes absolument passionnante. Une des problématiques récurrentes fut de trouver comment communiquer sans reproduire les codes du capitalisme de surveillance.

Ces échanges ont été sketch-notés par Chloé :

Reproduction dans ce billet de blog avec l’autorisation de Chloé. Merci !

Pendant les échanges, David Revoy nous a écouté (et est parfois intervenu) tout en dessinant en direct une nouvelle illustration de Sépia, lae poulpe-mascotte de PeerTube, dont nous avons appris à cette occasion qu’iel n’avait pas de genre (découvrez-la plus bas !). Le seul regret de l’animateur (Pouhiou) c’est d’avoir du mal à jongler entre son animation et ses envies de partager une grosse expérience accumulée au sein de Framasoft (et donc de monopoliser la parole). Merci à toutes les personnes qui ont contribué !

Pôle PeerTube

Pôle animé par Angie

Une douzaine de personnes ont participé à cet atelier portant sur la sélection de contenus de qualité hébergés sur PeerTube. Angie a commencé par expliquer qu’il était important de valoriser ces contenus pour en montrer la diversité. Ce travail de curation permet d’alimenter le bloc « Découvrez notre sélection de contenus » de https://joinpeertube.org/ Plusieurs participant⋅es ayant des questions sur le fonctionnement du logiciel PeerTube, nous avons passé un peu de temps à y répondre. Angie a ensuite rappelé quelques critères pour la sélection (contenus sous licence libre ou dont on a l’assurance qu’ils sont publiés par leur créateur) et proposé des outils permettant la recherche au sein des différentes instances de PeerTube et les participant⋅es se sont lancés dans la recherche de contenus. Au final, 14 nouveaux contenus (vidéos, chaînes et instances) ont été sélectionnés. Pour chacune de ces sélections, un texte de présentation a été rédigé. Ces éléments seront prochainement visibles sur la page d’accueil de joinpeertube. Cet atelier était vraiment chouette car il a permis à l’ensemble des participant⋅es de découvrir ces contenus mais aussi d’échanger sur le fonctionnement du logiciel et sur les modalités d’inscription sur une instance. A reproduire pour découvrir de nouveaux contenus !

La nouvelle illustration de Sépia, mascotte de PeerTube, realisée par David Revoy pendant le Confin’atelier (licence CC-BY)

Pôle OpenStreetMap

Pôle animé par gibro

Le pôle OSM a débuté par une présentation rapide de la carte OpenStreetMap : son modèle, ses principes de fonctionnement et les principaux outils de contributions. Il y a ensuite eu une démonstration du fonctionnement de la carte ça reste ouvert :

  • Utilisation de la carte => affichage des informations, codes couleur utilisés, choix des langues, mode daltonien
  • Explication de la fonctionnalité « Signaler un changement » => formulaire permettant d’ajouter directement les informations sur un lieu sans avoir besoin d’un compte OpenStreetMap
  • Résolution des notes générées par le site => à partir du site NoteReview avec le tag #caresteouvert permettant aux contributeurs de suivre les signalements « ça reste ouvert » et de renseigner les informations dans la base OpenStreetMap
  • Documentation avec les ressources mises à la disposition sur le blog caresteouvert et le wiki OpenSteetMap.

Pendant et après la démonstration, nous avons échangé en fonction des besoins et interrogations des personnes présentes. Il y avait une douzaine de personnes en continu dans le salon et plusieurs contributeurs pour l’animer (merci Sebbaz et Eric B). Nous avons aussi discuté de la possibilité de mettre en place un site web facilitant la saisie des informations sur les commerces sans passer par un compte OpenSteetMap, sur le modèle https://caresteouvert.fr ou https://wheelmap.org/ Pour conclure, j’ai trouvé très agréable et efficace l’outil BigBlueButton pour les démonstrations et les interactions avec les participants. Il était également intéressant d’être à plusieurs pour animer pour gérer les échanges sur le chat et l’ajout d’informations dans les notes en parallèle des démonstrations en partage d’écran.

Retour d’un participant :

Très bon accueil de Gibro :) Belle découverte de caresteouvert, ce qui m'a permis d'actualiser les informations autour de chez moi. Concret et pratique. J'avais aussi des questions plus générales de mises à jour de OSM, que j'ai pu mettre en pratique immédiatement grâce aux conseils avisés de Gibro et Fred, merci à eux. Pratique, concret, convivial, j'ai passé un très bon moment et j'ai pu pratiquer immédiatement pour faire des mises à jour, merci <3

Pôle Wiktionnaire

Pôle animé par Noé

Première session de contribution en ligne et une bonne expérience. L’exploration d’un dictionnaire n’était probablement pas l’expérience la plus séduisante, d’où l’affluence limitée, mais l’animateur a pu néanmoins contribuer et montrer l’intérêt du Wiktionnaire avec de l’ajout d’illustrations et d’exemples, et même créer de nouvelles pages. Un participant, motivé par la présentation a pu téléverser une de ses photographies pour illustrer la page du Wiktionnaire de la ville de Gafsa. L’envie d’en refaire et la hâte de reprendre les permanences mensuelles lyonnaises !

Pôle Wikipédia

Pôle animé par Lyokoi

Une session de 3h bien remplie et qui aurait pu durer si le présentateur ne tombait pas de fatigue et ne perdait pas sa voix à la fin. La session oscillait entre 4 et 6 personnes avec un pic de présence à 8. La première moitié (1h30) fut une présentation globale de Wikipédia, son fonctionnement, sa communauté, ses règles et surtout une visite de l’interface de contribution. Ponctuée par les questions des visiteurs et visiteuses, nous avons apporté des sources à des articles, nous avons découvert plusieurs aspects de la contribution (images, structuration, wikification, etc.) et avons noté dans le pad interne des liens importants. La deuxième partie était surtout consacrée à l’échange avec les participants et les participantes, via message ou via micro. Un contributeur de Lorient a pu se faire aider à monter un groupe local et plusieurs nouveaux et nouvelles ont pu faire leurs premières modifications (ainsi qu’un ancien qui s’y est remis). L’expérience a été très enrichissante et a donné l’envie de recommencer.

Pôle Piaf

Pôle animé par Guillaume

Une super ambiance, avec une dizaine de curieux qui voulaient en savoir plus sur le projet. Nous avons discuté des intérêts de construire des ressources pour créer des intelligences artificielles francophones, et également des façons de procéder. Puis nous avons tous ensemble contribué, en écrivant des questions réponses sur des articles Wikipédia. Avec quelques dizaines de questions réponses produites, Piaf en est maintenant à 7000 depuis le début du projet il y a quelques mois ! Bravo et merci à tous ! Et continuons de contribuer quand nous en avons le temps :)

Pôle Culture libre / Khaganat

Pôle animé par Zatalyz et GPSqueeek

Après une demi-heure à – nous ronger le clavier de peur de n’avoir personne – papoter, nous décidons de revenir faire un tour à l’accueil pour signaler qu’on était là et que c’était chouette de venir dans notre salon. Et ça a marché ! On a en effet eu la joie d’avoir le retour d’une contributrice qui nous a aidé·es à voir comment serait fait le système solaire dans l’univers du Khanat, et c’est pas rien ! Le Khanat serait probablement une lune d’une géante gazeuse, et ensuite il y a des histoires d’angle des plans orbitaux, de masse et de taille des différents astres. On espère un jour avoir de quoi montrer ce ciel dans Godot pour l’intégrer au futur jeu ! Ensuite on a eu plusieurs visites de curieuses dont certaines sont restées pour nous aider à commencer un article au sujet d’une bestiole qui avait été dessinée sur papier en Contrib’atelier en présentiel en fin d’année dernière. Ce n’est pas encore terminé mais il y a une bonne base pour avoir quelque chose de publiable bientôt sur notre wiki on espère ! Merci aux visiteuses et autres contributrices qui ont été toutes plus oniriques les unes que les autres (et chez Khaganat, c’est signe d’un tas de guimauves, accompagnées d’un tas de câlins si ça fait plaisir !).

Pôle Contribuer au libre pour les développeur·ses

Pôle animé par ervin

https://asso.framasoft.org/pic/xPP0qymR/jBZ96zfE.png

Nous avons eu 11 personnes présentes. Globalement les nouveaux venus étaient satisfaits et ont trouvé des projets auxquels contribuer. La durée n’a pas forcément permis de mettre des choses en production, mais le contact a été établi et certains des participants comptent continuer à contribuer. Beaucoup d’appétence pour une autre session. Les notes complètes dont le tour de table final : https://mypads.framapad.org/p/confinatelier-framadate-3m1pcq7p7

En conclusion

Pour nous ce n’est que du positif donc un immense merci à tou·tes celleux qui ont pris part à ce Confin’atelier :

  • Animateur·rices : merci pour la diversité des pôles et leur nombre !)
  • Participant·es : merci d’avoir être été autant de monde à répondre présent·es pour donner de votre temps pour le libre
  • Bénévoles de FAImaison : bah oui, pas de bénévoles FAImaison, pas de Big Blue Button, donc pas de Confin’atelier. CQFD ;-).

À bientôt pour le prochain ?  ;-)

 

Wikipedia et les liens externes

Thursday, 12 January 2023 16:05 UTC

 

Pointeur de souris en forme de main au-dessus d'un hyperlien Wikipédia.
Bernard Ladenthin, CC0

Des acteurs de la presse française viennent d'annoncer la signature d'une charte de la traçabilité de l'information. La charte prévoit que les médias citent correctement leurs sources et qu'ils insèrent des liens hypertextes dans les articles. Aucun roman d'anticipation n'avait sans doute imaginé qu'en 2020 l'humanité serait capable de telles prouesses ! Au-delà de cette pic amicale, je suis content que les médias traditionnels adoptent les bonnes pratiques des pure players et de Wikipédia. La gestion des sources et des hyperliens est complexe et chronophage. Bon courage aux nouveaux titres de presse qui se lancent dans l'aventure.

S'ils leur restent du temps, ce serait bien également de correctement créditer les photos qu'ils prennent sur Wikipédia ou Wikimédia Commons. Bien souvent les médias ne citent pas la licence libre utilisée par le créateur ou utilisent les fameux Droits réservés (DR). Outre le fait que c'est illégal, il est de plus en plus important de pouvoir retracer l'origine des images afin de s'assurer de leurs exactitudes et que les légendes correspondent bien aux photos.

Hasard du calendrier, j'étais depuis plusieurs jours en train de me dépêtrer à faire des requêtes SQL pour mieux connaître les liens externes qui se trouvent sur la Wikipédia francophone.

Liens externes

Les hyperliens qui mènent vers d'autres sites web sont très fréquents sur Wikipédia. Une série de recommandations leurs sont consacrées sur la page Wikipédia:Liens externes. Dans les articles de Wikipédia, on peut en trouver à deux endroits différents. Tout d'abord dans la liste des sources permettant de vérifier ce qui est écrit dans l'article. Ce type de lien externe, aussi appelé source ou référence, est généralement regroupé dans une section intitulée Références ou bien Notes et références. La nature des références est fonction de l'article. Un article d'actualité va utiliser la presse alors qu'un article d'histoire utilisera des monographies.

Un deuxième endroit possible pour les liens externes est une section tout simplement appelée Liens externes en toute fin d’article. Le plus souvent cette section contient le site officiel ou de nombreux liens vers d'autres bases de données. Les wikimédiens consacrent beaucoup de temps pour relier Wikipédia ou Wikidata à des notices d'autorité (base Léonore de la Légion d’honneur, base Mérimée des monuments historiques, IMDb, etc.) ainsi qu'à d'autres sites de référence (Who's Who, Universalis, Maitron, etc.).
 
La Joconde

Requêtes SQL

L'outil Quarry permet d'interroger en live une copie de la base de données de Wikipédia à l'aide du langage SQL. N'y connaissant rien, je me suis contenté de réutiliser une requête faite par un collègue étranger. Les résultats ne sont pas directement utilisables car on y trouve quelques sites internes à Wikimédia et des sites identiques sous plusieurs urls (ex. books.google.com et books.google.fr ou wordlcat.org et www.worldcat.org). Il faut donc penser à agréger certains résultats.

Top 20

Voici les 1 173 sites avec plus de 1000 occurrences dans l'espace principal (= articles) de la Wikipédia francophone et le top 20 :
  1. Insee 624 477
  2. BnF  602 667
  3. Google Livres 405 050
  4. Virtual International Authority File (VIAF) 360 287
  5. Worldcat 253 081
  6. International Standard Name Identifier (ISNI) 213 875
  7. Internet Archive 210 916
  8. culture.gouv.fr 209 686
  9. Bibliothèque du Congrès 191 409
  10. Digital object identifier (DOI) 166 590
  11. Deutsche National Bibliothek (DNB) 161 763
  12. Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche (IdRef) 146 490
  13. Internet Movie Database (IMDb) 128 210
  14. National Center for Biotechnology Information (NCBI) 124 115
  15. Bibliothèque royale du Pays-Bas 110 484
  16. Le Monde 85 010
  17. NASA 80 586
  18. Catalogue of Life 75 291
  19. Inventaire de l'Agence flamande du patrimoine 71 256
  20. Légifrance 75 278
  21. YouTube 70 973

Top 20 français

  1. Insee 624 477
  2. BnF 602 667
  3. culture.gouv.fr 209 686 
  4. IdRef (Identifiants et Référentiels pour l'Enseignement supérieur et la Recherche) 146 490
  5. Le Monde 85 010
  6. Légifrance 75 278
  7. Allociné 67 576 
  8. archive.wikiwix.com 56919
  9. Persée 56 107 
  10. Cassini 51 889 
  11. Le Figaro 46 372 
  12. L'Equipe 39 983 
  13. Le Parisien 30 547 
  14. Ministère de l'intérieur 30 464 
  15. Libération 28 997 
  16. Ouest France 25 578
  17. mondedufoot.fr 25 239 
  18. Cairn 24 096 
  19. Assemblée nationale 22 784
  20. L'Express 20 763 

Médias 

Voici les différents classements pour la presse d'information générale (sans le sport en gros).

Presse française

  1. Le Monde 85 010
  2. Le Figaro 46 372 
  3. Le Parisien 30 547
  4. Libération 34 461
  5. Ouest France 25 578
  6. L'Express 20 763 
  7. Le Point 19 082 
  8. Les Échos 15 409 
  9. Obs 12 733
  10. RFI 11 915 
  11. 20 Minutes 11 425 
  12. La Croix 9 637 
  13. France TV info 8 613 
  14. Sud Ouest 8 215 
  15. Télégramme  7 818
  16. Jeune Afrique 7 597
  17. L'Humanité 7 373 
  18. Télérama 6 900
  19. France Culture 6 633 
  20. Le Monde diplomatique 5 567 

Presse francophone

  1. Radio Canada 11 039
  2. La Presse 10 441
  3. Le Soir 8 942
  4. RTBF 8 384
  5. Le Temps 7 520
  6. Le Devoir  6 223
  7. RTS 5 436
  8. DH Les Sports+ 3 803
  9. Tribune de Genève 2 914
  10. L'Avenir 2 265

Presse étrangère

  1. BBC 41 395
  2. New-York Times 31 282
  3. Guardian 20 579
  4. Telegraph 7 972
  5. Washington Post 7 020
  6. Los Angeles Times 6 579
  7. Independent 5 991
  8. Daily mail 4 210
  9. Forbes 3 658
  10. CBC 3 528

Sites gouvernementaux

  1. www.culture.gouv.fr et www2.culture.gouv.fr 144 174
  2. www.legifrance.gouv.fr et legifrance.gouv.fr 75 278
  3. www.pop.culture.gouv.fr 61 290
  4. www.interieur.gouv.fr 30 464
  5. www.assemblee-nationale.fr 22 784
  6. elections.interieur.gouv.fr 16 018
  7. www.geoportail.gouv.fr 13 293
  8. www.senat.fr 10 353
  9. www.banatic.interieur.gouv.fr 7 824
  10. www.georisques.gouv.fr 5 432
  11. www.data.gouv.fr et entreprise.data.gouv.fr 7 436
  12. cites.application.developpement-durable.gouv.fr 4 876
  13. www.siv.archives-nationales.culture.gouv.fr 4 222
  14. www.education.gouv.fr 3 785
  15. www.defense.gouv.fr 3 681
  16. www.inao.gouv.fr 3 334
  17. www.diplomatie.gouv.fr 3 308
  18. www.loiret.gouv.fr 2 702
  19. www.collectivites-locales.gouv.fr 2 377
  20. www.memoiredeshommes.sga.defense.gouv.fr 2 338
  21. www.developpement-durable.gouv.fr 2 172
  22. alize2.finances.gouv.fr 1 693
  23. www.aisne.gouv.fr 1 681
  24. www.culturecommunication.gouv.fr 1 628
  25. www.gouvernement.fr 1 513
  26. www.annuaires.justice.gouv.fr 1 486
  27. agreste.agriculture.gouv.fr 1 259
  28. carmen.developpement-durable.gouv.fr 1 149
  29. www.statistiques.developpement-durable.gouv.fr 1 104

Sites Wikimedia

De nombreux liens renvoient vers des sites Wikimedia. Il y a tout d'abord les liens vers les autres versions linguistiques de Wikipedia. Il ne s'agit pas des interwikis permettant de passer d'une langue à l'autre mais de liens générés par des modèles tels que {{Traduction/Référence}} ou {{Lien}}.

Il y a également quasiment 200 000 liens vers la ferme de serveurs qui héberge des outils (tools.wmflabs.org) tels que GeoHack, KMLexport, Chemistral Abstracts Service number links, etc.

 Et Wikidata est massivement utilisé avec plus de 3 millions de liens.

Robots

CodexBot

Je terminerai en présentant les travaux des robots. Il y a tout d'abord les outils d'archivage. Les pages internet peuvent avoir une durée de vie assez courte. Afin de permettre l'accès à ces liens morts, la Wikipédia Francophone utilise deux services :
  • La Wayback Machine d'Internet Archive : 210 916 liens
  • Et un service similaire (Wikiwix) proposé par la société française Linterweb : archive.wikiwix.com 56 919

CodexBot sert à mettre en forme les hyperliens laissés par les rédacteurs bénévoles. La Wikipédia francophone utilise principalement trois modèles afin d'harmoniser la présentation des sources :

  • Ouvrage : utilisé 1 064 113 de fois sur 305 392 pages distinctes.
  • Article : utilisé 808 734 de fois sur 238 253 pages distinctes.
  • Lien web : utilisé 3 366 315 de fois sur 679 393 pages distinctes.

Ce robot analyse quotidiennement 2500 citations de livres et en améliore 1500. Il traite également 1000 articles de presse, articles académiques et pages web. Enfin, il signale une trentaine de cas nécessitant une vérification humaine.

 

[Mise à jour] Ajout de requêtes SQL listant les liens par projet

Recette 5 – croque monsieur

Saturday, 10 December 2022 06:23 UTC

Bien le bonjour, ça faisait un bail.

Il fait froid, le four est agréablement chaud… aujourd’hui, une recette simple de croque-monsieurs.

1) Tartinez la tranche du bas avec du beurre.

2) Ajoutez une demi tranche de jambon. Ou une entière si vous voulez, j’suis pas vot’chef.

3) Mélangez le fromage râpé avec un peu de lait et mettez ça sur la 2eme tranche de pain.

Le lait, comme le beurre plus haut, sert principalement à éviter que le pain (et ici le fromage) ne se dessèche pendant la cuisson et garde du moelleux, donc il en faut -un peu- mais pas détremper la tranche non plus. Ça peut prendre quelques essais pour apprendre à doser correctement :)

4) Au four ~180°C pendant une vingtaine de minutes

C’est prêt !

Comment allier passion et travail de fourmis

Wednesday, 1 June 2022 08:46 UTC

 En parallèle d'un gros travail d'amélioration  et de labellisation sur des articles de films Disney par ordre chronologique (dernier en date Les Yeux de la forêt, normalement le prochain sera Rox et Rouky), j'ai plusieurs petites tâches de fond, de fourmis. L'une d'elle est de vérifier la page pointant vers Disney (page d'homonymie) ou Walt Disney. Pour le premier, le travail consiste à corriger les articles pointant sans raison souvent en remplaçant vers la bonne filiale du groupe. Pour le second c'est plus subtil mais se résumé à vérifier que l'article ne point pas vers l'être humain mort en 1966 en lieu et place de l'entreprise... C'est un travail pas très folichon mais nécessaire. 


C'est durant une session de correction que je suis tombé sur Patrick Swayze, acteur du film préféré de ma chère et tendre (plus de 200 visionnages au compteur). L'article indiquait 

Il est d'abord danseur dans les parades de parc d'attractions [[Walt Disney]]. 

Premier point, si c'est pour les parcs Disney, bah je mets la filiale idoine (actuellement Disney Parks, Experiences and Products). Mais il est plus probable que cela soit un parc en particulier. A l'époque, avant 1979 pour le beau Patrick, c'est soit Disneyland en Californie soit Walt Disney World Resort en Floride. Second point, bah il n'y a aucune source pour cette affirmation... 


Après des recherches, il s'avère que c'est faux, car c'était un spectacle itinérant, un Arena show comme dirait les anglosaxons. Il s'appelait Disney on Parade et a parcouru les Etats-Unis et le monde entre 1969 et 1976. Dommage il n'y avait pas encore d'article francophone sur ce spectacle... certains diront qu'un énième article sur Disney n'est pas nécessaire, je plaide coupable et j'ai donc créé un article sur ce spectacle. Et hop me voilà lancé sur l'article Disney on Parade. J'ai aussi corrigé l'article sur Patrick en ajoutant une source. Pour votre information, il a d'abord interprété un cowboy puis le Prince Charmant :D

Pour revenir au nouvel article, je remercie encore une fois la fondation pour l'accès au site Newspapers.com qui m'a permis d'ajouter un grand nombre d'infos. A mon sens l'article est désormais bien développé et le fait que le spectacle soit un prédécesseur de Disney on Ice, permet de compléter la grande trame de Disney. Pas chauvin pour un sou, j'ai même complété l'article sur Bugs Bunny qui a eu le droit à sa déclinaison du concept en 1979.
Le seul problème dans tout cela c'est que ma femme va devoir se faire à l'idée que Patrick Swayze est lié à Disney et pas uniquement pour la voix d'un personnage dans Rox et Rouky 2.