Nous avons découvert ce que les gens copient à partir de Stack Overflow et à quelle fréquence

Ils disent qu'il y a du vrai dans chaque blague. Si nous parlons de la blague de notre poisson d'avril, alors cette part tendait à cent pour cent. Nous voulions jouer avec le mème classique de Stack Overflow et nous éloigner un peu de l'un de nos principes fondamentaux. Les sources d'inspiration sont les ressources qui ont gâté le sang des fondateurs de l'entreprise, qui n'ouvrent des réponses aux questions de programmation que pour les utilisateurs payants. Comment le monde changerait-il si nous rendions soudain la possibilité de copier du texte de Stack Overflow uniquement pour de l'argent?



Eh bien, juste une blague et ça suffit. Nous espérons que tout le monde a ri et que personne n'a trop peur. Mais attendez, nous avons toujours terminé. En configurant le système pour répondre à chaque entrée Command + C, nous avons réalisé que nous avions une chance d'obtenir plus d'informations sur ce que les gens font sur le site. Nous avons réussi à capturer chaque copie sur Stack Overflow pendant deux semaines, et voici ce qui en est sorti.



Tu n'es pas seul



Une personne sur quatre qui ouvre une page de questions sur Stack Overflow en copie quelque chose dans les cinq premières minutes après avoir visité le site. Au total, nous avons dénombré 40 623 987 exemplaires sur 7 305 042 publications entre le 26 mars et le 9 avril. Les gens copient le texte des réponses environ dix fois plus souvent que des questions et environ trente-cinq fois plus souvent que des commentaires. Les blocs de code sont copiés dix fois plus souvent que le texte d'accompagnement, et copiés à partir de pages de questions sans réponses acceptées est étonnamment plus actif que là où ils se trouvent.



Par conséquent, si vous avez déjà eu honte de copier du code prêt à l'emploi au lieu de l'écrire à partir de zéro, laissez votre conscience se calmer! Pourquoi réinventer la roue si quelqu'un a déjà résolu toutes les difficultés pour vous? Nous appelons cela la réutilisation - ce qui était autrefois appris, créé, prouvé par quelqu'un d'autre, vous servira désormais. Et il n'y a rien de mal à cela: de cette façon, vous pouvez apprendre plus rapidement, obtenir un code de travail plus rapidement et vous en soucier moins. L'ensemble de notre site est construit autour du concept de réutilisation des connaissances - la communauté Stack Overflow est principalement forte pour son approche altruiste du mentorat.



Il est tout à fait permis de grimper sur les épaules de géants et d'emprunter les leçons qu'ils ont apprises avant vous afin de créer quelque chose de nouveau et de précieux. Cela étant dit, il vaut la peine de suivre certaines pratiques éprouvées lors de la copie pour éviter par inadvertance les bogues ou les failles de sécurité, alors assurez-vous de bien faire les choses avant de saisir un morceau et de le coller. Bien entendu, il ne faut pas oublier que certains fragments de code ne peuvent être utilisés qu'avec des licences. Sinon, nous soutenons pleinement quiconque souhaite bénéficier du travail créé par la communauté.



En tant que personne qui a déchiré le code de Stack Overflow pendant des années sans un pincement de conscience, je n'ai pas été surpris lorsque les événements de copie ont commencé à affluer par millions. Une autre chose m'a surpris: combien de réponses à différentes questions ces informations nous ont fournies. Combien de personnes copient réellement le contenu de Stack Overflow? Copier uniquement le code ou autre chose? Copiez-vous plus activement les questions avec les réponses acceptées? Pour orienter notre analyse, mon équipe et moi avons dressé une liste de questions qui nous intéressaient. Tout a commencé par une simple blague, et s'est transformé en une étude sérieuse qui a mis en lumière beaucoup de choses et a donné une impulsion à de nombreuses discussions sur le développement et l'amélioration de la plateforme à l'avenir.



Données



À l'aide d'un outil de suivi Web maison, nous avons créé des événements personnalisés pour enregistrer chaque fois qu'un utilisateur copie quelque chose du site. Grâce à ces événements, nous avons pu suivre une variété de caractéristiques: balises, type de contenu (question, réponse ou commentaire, bloc de code ou texte brut), réputation du copieur, note de la publication, région, statut de la publication - accepté ou non . En général, nous avons presque tout sauvegardé, à l'exception du texte lui-même, qui a été copié.



Nous avons recueilli les données pendant deux semaines complètes, du 26 mars au 9 avril. Tous les calculs ci-dessous sont liés au comportement des utilisateurs au cours de cette période.



Les résultats de haut niveau ont confirmé ce qui ressemblait à une blague il y a longtemps: sur Stack Overflow, tout le monde fait ce qu'il copie. Nous sommes également rapidement devenus convaincus que la copie en tant que type de comportement obéit aux mêmes schémas qui ont déjà été identifiés pour le trafic du site. Les gens copient le plus activement en semaine, pendant les heures de travail. Les régions où notre site jouit de la plus grande popularité donnent le plus de copies: Asie - 33%, Europe - 30% et Amérique du Nord - 26%. Et enfin, 86% des utilisateurs copieurs sont des utilisateurs anonymes (c'est-à-dire qu'ils n'ont aucune réputation). Lorsque nous avons commencé à examiner plus en détail qui copie et quoi exactement, cela est devenu plus intéressant.



Une réputation élevée se compare-t-elle à une copie robuste?



Pour commencer, nous voulions vérifier: les utilisateurs ayant une bonne réputation se révéleront-ils les plus actifs en matière de copie?







On peut voir sur le graphique que la plupart des copies sont effectuées par des utilisateurs sans réputation - c'est-à-dire anonymes, car quiconque crée un compte obtient immédiatement un plus. Certains de ces événements se produisent peut-être parmi des utilisateurs qui ne se sont pas connectés à leur compte existant. Ceci, malheureusement, ne peut en aucun cas être vérifié.



Étant donné que la plupart de nos utilisateurs ont une mauvaise réputation, essayons de supprimer la répartition par groupes afin de normaliser les données. Tournons maintenant notre attention non pas sur le nombre total de copies, mais sur le nombre de copies par utilisateur, pour voir comment la moyenne diffère en fonction de la réputation.







Si vous examinez cette visualisation, le modèle suivant peut être retracé: à mesure que la réputation augmente, le nombre de copies par utilisateur commence à diminuer. La corrélation est présente, mais pas très prononcée, je ne peux donc pas dire avec une certitude totale que les utilisateurs ayant une bonne ou une mauvaise réputation copient sans ambiguïté plus activement. Les développeurs qui développent encore des compétences ont souvent une mauvaise réputation et ont tendance à rechercher des ressources qui peuvent accélérer le processus d'apprentissage. Au fur et à mesure qu'ils accumulent des connaissances, ils bâtissent leur réputation et commencent à travailler sur des tâches qui nécessitent des solutions bien calibrées - on ne les trouve pas toujours sur Stack Overflow.



Les réponses acceptées sont-elles copiées plus souvent?



Le train de la pensée ici est construit comme ceci: puisque la réponse a été acceptée, cela signifie que c'est probablement la meilleure, et si c'est le cas, alors elle devrait être copiée avec une énergie redoublée. Cependant, si nous regardons les statistiques, nous verrons que dans 52,4% des cas, les réponses non acceptées sont copiées. Cependant, si nous parlons de valeurs moyennes, alors pour un message unique avec une réponse acceptée, il y a sept copies, et avec une inacceptable - seulement cinq. Il s'avère que les publications non acceptées donnent plus de copies, mais les publications acceptées développent plus activement le même processus de réutilisation des connaissances.







Il convient de noter qu'il existe également des questions qui, en principe, n'ont pas de réponse acceptée. Prenons, par exemple, cette réponse: 4 984 utilisateurs uniques ont voté pour, et 7 943 copiés au cours de nos recherches. Mais le questionneur ne l'a pas accepté. Et il n'en a accepté aucune autre non plus - peut-être est-ce en quelque sorte lié au fait qu'il n'est pas du tout apparu sur le site depuis 2010. Mais de nombreuses autres réponses utiles sont dans la même position.



Les publications de haut rang sont-elles copiées plus activement?



Donc, les réponses acceptées n'ont aucun avantage à copier, mais une note élevée devrait certainement avoir un effet, non? Allons vérifier.







Comme on peut le voir, dans la catégorie des réponses en groupes de un à mille voix, tout se passe plutôt bien. Mais dans le cas des questions, la plupart de la copie se produit sur des articles avec une note de un à cinq. Je soupçonne que c'est parce que les gens les copient pour les republier jusqu'à ce qu'ils obtiennent enfin une réponse.



Comme dans le cas des utilisateurs, la plupart des publications sur le site ont une note plutôt faible. Pour la normalisation, voyons combien de copies sont effectuées par publication.







Ici, vous pouvez clairement voir que le nombre de copies augmente avec la note. Et c'est logique: la communauté est plus disposée à récupérer ce qui a déjà réalisé de bonnes performances.



Quelqu'un copie-t-il les messages avec une mauvaise note?



Mais qu'en est-il de ces points bleus, qui représentent des messages notés négativement? Pourquoi copier quelque chose que personne n'approuve du tout? Eh bien, ne sautons pas aux conclusions.



Jetez un œil à cette réponse . De toutes les réponses avec une note négative, il a recueilli le nombre maximum de copies - 288 avec une note de -2. Si vous lisez le texte, vous remarquerez qu'il exprime de manière plus concise la même chose que la réponse la plus populaire, avec une note de 29 et 493 exemplaires au total. Même si la réponse avec une note négative ne s'est pas imposée en termes de nombre d'exemplaires, le principe du «niasilil» a ici clairement joué en sa faveur.



De quelles balises sont copiées le plus souvent?



C'est à cette question que je voulais le plus obtenir une réponse. Malheureusement, en raison de l'échelle de l'étude et de la quantité de ressources disponibles, il n'a pas été possible d'analyser les balises imbriquées. Par exemple, la balise html n'inclut pas les articles contenant une combinaison de balises | html | css |.



Le plus souvent, le contenu était copié à partir des balises les plus populaires et les plus actives du site, ce qui n'était pas surprenant. Une seule chose a attiré mon attention: python apparaît dans quatre groupes de balises parmi les dix premiers à la fois. Trois d'entre eux sont directement liés à l'analyse des données: | python | pandas |, | python | pandas | dataframe | et | python | matplotlib |. Je ne suis moi-même pas indifférent à ce sujet, je suis donc très heureux que tant de gens maîtrisent ces outils.







Top 10 des balises, maintenant avec des copies par message



En plus des balises avec le nombre total de copies le plus élevé, je voulais calculer les balises avec le rapport copie / publication le plus élevé. J'ai défini un seuil minimum de dix messages et, comme vous pouvez le voir, il s'est avéré que plus les balises sont spécifiques, plus elles collectent de copies par publication.







Quels messages ont été le plus copiés?



Eh bien, passons maintenant à ce qui, je pense, suscite la curiosité de beaucoup. Quel message a obtenu le plus de copies?



Réponse de bloc de code



Je suis heureux d'annoncer que le gagnant était la réponse à Comment parcourir les lignes d'un DataFrame dans Pandas , qui a 3 497 votes et 11 829 copies. Il a été publié en 2013 et continue de renflouer des milliers de personnes chaque semaine.



Réponse en texte brut



En ce qui concerne le contenu sans code, voici un article sur TypeError: this.getOptions n'est pas une fonction [fermée] avec 218 votes et 1 570 copies. Il n'y a aucun moyen de vérifier, mais je suppose qu'ils copient l'extrait de code `sass-loader @ 10.1.1`.







Question du bloc de code Notre principale question est: Comment créer un bouton HTML qui agit comme un lien? - 2 147 voix et 3 665 copies.



Question en texte brut



Enfin, la question non-codée la plus populaire était que les mises à jour ont été rejetées car la pointe de votre branche actuelle est derrière son homologue distant - 322 votes et 261 copies. Cela pose des problèmes, car le texte contient de nombreuses commandes git qui ne sont pas formatées comme des blocs de code - peut-être qu'elles sont copiées activement. Mais puisque le texte lui-même, qui a été copié, nous ne l'avons pas sauvegardé, personne ne le saura jamais.



Commentaires (1)



Il est important de se rappeler que Stack Overflow ne se limite pas aux questions et réponses. Parfois, un commentaire raisonnable suffit. En voici quelques-uns qui ont été copiés particulièrement activement!







Le premier est le leader absolu parmi les commentaires sur tout le site, et le second est un cheval noir: il n'a recueilli que cinq votes, mais il se classe sixième en termes de nombre d'exemplaires.



All Articles