Créer un ensemble de données pour l’analyse des sentiments en récupérant les revues d’applications de Google Play à l’aide de Python
Dans cet article, vous apprenez à créer un ensemble de données pour l’analyse des sentiments en récupérant les avis des utilisateurs d’applications Android. Vous allez convertir les informations sur les applications et les avis en Data Frames et les enregistrer dans des fichiers CSV.
Installation
Installons les paquets requis et configurons les importations :
Le but de l’ensemble de données
Vous souhaitez obtenir des commentaires sur votre application. Les commentaires négatifs et positifs sont bons. Mais les commentaires négatifs peuvent révéler l’absence de fonctionnalités essentielles ou les temps d’arrêt de votre service (lorsqu’ils sont beaucoup plus fréquents).
Heureusement pour nous, Google Play contient une multitude d’applications, de revues et de notes. Nous pouvons récupérer les informations et les avis sur les applications en utilisant le paquet google-play-scraper.
Vous pouvez choisir un grand nombre d’applications à analyser. Mais les différentes catégories d’applications ont des publics différents, des particularités propres au domaine, etc.
Nous voulons des applications qui existent depuis un certain temps, afin que l’opinion soit recueillie de manière organique. Nous voulons limiter autant que possible les stratégies publicitaires. Les applications sont constamment mises à jour, le moment de l’évaluation est donc un facteur important.
Dans l’idéal, vous voudriez recueillir tous les avis possibles et travailler à partir de ceux-ci. Cependant, dans le monde réel, les données sont souvent limitées (trop volumineuses, inaccessibles, etc.). Nous ferons donc du mieux que nous pouvons.
Choisissons des applications qui répondent à ces critères dans la catégorie Productivité. Nous allons utiliser AppAnnie pour sélectionner certaines des meilleures applications américaines
Scraping les applications
Nous avons obtenu les informations pour les 15 applications. Écrivons une fonction d’aide qui imprime les objets JSON un peu mieux.
Voici un exemple d’informations sur une application de la liste :
Il contient de nombreuses informations, notamment le nombre d’évaluations, le nombre de critiques et le nombre d’évaluations pour chaque note (1 à 5). Ignorons tout cela et jetons un coup d’œil à leurs magnifiques icônes :
Nous allons stocker les informations sur l’application pour plus tard en convertissant les objets JSON en dataframe Pandas et en enregistrant le résultat dans un fichier CSV
app_infos_df = pd.DataFrame(app_infos)
app_infos_df.to_csv('apps.csv', index=None, header=True)
Revues des applications
Dans un monde idéal, nous aurions toutes les revues. Mais il y en a beaucoup,donc Nous voulons un ensemble de données équilibré (à peu près le même nombre d’avis pour chaque note (1–5)) et un échantillon représentatif des revues pour chaque application.
Nous pouvons satisfaire la première exigence en utilisant l’option de package scraping pour filtrer le score des avis. Pour la seconde, nous allons trier les avis en fonction de leur utilité, c’est-à-dire les avis que Google Play juge les plus importants.
Notez que nous ajoutons l’identifiant de l’application et l’ordre de tri à chaque avis. Voici un exemple pour un :
repliedAt et replyContent contiennent la réponse du développeur à l’avis. Bien sûr, ils peuvent être vides.
Combien de revues d’applications avons-nous reçues ?
len(app_reviews)
15750
Sauvegardons les critiques dans un fichier CSV :
app_reviews_df = pd.DataFrame(app_reviews)
app_reviews_df.to_csv('reviews.csv', index=None, header=True)
Vous disposez maintenant d’un ensemble de données contenant plus de 15 000 avis d’utilisateurs sur 15 applications de productivité.
Références