TACC COVID-19 Twitter-Datensatz ermöglicht sozialwissenschaftliche Forschung über Pandemie

0

Von den unzähligen Methoden, mit denen Forscher die Ausbreitung des Coronavirus bekämpfen, ist das Studium von Tweets vielleicht nicht die erste, die in den Sinn kommt.

Aber jetzt, wie auch in vergangenen Krisen, kann der Zugriff auf einen der weltweit führenden Echtzeit-Nachrichtendienste dabei helfen, neue Pandemie-Hotspots zu identifizieren, neue Symptome hervorzuheben oder zu interpretieren, wie Menschen und Gemeinschaften auf Befehle reagieren, soziale Distanzierung zu praktizieren.Das Expertenteam für Datenwissenschaft des Texas Advanced Computing Center (TACC) hat in der Vergangenheit die Analyse von sozialen Medien erleichtert und maschinelle Lernprogramme entwickelt, um die Erkenntnisnadeln besser aus den riesigen Heuhaufen des Twitterversees herauszuziehen.Ab März begann TACC mit der täglichen Aufnahme großer Mengen von Tweets – bis zu 40 Millionen Nachrichten, von denen eine Million einzigartig sind.

Durch die Kombination ihrer Sammlung mit ähnlichen Bemühungen von Gruppen an der UT Austin, der University of Southern California und der George State University haben sie ihre Sammlung von Tweets zum Thema COVID-19 bis in den Januar hinein erweitert ( Letzte Woche kündigte Twitter an, dass es neue API-Endpunkte zu seiner eigenen COVID-19-bezogenen Tweets-Sammlung für zugelassene Entwickler und Forscher veröffentlichen wird).”Es gibt ein großes Interesse an dieser Art von Sammlungen.

Es ist sehr nützlich in der Datenwissenschaft”, sagte Weijia Xu, die die Scalable Computational Intelligence-Gruppe am TACC leitet.

Heute kündigte das TACC ein neues GitHub-Repository an, in dem interessierte Forscher sowohl auf Zeiger zu Twitter-Rohdaten im Zusammenhang mit COVID-19 als auch auf groß angelegte Analysen zugreifen können, die durch die Supercomputer des TACC ermöglicht werden.Die erste der Analysen, die den Forschern zur Verfügung steht, ist eine Reihe von n-Grammen: aneinandergrenzende Wortfolgen aus einer gegebenen Stichprobe von Tweets.

Für jeden Tag der Pandemie wurden die wichtigsten 1.000 Ein-, Zwei- und Dreiwortsequenzen zusammengestellt.

Tun Sie mir einen Gefallen: Bitte TEILEN Sie diesen Beitrag.

Das Zusammensetzen auch nur eines einzigen 1-Gramm aus mehreren Millionen Tweets kann aufgrund des hohen Datenverarbeitungsaufwands auf einem Laptop bis zu einer Stunde dauern, kann aber auf den Supercomputern von TACC in wenigen Minuten erledigt werden.

Die….

Share.

Leave A Reply