ChatGPT und halluzinierte Referenzen in Artikeln aus ausgewählten Bereichen der Betriebswirtschaftslehre

Christian Schlögl

doi:10.1515/iwp-2024-2016

Published by De Gruyter Saur August 9, 2024

ChatGPT und halluzinierte Referenzen in Artikeln aus ausgewählten Bereichen der Betriebswirtschaftslehre

ChatGPT and hallucinated references in articles from selected areas of business administration

ChatGPT et références hallucinées dans des articles de certains domaines de la gestion d’entreprise

Christian Schlögl
Ao. Prof. Dr. Christian Schlögl (1961–2024) war ab 1990 an der Universität Graz beschäftigt zunächst für viele Jahre an dem von Prof. Wolf Rauch geleiteten Institut für Informationswissenschaft und zuletzt am darauffolgenden Institut für Operations und Information Systems. Seine Forschung konzentrierte sich auf die Bereiche Bibliometrie und Szientometrie, Informationskompetenz sowie Informations- und Wissensmanagement.

From the journal Information – Wissenschaft & Praxis

https://doi.org/10.1515/iwp-2024-2016

Showing a limited preview of this publication:

Zusammenfassung

Der vorliegende Aufsatz untersucht die Problematik von Halluzinationen in vier wissenschaftlichen Aufsätzen aus verschiedenen Bereichen der Betriebswirtschaftslehre, die von ChatGPT-4 verfasst wurden. Konkret soll geprüft werden, ob die von ChatGPT generierten Quellennachweise existieren und, wenn dies der Fall ist, ob sie korrekt sind. Ein erstes überraschendes Ergebnis ist, dass fast 40 Prozent der 174 in den Artikeln referenzierten Quellen, deren bibliografische Angaben nach den einzelnen Hauptkapiteln ausgegeben wurden, nicht im für jeden Aufsatz eigens generierten Literaturverzeichnis ausgewiesen waren. Eine Überprüfung aller bibliografischen Angaben ergab, dass in den einzelnen Artikeln zwischen 18 und 100 Prozent der Quellen in Google Scholar nicht gefunden werden konnten. Die Hälfte der gefundenen ChatGPT-Quellen war in unterschiedlichem Ausmaß fehlerhaft (falscher Dokumenttyp, falscher Zeitschriftenname, falsche Seitenangabe). Im Durchschnitt war nur ein Viertel der bibliografischen Quellenangaben vollständig korrekt. Im Web of Science konnte nur ein Viertel der Quellenangaben nachgewiesen werden, diese waren aber größtenteils korrekt. Obige Ergebnisse zeigen, dass ChatGPT-4 für das Verfassen von wissenschaftlichen Arbeiten – nicht nur aufgrund von ethischen und rechtlichen Bedenken – nicht empfohlen werden kann, da ein großer Teil der (zum Zeitpunkt des Verfassens dieser Arbeit gültigen Version) von ChatGPT generierten Referenzen nicht existiert oder teilweise fehlerhaft ist. Es ist weiter davon auszugehen, dass auch die erzeugten Texte teilweise erfunden sind oder von nicht referenzierten Quellen (Plagiate) stammen. Von ChatGPT erzeugte Texte müssen daher einer umfassenden Überprüfung unterzogen werden, die vor allem auf inhaltlicher Ebene nicht immer einfach sein dürfte. Die Autoren schließen sich daher der Empfehlung von Gimpel et al. (2023) an, dass ChatGPT beim Schreiben primär nur ergänzend (z. B. Rechtschreibkontrolle, Erstellung von Zusammenfassungen, Unterstützung bei der Ideengenerierung) verwendet werden sollte.

Abstract

This paper examines the problem of hallucinations in four scientific articles generated by ChatGPT-4 from various sub-fields of business administration. Specifically, the aim is to check whether the references generated by ChatGPT exist and, if this is the case, whether they are correct. A first surprising result is that nearly 40 Prozent of the 174 sources referenced in the articles, whose bibliographic details were listed after the individual main chapters, were not included in the specially for each article generated bibliography. A check of the bibliographic entries revealed that between 18 % and 100 % of the sources in the individual articles could not be found with Google Scholar. Furthermore, half of the sources found were incorrect to varying degrees (wrong document type, wrong journal name, wrong page reference). On average, only a quarter of the bibliographic references were completely correct. In Web of Science, only a quarter of the sources could be verified, but most of them were correct. The above results show that ChatGPT-4 – besides ethical and legal concerns – should definitely not be used for writing scientific papers, as a large proportion of the references generated by ChatGPT (valid at the time of writing this paper) does not exist or is partially incorrect. Furthermore, it can be assumed that some of the article texts generated are also “invented” or come from unreferenced sources (plagiarism). Texts generated by ChatGPT must therefore be subject to a comprehensive review, which may not always be easy. The authors therefore agree with the recommendation of Gimpel et al. (2023) that ChatGPT should primarily be used as a supplement to writing (e. g., spell-checking, creating summaries, supporting the generation of ideas).

Résumé

Le présent article examine la problématique des hallucinations dans quatre articles scientifiques rédigés par ChatGPT-4 dans différents domaines de la gestion d’entreprise. Concrètement, il s’agit de vérifier si les références générées par ChatGPT existent et, si c’est le cas, si elles sont correctes. Un premier résultat surprenant est que près de 40 % des sources référencées dans les articles 174, dont les indications bibliographiques étaient éditées après chaque chapitre principal, n’étaient pas indiquées dans la bibliographie générée spécifiquement pour chaque article. Une vérification de toutes les données bibliographiques a montré que dans les différents articles, entre 18 et 100 pour cent des sources n’ont pas pu être trouvées dans Google Scholar. La moitié des sources ChatGPT trouvées étaient erronées à des degrés divers (mauvais type de document, mauvais nom de revue, mauvaise indication de la page). En moyenne, seul un quart des références bibliographiques étaient entièrement correctes. Dans le Web of Science, seul un quart des sources ont été identifiées, mais elles étaient en grande partie correctes. Les résultats ci-dessus montrent que ChatGPT-4 ne peut pas être recommandé pour la rédaction de travaux scientifiques – pas seulement en raison de préoccupations éthiques et juridiques – car une grande partie des références générées par ChatGPT (version valable au moment de la rédaction de ce travail) n’existe pas ou est partiellement erronée. On peut également supposer que les textes générés sont en partie inventés ou proviennent de sources non référencées (plagiat). Les textes générés par ChatGPT doivent donc être soumis à une vérification complète, ce qui ne devrait pas toujours être facile, surtout au niveau du contenu. Les auteurs se rallient donc à la recommandation de Gimpel et al. (2023) selon laquelle ChatGPT ne devrait être utilisé en premier lieu qu’à titre complémentaire lors de la rédaction (p. ex. contrôle orthographique, élaboration de résumés, aide à la génération d’idées).

Deskriptoren: Forschung; Wissenschaft; Wissenschaftliches Schreiben; Quellen; Akademische Integrität; Künstliche Intelligenz; Große Sprachmodelle; ChatGPT

Descriptors: Research; Science; Scientific Writing; Sources; Academic Integrity; Artificial Intelligence; Large Language Models; ChatGPT

Descripteurs: recherche; science; écriture scientifique; sources; intégrité académique; intelligence artificielle; grands modèles de langage; ChatGPT

Hinweis

Völlig überraschend verstarb Prof. Schlögl bevor der Beitrag veröffentlicht werden konnte. Für weitere Informationen zu dem Artikel wenden Sie sich bitte an Univ.-Prof. DDr. Gerhard Reichmann, E-Mail: gerhard.reichmann@uni-graz.at

Über den Autor / die Autorin

Ao. Prof. Dr. Christian Schlögl †

Ao. Prof. Dr. Christian Schlögl (1961–2024) war ab 1990 an der Universität Graz beschäftigt zunächst für viele Jahre an dem von Prof. Wolf Rauch geleiteten Institut für Informationswissenschaft und zuletzt am darauffolgenden Institut für Operations und Information Systems. Seine Forschung konzentrierte sich auf die Bereiche Bibliometrie und Szientometrie, Informationskompetenz sowie Informations- und Wissensmanagement.

Literatur

Athaluri Sai Anirudh, Manthena Sandeep Varma, Kesapragada V S R Krishna Manoj, Yarlagadda Vineel, Dave Tirth & Duddumpud Rama Tulasi Siri (2023). Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References. Cureus 15 (4), e37432, DOI: 10.7759/cureus.37432.10.7759/cureus.37432Search in Google Scholar

Bhattacharyya Mehul, Miller Valerie M, Bhattacharyya Debjan & Miller Larry E. (2023). High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content. Cureus 15(5): e39238. DOI: 10.7759/cureus.39238.10.7759/cureus.39238Search in Google Scholar

Buchanan Joy, Hill Stephen & Shapoval Olga (2024). ChatGPT Hallucinates Non-existent Citations: Evidence from Economics. The American Economist, 69 (1), 80 – 87. DOI: 10.1177/05694345231218454.10.1177/05694345231218454Search in Google Scholar

Clarivate (2022). Web of Science Core Collection: Explanation of peer reviewed journals. Version vom 12.05.2022, abgerufen am 10. 4. 2024 von https://support.clarivate.com/ScientificandAcademicResearch/s/article/Web-of-Science-Core-Collection-Explanation-of-peer-reviewed-journals?language=en_US.Search in Google Scholar

Clarivate (2024). Web of Science-Recherche, durchgeführt am 2. 5. 2024, https://www.webofscience.com/wos/woscc/analyze-results/675ef6a4-cc60-45de-9efb-f32e738125bd-e4f6a5c1.Search in Google Scholar

Day Terence (2023). A Preliminary Investigation of Fake Peer-Reviewed Citations and References Generated by ChatGPT. The Professional Geographer, 75 (6), 1024–1027, DOI: 10.1080/00330124.2023.2190373.10.1080/00330124.2023.2190373Search in Google Scholar

Dergaa Ismail, Chamari Karim, Zmijewski Piotr & Saad Helmi Ben (2023). From human writing to artificial intelligence generated text: examining the prospects and potential threats of ChatGPT in academic writing. Biology of Sport, 41 (2), 615 – 622. DOI: 10.5114/biolsport.2023.125623.10.5114/biolsport.2023.125623Search in Google Scholar

Emsley Robin (2023). ChatGPT: these are not hallucinations – they’re fabrications and falsifications. Schizophrenia 9 (1), 1 – 2, DOI: 10.1038/s41537-023-00379-4.10.1038/s41537-023-00379-4Search in Google Scholar

Gimpel Henner, Hall Kristina, Decker Stefan, Eymann Torsten, Lämmermann Luis, Mädche Alexander, Röglinger Maximilian, Ruiner Caroline, Schoch Manfred, Schoop Mareike, Urbach Nils & Vandirk Steffen (2023). Unlocking the Power of Generative AI Models and Systems such as GPT-4 and ChatGPT for Higher Education: A Guide for Students and Lecturers. University of Hohenheim, 2023.Search in Google Scholar

Goddard Jerome (2023). Hallucinations in ChatGPT: A Cautionary Tale for Biomedical Researchers – Commentary. The American Journal of Medicine, 136 (11), 1059 – 1060, DOI: 10.1016/j.amjmed.2023.06.012.10.1016/j.amjmed.2023.06.012Search in Google Scholar

Gusenbauer, Michael (2019). Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases. Scientometrics, 118, 177 – 214, DOI: 10.1007/s11192-018-2958-5.10.1007/s11192-018-2958-5Search in Google Scholar

Hu Krystal (2023). ChatGPT sets record for fastest-growing user base – analyst note. February 2, 2023, abgerufen am 9. 4. 2024 von https://www.reuters.com/technology/chatgpt-sets-record-fastest-growing-user-base-analyst-note-2023-02-01/.Search in Google Scholar

Kullmann Sylvia & Hiebl Johannes (2024). Artificial Intelligence (AI) Research Assistants in der Praxis. Information: Wissenschaft & Praxis, 75 (1), 32 – 33, DOI: 10.1515/iwp-2023-2045.10.1515/iwp-2023-2045Search in Google Scholar

Nazir Anam & Wang Ze (2023). A comprehensive survey of ChatGPT: Advancements, applications, prospects and challenges. Meta-Radiology, (1), 1 – 12, DOI: 10.1016/j.metrad.2023.100022.10.1016/j.metrad.2023.100022Search in Google Scholar

OpenAI (2023). GPT-4 Technical Report. Submitted on 15 Mar 2023 (v1), last revised 4 Mar 2024 (this version, v6), abgerufen am 10. 4. 2024 von https://doi.org/10.48550/arXiv.2303.08774.Search in Google Scholar

Sharun Khan, Banu S. Amitha, Pawde Abhijit M., Kumar Rohit, Pharma Shopnil Aksah M., Dhama Kuldeep & Pal Amar (2024). ChatGPT and artificial hallucinations in stem cell research: assessing the accuracy of generated references – a preliminary study. Annals of Medicine & Surgery, 85, 5275 – 5278, DOI: 10.1097/MS9.0000000000001228.10.1097/MS9.0000000000001228Search in Google Scholar

Universität Graz (2023). Orientierungsrahmen zum Umgang mit textgenerierenden KI-Systemen an der Universität Graz (Stand 1. September 2023), abgerufen am 2. 5. 2024 von https://static.uni-graz.at/fileadmin/projekte/Schreibzentrum/Neuigkeiten/KI-Orientierungsrahmen_230901.pdf.Search in Google Scholar

Wagner Matthias W. & Ertl-Wagner Birgit B. (2023). Accuracy of Information and References Using ChatGPT-3 for Retrieval of Clinical Radiological Information. Canadian Association of Radiologists Journal, 75 (1), 69 – 73, DOI: 10.1177/08465371231171125.10.1177/08465371231171125Search in Google Scholar

Walters William H. & Wilder Esther Isabelle (2023). Fabrication and errors in the bibliographic citations generated by ChatGPT. Nature Scientific Reports, 13, 14045, DOI: 10.1038/s41598-023-41032-5.10.1038/s41598-023-41032-5Search in Google Scholar

Online erschienen: 2024-08-09

Erschienen im Druck: 2024-08-06

ChatGPT und halluzinierte Referenzen in Artikeln aus ausgewählten Bereichen der Betriebswirtschaftslehre

Zusammenfassung

Abstract

Résumé

Hinweis

Über den Autor / die Autorin

Literatur

Journal and Issue

Articles in the same Issue