User talk:Sebotic

From Wikidata
Jump to navigation Jump to search


Clinvar

[edit]

Do you need some help with [1] ? Andy Mabbett (Pigsonthewing); Talk to Andy; Andy's edits 08:43, 2 June 2015 (UTC)[reply]

@Andy Mabbett Thank you, I had issues with correctly entering the subject item and sent the proposal off too early, should be fine now.

PubChem ID

[edit]

Hello, please when you add or modify values of the PubChem ID property, check if the value has the following format: xxx.x. As identifier this value should not have any decimal. See constraint report Wikidata:Database reports/Constraint violations/P662. Thank you Snipre (talk) 12:09, 22 July 2015 (UTC)[reply]

Sorry I see now your corrections. Snipre (talk) 12:30, 22 July 2015 (UTC)[reply]
@Snipre Thanks for the notice, thought!

NDF-RT ID (P2115) is ready. --Tobias1984 (talk) 13:51, 27 September 2015 (UTC)[reply]

@Tobias1984: Awesome, thank you!

PubChem Substance ID (SID) (P2153) is ready. --Tobias1984 (talk) 13:29, 4 October 2015 (UTC)[reply]

Cell line ontology

[edit]

Cell Line Ontology ID (P2158) is ready. --Tobias1984 (talk) 14:24, 4 October 2015 (UTC)[reply]

p2175 and p2176

[edit]

medical condition treated (P2175) and drug or therapy used for treatment (P2176) are ready. Some discussion about labels and descriptions still needed. --Tobias1984 (talk) 12:29, 5 October 2015 (UTC)[reply]

Refseq genome ID

[edit]

RefSeq genome ID (P2249) is ready. --Tobias1984 (talk) 19:33, 21 October 2015 (UTC)[reply]

P2293

[edit]

genetic association (P2293) is ready to be used. --Tobias1984 (talk) 22:45, 10 November 2015 (UTC)[reply]

Hallo Sebotic,

warum hast du hier eigentlich nicht in die niedrigere Q-Nummer zusammengelegt (gemergt)?--Kopiersperre (talk) 21:49, 29 February 2016 (UTC)[reply]

@Kopiersperre: Ich kann jetzt leider auch keinen Grund mehr erkennen, warum ich den Merge so gemacht habe. Vermutlich waere das aeltere Item als Merge target besser gewesen. Aber generell versuche ich schon, die niedrigere Q Nummer als target zu verwenden. Sebotic (talk) 18:02, 1 March 2016 (UTC)[reply]
Es hat mich nur gewundert, da das Merge-Gadget doch standardmäßig in die niedrigere Nummer mergt.--Kopiersperre (talk) 03:05, 2 March 2016 (UTC)[reply]

Allgemein ist es nicht gut, in das neuere Item zu mergen, weil das alte Item schon in Verwendung sein könnte.--Kopiersperre (talk) 11:42, 8 March 2016 (UTC)[reply]

@Kopiersperre: Also das merge tool scheint keine Praeferenz fuer die Richtung eines Merges zu haben, auch nicht der entsprechende Wikidata API call, der User legt die Richtung fest. Auch wenn ein Item bereits in Verwendung ist, sollte bei einem Merge ja ein Redirect gesetzt werden, damit gibt's dann ueblicherweise keine Probleme. Aber wie gesagt, ich versuche meistens, das alte Item als Mergetarget zu verwenden. Gruss, Sebotic (talk) 19:24, 8 March 2016 (UTC)[reply]

Hi Jutuom, the property is now available. Please make good use of it.
--- Jura 16:39, 19 May 2016 (UTC)[reply]

Running a bot

[edit]

Hi Sebotic, you seem to be running a bot under your account that got logged out. Please have a look at Wikidata:Bots for our policy on bots. Multichill (talk) 18:13, 3 October 2016 (UTC)[reply]

@Multichill: Sorry, I logged out and my script got logged out as well. This is not a real bot, just a one time import. For the actual bot task, I am just putting together a bot proposal, will be up in a few minutes. Sebotic (talk) 18:30, 3 October 2016 (UTC)[reply]
Thanks for this. But I think we've seen enough test edits now. Please wait for approval (or the explicit request to provide more examples) until you go on running your bot. --YMS (talk) 06:22, 5 October 2016 (UTC)[reply]
@YMS: The edits with the SoCalChemBot account today were accidental, was logged in the wrong account. Will wait for approval before I go any further with this. Sebotic (talk) 06:30, 5 October 2016 (UTC)[reply]
Maybe user:YMS wasn't clear: You should stop running a bot until it's approved. Multichill (talk) 19:01, 5 October 2016 (UTC)[reply]
I have difficulties to see why I cannot use the API to do imports with my personal account, has this something to do with the bot flag? So if I remove it I can continue? Some of the one-time, semi-automatic cleanup operations I do with my user account also look like bot account edits. Btw, I have gained permission to do this exact task with the ProteinBoxBot already more than a year ago and the reason for filing for another bot account is just that ProteinBoxBot runs 4 tasks which start to block each other. Best, Sebotic (talk) 20:16, 5 October 2016 (UTC)[reply]

Monsterdiff

[edit]

Hallo Sebotic. Bei Monsterdiffs wie Special:Diff/383701667 ist es schwierig zu erfassen, was genau nun geändert wurde. Könntest du bitte eine Kurzerklärung im Bearbeitungskommentar ergänzen? --Leyo 13:00, 4 October 2016 (UTC)[reply]

@Leyo: Ich werde versuchen, eine Kurzauflistung der wichtigsten Aenderungen hinzuzufuegen, das erfordert aber einiges an Aufwand, weil ich dafuer zuerst die Aenderungen die entstehen werden, analysieren muss und dann in Textform bringen. Aufgrund der Datenquellen sind die Anderungen die sich ergeben naemlich von Item (Datenobjekt auf Deutsch) zu Item verschieden. Sebotic (talk) 22:26, 4 October 2016 (UTC)[reply]
Was bleibt denn gleich? Auch etwas wie Import von <Quelle> wäre informativer als nichts. ;-) --Leyo 23:16, 4 October 2016 (UTC)[reply]
Der Zweck dieses ganzen Editmarathons ist, die chemischen Verbindungen endlich auf ein halbwegs konsistentes und fuer Wissenschaftler verwendbares Niveau zu bringen. Sobald das abgeschlossen ist, sollte sich an den wesentlichen Identifiern der Items nicht mehr allzu viel aendern, aber natuerlich sollen moeglichst viele chemische Eigenschaften nach und nach einfliessen. Es gibt auch jeden Menge Items die humane Aufmerksamkeit benoetigen, hier im Project chemistry hab ich eine Liste gepostet.
Ich werd mir bezueglich der Edit summary was einfallen lassen, zum Start moeglicherweise kurz ein String 'synchronization with PubChem, Chemspider, Chebi, UNII, DrugBank'. Best, Sebotic (talk) 06:45, 5 October 2016 (UTC)[reply]
Könntest du bitte den Quelltext von deinem Bot verlinken oder irgendwo beschreieben, wie er genau funktioniert? Geschieht die Synchronisation nur ausgehend von der CAS-Nummer?--Kopiersperre (talk) 08:19, 5 October 2016 (UTC)[reply]
Und was passiert, wenn der PubChem-Eintrag fehlerhaft ist? Siehe ein Beispiel dazu unter de:WP:QSC#Thiafentanil. --Leyo 08:22, 5 October 2016 (UTC)[reply]
@Kopiersperre, Leyo: also die CAS nummer ist nicht sehr eindeutig weil sie fuer reine chemische Verbindungen, fuer Substanzen, fuer undenfinierte Gemische (e.g. bestimmte Oele, Raffinerieprodukte) und auch fuer ganze Proteinklassen (z.B Kollagen) eine einzige oder mehrere redundante CAS nummern verwendet. Das Hauptproblem aber ist, dass CAS nicht frei ist und vor allem auch keine freie Resource fuer CAS nummern existiert. Man kann sie zwar von PubChem, ChEBI und anderen zusammensammeln, aber wie das Pubchem-Beispiel oben zeigt, ist das nicht immer korrekt. Die Loesung ist, es strukturbasiert ueber InChI keys und InChIs bzw SMILES zu machen, koennen auch ineinander umgewandelt werden (zumindest InChI und SMILES). Das hat einige Vorteile, InChI und keys sind frei und definieren/identifizieren die Struktur eindeutig. Ausserdem sind sie ueber alle freien Chemie-Resources halbwegs konsistent. Das kurzfristige Ziel, so wie auch im Wikidata project chemistry festgelegt, waere nun, alle chemischen Verbindungen in Wikidata auf eine gemeinsame Struktur zu bringen, also mindestens einen korrekten InChI, InChI key oder SMILES, alternativ auch PubChem ID, Chemspider, ChEMBL ID, ChEBI. Der Rest kann dann von meinem Bot erledigt werden, auch Qualitaetskontrolle, weill zumindest die Konsistenz der chemischen Strukturdaten automatisch geprueft werden kann und man sich nicht auf CAS nummern verlassen muss. Fuer Substanzen unklarer Zusammensetzung, Polymere, Proteine/Biotechmedikamente, werden wir vermutlich nur bestimmte IDs verwenden konnen wie UNII, Guide to Pharmacology ID, Drugbank, weil die Strukturinformation entweder nicht existiert oder in Wikidata zZ schwer darzustellen ist. Der Sourcecode ist zum teil schon hier zu finden: https://bitbucket.org/sulab/wikidatabots/, der Rest folgt in Kuerze. Ich werde auch auf der Wikiconference North America hier in San Diego einen Talk geben zu diesem Thema, am Samstag glaube ich. Davon duerfte es dann auch Videomaterial geben. Sebotic (talk) 09:45, 5 October 2016 (UTC)[reply]

Property:P231 ergänzen

[edit]

Hallo Sebotic. Könntest du bei solchen Änderungen vielleicht auch gleich instance of (P31) chemical compound (Q11173) (falls zutreffend) ergänzen? So könnte auch die Wartungsliste unter Wikidata:Database reports/Constraint violations/P231 verkürzt werden. --Leyo 16:38, 5 October 2016 (UTC)[reply]

Das mache ich bereits, allerdings hab ich das bei den ersten Korrekturen vor bein paar Wochen aus technischen Gruenden noch sein lassen. Mir ist aufgefallen, dass einige wenige User die instance of chemical compound klasifizierung entfernt haben, zugunsten einer detaillierteren, chemischen Klassifizierung, das is aber keine besonders gute idee, weil es verhindert, dass man alle chemischen Verbindungen mit einer einfachen SPARQL query abrufen kann. Sebotic (talk) 16:59, 5 October 2016 (UTC)[reply]
@Leyo: Allerdings sollte nicht jede Substanz mit einer CAS-Nummer automatisch P31:Q11173 bekommen. James Hare (NIOSH) fügt gerade lauter Stoffe hinzu wie hydrotreated kerosene (Q27096165) oder coal slag (Q27095863), wo es eindeutig falsch wäre. Könnte man für die Constraint violations-Liste vielleicht eine Blacklist einführen?--Kopiersperre (talk) 10:52, 6 October 2016 (UTC)[reply]
@Kopiersperre: Man könnte ggf. mixture (Q169336) ergänzen, oder? --Leyo 09:08, 15 October 2016 (UTC)[reply]

Stoffgruppen

[edit]

Hallo Sebotic,

bei vielen Stoffgruppen hat der Pigsonthewing-bot falsche PubChem-Nummer gesetzt (z.B. dinitroaniline (Q1226496) und dinitrobenzene (Q905814)). Infolgedessen machte dein Bot dann Unsinn. Könntest du bitte nach Fehlern dieser Art suchen?--Kopiersperre (talk) 17:39, 6 October 2016 (UTC)[reply]

Was ist der Unterschied zu antimycin A1b (Q418539)?--Kopiersperre (talk) 21:19, 6 October 2016 (UTC)[reply]

Zweiteres hat eine voellig undefinierte Stereochemie und ausserdem eine etwas andere Konnektivitaet (liegt an den Wasserstoffen). Die Qualitaet des ersteren Eintrags ist daher besser. Es gibt aber leider keine sinnvolle Moeglichkeit, beide zusammenzufuehren, man koennte das ueber subclass of oder said to be same as properties machen. Ideen? Sebotic (talk) 01:58, 7 October 2016 (UTC)[reply]
Ich muss sagen, dass ich extrem unglücklich über die Datenbanken bin, von denen du importierst. ChEBI und mehrere andere Datenbanken sind bloß Meta-Datenbanken, die Werte für Antimycin A1 wurden von Q5323672 bezogen. Die anderen Datenbanken geben gar nicht an, woher sie die Daten haben. Was hilft es mir, wenn 5 Datenbanken untereinander verbunden sind, aber alle von der selben Quelle einen Fehler übernommen haben?
Warum werden keine Literaturbelege angegeben, wie in der Wissenschaft allgemein üblich? Sogar Belege ohne DOI/PMID wären mir tausendmal lieber als die jetzige Praxis, die Datenherkunft völlig zu verschleiern.
In der der deutschen Wikipedia habe ich eine Tabelle von Antimycin A1–A4 gemacht. Bitte wirf mal einen Blick drauf.--Kopiersperre (talk) 08:44, 7 October 2016 (UTC)[reply]
@Kopiersperre: Ich muss leider vollstaendig zustimmen, der Zustand der frei verfuegbaren chemischen Daten ist unbefriedigend, das hat sehr viel mit der wissenschaftlichen Kultur in der Chemie zu tun die, meiner Erfahrung nach, (noch) weit nicht so offen ist wie z.b. in der Biologe. Ausserdem sind gute chemische Daten viel Geld werd, das Geschaeftsmodell mancher Firmen und Organisationen beruht auf dem Handel mit guten chemischen Daten. Deren Interesse, diese Daten oeffentlich verfuegbar zu haben, ist daher natuerlich nicht gross. Aber trotzdem kann man sagen, dass die Daten in ChEBI recht gut sind, auch in ChemSpider und PubChem, wobei die 2 letzteren ja nur Aggregatoren von Daten sind. Aber generell muss man davon ausgehen, dass rund 5-7% der Daten kleinere oder groessere Probleme aufweisen. Meiner Meinung nach ist das Hauptproblem schlecht characterisierte Strukturdaten, die dann, je nach Quelle, Strukturen mit undefinierten Stereozentren produzieren, die dann die Datenbanken zumuellen. Das Problem besteht vor allem bei groesseren Molekuelen biologischen Ursprungs.

Nun zu deinem Beispiel: Es sieht so aus als ob antimycin A1 (Q27067441) das Wikidata item mit der besten Strukuraufklaerung ist, auch wenn andere items mehr Daten haben und die Identifizierer weiter verbreitet sind (z.B. die mit den InChI key UIFFUZWRFRDZJC-SBOOETFBSA-N (noch nicht in Wikidata)). Wir arbeiten direkt mit Leuten von PubChem und die sagen ganz klar, dass nicht notwendigerweise die Struktur mit der groessen Verbreitung auch die beste Qualitaet aufweisst. Sehr schoene Arbeit bezueglich des deutschen Wikipedia Artikels! Wir brauchen viel mehr solche.. Es wird sich nicht vermeiden lassen, dass von einer chemischen Verbindung mit derselben Konnektiviaet zumindest zeitweise mehr als eine Struktur existiert. Einerseits gibt es viele natuerlich vorkommende Stereoisomere andererseits eben die Problem bei der experimentellen Bestimmung. Ich denke wir brauchen gute Kurationsmechanismen die Usern mit chemischer Expertise ermoeglichen, solche exisitierenden Probleme halbwegs einfach zu beheben.

Noch bezueglich Listeratur: Viele dieser Verbindungen kommen aus Patentdatenbanken, Combound libraries verschiedener Firmen, daher gibts zu vielen keine gute Literatur. Allerdings gibts in PubChem trotzdem fuer sehr viele compounds PMIDs, ich werde versuchen auch diese anzuzapfen. Sebotic (talk) 23:22, 7 October 2016 (UTC)[reply]

Hallo Sebotic,

ich muss noch einmal rumnerven: Lass deinen Bot bitte alpha stets durch α ersetzen. Die Verwendung von alpha in den chemischen Datenbanken ist nur durch den (ehemals) eingeschränkten Zeichensatz begründet.--Kopiersperre (talk) 11:37, 9 October 2016 (UTC)[reply]

@Kopiersperre: Kann ich fuer alle griechischen Buchstaben beim naechsten Durchgang gerne machen, bisher hab ichs einfach so ubernommen, wie ichs von ChEBI bekomme. In Zeiten von Unicode ist die Verwendung des lateinischen Ersatzstrings ja nicht mehr nowendig. Sebotic (talk) 22:07, 9 October 2016 (UTC)[reply]
-> sollte zudem in geändert werden. Wie findet man alle betreffenden Items? --Leyo 22:14, 9 October 2016 (UTC)[reply]
@Leyo: Das kann man z.b mit dieser SPARQL query machen, falls du die finden willst, mein Bot macht das etwas anders, indem er ueberprueft, ob sich was geaendert hat fuer alle Daten die geschrieben werden sollen.
SELECT ?c ?cLabel ?chebi WHERE {
	?c wdt:P683 ?chebi .
 
  	SERVICE wikibase:label {
    	bd:serviceParam wikibase:language "en" . 
  }
}
group by ?c ?cLabel ?chebi
having (contains(?cLabel, "->"))
Try it!

Sebotic (talk) 04:57, 10 October 2016 (UTC)[reply]

Puh, ganze 1482 Treffer. IMHO könnte man diese Bezeichnung per Bot zu den Synonymen schreiben und bei den momentanen Bezeichnungen die erwähnten Ersetzungen vornehmen. --Leyo 15:45, 10 October 2016 (UTC)[reply]
@Leyo: Das kann man einfach beim naechsten Bot run so machen, das bisherige, unicode0-freie Label wird teil der Aliases, und wird ersetzt durch das Label mit den entsprechenden Unicode Zeichen. Sebotic (talk) 17:18, 10 October 2016 (UTC)[reply]
Nun gibt es sogar 1509 Treffer. Könntest du deinen Vorschlag gelegentlich umsetzen? Ich kann das leider nicht. --Leyo 07:25, 11 July 2017 (UTC)[reply]
Ich hab ziemlich viel um die Ohren momentan, werde mich aber bemuehen das doch moeglichst zuegig umzusetzen. Sebotic (talk) 17:26, 11 July 2017 (UTC)[reply]

Duplicate detection

[edit]

Hallo Sebotic,

bitte implementiere außerdem noch eine Duplikat-Erkennung. Autolist wehrt sich standardmäßig, Items mit einer bereits existierenden Bezeichnung zu erstellen. Dann würde pentanochlor (Q27155698) + pentanochlor (Q22808508) nicht passieren.--Kopiersperre (talk) 08:08, 10 October 2016 (UTC)[reply]

@Kopiersperre: Eine duplicate detection is ausgiebig implementiert, die hat hier aber nicht angeschlagen, weil sich CAS nummern nur eingeschraenkt als eindeutige ID eignen und die UNII keinem InChI key zugewiesen ist. Grundsaetzlich liesse sich das Problem vermeiden, haette jedes Item zumindest eine eindeutige ID (eindeutig mein hier, dass die ID nicht auf einem anderen WD item exisitiert), z.B. PubChem CID, Chemspider ID, UNII, Guide to pharmacology, ChEBI, InChi, InChI key. Ich kann die CAS nummer auch als eindeutige ID verwenden, hat in der Vergangenheit aber zu Problemen gefuehrt. Generell sollte die Zahl der Duplikate somit gering sein und ist durch einen Merge einfach zu beheben. Sebotic (talk) 08:31, 10 October 2016 (UTC)[reply]
Ich meinte eine String-basierte Duplikat-Erkennung. Es würde mir reichen, wenn dein Bot ein Logfile über neue Items mit schon (auch in einer anderen Sprache) existierenden Namen produzieren würde.--Kopiersperre (talk) 08:35, 10 October 2016 (UTC)[reply]
@Kopiersperre: Das wird aber ziemlich kompliziert, vor allem weil die Labels in anderen Sprachen sehr haufig ganz leicht um 1-2 Buchstaben abweichen, Deutsch und English sind ja oft noch gleich, aber in romanischen Sprachen werden sie praktisch durchgaengig unterschiedlich sein. Fuer die vielen Faelle, wo tatsaechlich Lasbel und Beschreibung gleich sind, also Beschreibung ueblicherweise 'chemical compound' is bekomme ich ohnehin eine Fehlermeldung der API. Mein Vorschlag waere eigener Bot code, der mittels SPARQL idente Labels aufspuert und z.b. auf einer dafuer vorgesehenen chem Project postet. So kann sich die Community der Probleme annehmen. Sebotic (talk) 17:23, 10 October 2016 (UTC)[reply]
Einverstanden. Nur vergiss bitte nicht, dass die Community, die deine Daten wieder aufräumt, eigentlich nur aus Snipre und vielleicht noch aus Leyo und mir besteht.--Kopiersperre (talk) 17:49, 10 October 2016 (UTC)[reply]
@Kopiersperre:Ich betrachte mich ja nicht als der aussenstehende Datenimporteur, ich habe ja in den letzten Wochen semi-automatisch hunderte bestehende Items aufgeraeumt. Ich denke nur, dass es jedenfalls automatischer Fehlererkennung bedarf, weil sonst das Ganze nicht zu bewerkstelligen ist, vorallem weil die community in diesem Bereich zZ klein ist. Daher sollten wir einfach eine Reihe von SPARQL queries festlegen um Fehler erkennen zu koennen. Ein guter Start waere, diese Fragen einfach zuerst in natuerlicher Sprache zu formulieren, so aehnlich wie Leyo oben bezuelich des Pfeils. Ich kann dann aus diesen Fragen SPARQL queries machen, die ich auf meiner GitHub Seite oder Wikidata user page poste. Sebotic (talk) 21:40, 10 October 2016 (UTC)[reply]

Recent edits, e.g. to water (Q283) and aluminium (Q663)

[edit]

Please see Help:Label - labels should not be capitalised unless they are proper nouns. You changed the capitalisation of both water (Q283) (Special:Diff/383814894) and aluminium (Q663) (Special:Diff/383665651) recently.

I've undone your changes to the description and aliases of aluminium (Q663). The original description is much more descriptive and accurate. There is no point adding aliases which duplicate the label and "Aluminio" does not seem to be English. I've also undone the change of rank of the instance of (P31) chemical compound (Q11173) statement on aluminium (Q663) because chemical compound (Q11173) is something with two or more elements which is not true of aluminium, so the statement is incorrect.

Could you also use more descriptive summaries and not put unrelated changes together? It's impossible to tell what you're changing without checking every single diff and even then it's hard to see what's going on. Some of these edits do include bad changes and it's really not good that they're hidden away where people are even less likely to spot them. It also means that people can't use the undo function without undoing everything else that was changed.

- Nikki (talk) 12:16, 12 October 2016 (UTC)[reply]

Here's another: Special:Diff/383665712. ProteinBoxBot is also making bad changes, like Special:Diff/384274601 where it incorrectly adds a statement saying that it's a compound, it replaces the existing human-written description with a simple and incorrect description and also changes the label to something which is not correct either. rubidium (Q895) is an element and the name of the element is "rubidium", not "rubidium atom". Now a bunch of the names on https://tools.wmflabs.org/ptable/ are wrong. Please undo the changes to the labels and descriptions and the addition of statements claiming elements are compounds. I think you should also stop the bot from blindly replacing existing descriptions, that's not very nice. - Nikki (talk) 12:43, 12 October 2016 (UTC)[reply]
@Nikki: Sorry for that mistake, I fixed the problem in my bot several days ago. but I did not catch all elements affected. I have appropriate checks in place now so that the description does not get overwritten anymore. I now corrected all elements back to the original label and description and renmoved the instance of compound. But essentially, the whole mistake only happened because the chemical elements items are a mixture of data about the concept of a chemical element and the actual chemical compound some of these elements could exists as. I think there should be a clean semantic separation? (e.g. they should not have SMILES or PubChem Ids)
Regarding a clearer info about the actual edits: This is tricky because for performance reasons, I need to use a comprehensive API call named wbeditentity. This does not allow separate revisions for each statement. Furthermore, for keeping the revision history clean and useful, I think these bulk edits are way more appropriate. But I will add a description in the future in order to indicate what an edit was about. Thanks Sebotic (talk) 20:24, 12 October 2016 (UTC)[reply]

Hallo Sebotic. Die Abgrenzung stimmt IMHO noch immer nicht. So ist bei beiden dieselbe EG-Nummer (EINECS-Nummer) angegeben. Bei ersterer würde cation (Q326277) besser passen und die franz. Aliasse passen nicht. Gäbe es bei zweiterer nicht eine passendere/„schönere“ Bezeichnung? --Leyo 09:05, 15 October 2016 (UTC)[reply]

@Leyo: Danke fuer den Hinweis! Bzgl der EINECS: Das problem ist hier, dass das mapping in der FDA UNII falsch ist (kann man anhand der referenz sehen, woher es kommt). Werde ich durch 'no-value' erstetzen, damit klar is, dass fuer diese Verbindung kein EINECS existiert (hab extrat im annex III nachgeschaut). Diese Fehler sind tatsaechlich sehr muehsam. Bzgl der Labels und aliases wirds richtig schwierig, einerseits importiere ich zZ nur englische Labels, andererseits sind fuer sehr viele chemische Verbindungen keine Labels/aliases in anderen Sprachen verfuegbar. Und darueber hinaus verstehe ich zwar leidlich Franzoesisch, aber z.b. kein Chinesisch. Ich kann daher das Problem nicht loesen, sondern nur korrigieren, wenn mir etwas auffaellt. Das Label von thiamine(1+) ion (Q83187) sollte man auf 'thiamine(1+)' aendern, der Praezision wegen, aber ich denke, das Label von thiamine(1+) chloride (Q27115611) sollte man so lassen. Der Grund ist, dass mehrere Ionen von Thiamin existieren koennen, z.B. thiamine(2+) (Q27121487) und dazu noch jede Menge verschiedener, relevanter Salze (siehe ChEBI). Deinem Vorschlag fuer Kation bin ich zwar nicht abgeneigt, aber die momentane Vorgehensweise hat den Vorteil, dass sie kurz und prazise und auch in Konkordanz mit ChEBI ist. Was wuerdes du z.B. bei thiamine(2+) schreiben? Wie wir das Sprachproblem loesen ist mir allerdings noch nicht ganz klar. Sebotic (talk) 19:14, 15 October 2016 (UTC)[reply]

Hallo Sebastian, dein Bot hat hier aus dem Datenobjekt für die Farbe Gelb eine chemische Verbindung gemacht. Schau mal bitte drauf. Gruß --Succu (talk) 11:01, 20 October 2016 (UTC)[reply]

@Succu: Ich stimme zu, dass fuer das generelle Konzept der Farbe Gelb die chemische Verbindung fuer ein ganz bestimmtes Gelb natuerlich nicht sinnvoll ist. Der Grund warum mein Bot diese hinzugefuegt hat ist die UNII, die schon vorher auf dem Item vorhanden war. Diese UNII bezieht sich auf eine ganz spezifische chemische Verbindung und sollte daher vermutlich geloescht werden. Mein Bot nutzt diese eindeutigen chemischen Identifizierer um festzustellen ob etwas eine chemische Verbindung ist und daher auch die restliche Info zu dieser chemischen Verbindung haben sollte. Sebotic (talk) 18:39, 20 October 2016 (UTC)[reply]
Ich bin da heute nur zufällig darauf gestoßen. Eine Reihe von Taxa wurden per Mix'n'Match ebenfalls mit einer UNII-ID „beglückt“. Ich schätze die sollten auch entfernt werden... Gruß --Succu (talk) 19:37, 20 October 2016 (UTC)[reply]
@Succu: Es gibt allerdings auch UNIIs die generelle Konzepte besschreiben, nicht nur definierte chemische Verbindungen. Dabei handelt es sich ueblicherweise um Nahrungsmittel oder Lebensmittelzusatzstoffe die von der FDA zugelassen sind. Ein UNII statement auf einem Taxon Item finde ich allerdings nicht besonders praezise. Sebotic (talk) 21:34, 20 October 2016 (UTC)[reply]

SoCalChemBot: some problems for the future

[edit]

Hello, I come again as I saw the results of your last update in chemicals. I have different concerns about the way you work and I prefer to start a discussion hoping we can find some solutions. First you delete and replace correct information. In methyl bromide (Q421758) your bot changes the label bromomethane by methyl bromide. This is not a big problem but why do you change a correct label ? Methyl bromide is correct but based on IUPAC rules bromomethane is more correct. The main problem is what is your criterion to change the label in this case ? Do you have a special algorithm to treat these cases ? My concern is to know if I can continue to do some changes without the risk to see my contributions reverted by your bot without a good reason or at least without any human evaluation. Then I see that you delete previous statements before adding new ones even when the previous ones were correct. You even delete previous references to add only a new one (see trichloromonofluoromethane (Q423000) where the ChEBI reference for the CAS number was deleted and replaced by UNII reference evene when the ChEBI one was correct and still valid). This is not respecting the principle of WD which wants to increase the quality of its data by adding more and more references for each statement: one reference is not enough to determine is something is correct but several references for a value indicate a high probability that a value is correct. My question is the following: if I add one reference to a CAS number for example, what happens to this reference if your bot come after me and has a different reference for this CAS number ? Finally my concern can be reduced to one question: how your bot treat data which are different for the ones already present in WD ? Thank for your answer. PS: I have a problem with your revert in lactide (Q421313): if the description of DL-lactide is "chemical compound", what is the description of D-lactide and L-lactide ? And I don't mention the deletion of the label which was correct and not saved at least as alias. Sorry but again I have the impression that you don't respect the work of other contributors and I hope you will consider the manual curation as valuable as your bot action. Snipre (talk) 22:43, 21 November 2016 (UTC)[reply]

@Snipre: Thanks for your input, it's very valuable! Futhermore, I think that human curation is the real strength of Wikidata, so I think it's very important and I highly value it. Certainly, it is difficult to align with content from authoriative resources which is unfortunately not as good as we would like to.
  • Regarding methyl bromide (Q421758), I took the label from FDA UNII which apparently has a lower quality label than what is considered good by IUPHAC, so I will do label prioritization, taking preferrably labels from ChEBI and only then labels from UNII and I will move labels to be replaced to aliases. That said, it is very hard to determine who is right with the labels and what's better for the WD users, the trade name, the chemical compound name as preferred by IPUPAC? Personally, I prefer something which can be remembered easily, e.g. a trade name.
  • Regarding the references, I can add references from all resources I tap, but I think that's not very useful, because some resources are just aggregator (e.g. PubChem, ChEMBL, Chemspider). That said, I agree that good, existing references should not be removed. Will keep them in the future.
  • Regarding descriptions: I now keep everything which is not 'chemical compound' or no descriptions as it is. And I agree that racemic mixtures or isomeric mixtures should not be termed chemical compound. Btw: I proposed a property 'stereoisomer of' which will help keeping track of stereoisomers.
  • Regarding your question how I treat data which is different from what I add: If good references are provided, I keep the data, if bad (e.g. Wikidata, or state in w/o a database ID) or no references are provided, I overwrite.
Sebotic (talk) 05:55, 22 November 2016 (UTC)[reply]
Thanks for your feedback. Perhaps we should define once which data from which database can be considered as reference for WD. I was starting once a table inWikidata:WikiProject_Chemistry/ChemID#Available_data_in_external_databases to define what kind of data can be imported from reference databases. If you agree, I can move the section in Wikidata:WikiProject_Chemistry/References and we can complete the table. Snipre (talk) 14:43, 30 November 2016 (UTC)[reply]

Die Änderung in der Bezeichnung ist inkorrekt, da es sich um Hydrogen bromide und nicht um Hydrobromic acid handelt. Kannst du bitte die restlichen Änderungen überprüfen? --Leyo 08:03, 25 November 2016 (UTC)[reply]

Worum handelt es sich bei diesem Item nun? Gemäss deinem Bot um eine Säure, gemäss der schon zuvor vorhandenen Eigenschaft um ein Anion. Kannst du dies bitte auflösen? --Leyo 09:07, 6 December 2016 (UTC)[reply]

@Leyo: Danke fuer den Hinweis. Hier handelt es sich um einen der Faelle, wo Wikipedia user nicht zwischen Polymer und Monomer unterscheiden konnten und daher Monomer-Infos in die chemische Infobox des Artikels ueber das Polymer Polystyrene sulfonate eingefuegt haben (z.B. PubChem ID), anschliessend der Infobox content nach Wikidata exportiert wurde und das Item dann von meinem Bot befuellt wurde, basierend auf den chenmischen Identifizierern fuer das Monomer. In diesem und aehnlichen Faellen gibt es 2 Moeglichkeiten: Entweder die Interwiki-Links auf ein neues Polymer-Item uebertragen, oder alle IDs fuer das Monomer von diesem Item loeschen. Vermutlich gibt's noch einige dieser Faelle die aufzuloesen sind. Sebotic (talk) 18:45, 6 December 2016 (UTC)[reply]
Danke für die Erläuterung! Ich weiss nicht, welche Variante mehr Sinn ergeben würde. Darf ich den Entscheid und die Umsetzung dir/deinem Bot überlassen? --Leyo 11:04, 7 December 2016 (UTC)[reply]

Unused properties

[edit]

This is a kind reminder that the following properties were created more than six months ago: increased expression in (P1911), gene insertion association with (P1914), gene inversion association with (P1915), gene substitution association with (P1916), posttranslational modification association with (P1917), altered regulation leads to (P1918), ClinVar Variation ID (P1929), Cell Line Ontology ID (P2158), gene deletion association with (P1912), gene duplication association with (P1913). As of today, these properties are used on less than five items. As the proposer of these properties you probably want to change the unfortunate situation by adding a few statements to items. --Pasleim (talk) 19:27, 17 January 2017 (UTC)[reply]

New import of data

[edit]

Hello, from the discussion in WP:en I learnt that you will run again your bot to check and perhaps import data. Fine for me but please perform a deep pre-check of the data before importing or perform a simulation to generate a list of data to be imported which can be analyzed before the real importation. Since 2 months I am curating the data from previous large data imports and I don't want to see my work erased by a bully bot. Sorry to be so direct but when you spent several dozen of hours to curate data, you expect that other contributors do a similar job before running their bot. Thank you Snipre (talk) 01:07, 28 January 2017 (UTC)[reply]

@Snipre: As we discussed, I will certainly take care not to overwrite your and other contributions. Before I do a new bot run, I will check what the nature your contributions are so this wont happen. Furhtermore, it's not about doing a large import, it's just to add new compounds which e.g have been added to FDA UNII or GTPL since the last run and maybe a few new identifiers, like WHO INN. Sebotic (talk) 22:42, 28 January 2017 (UTC)[reply]

Hallo Sebotic. IMHO ist die Änderung der engl. Bezeichnung inkorrekt. Guckst du bitte mal? --Leyo 10:42, 3 February 2017 (UTC)[reply]

@Leyo: Hi, auf die Schnelle kommt dieselbe Struktur dabei raus, kann aber sein, dass eine Version von der IUPAC Nomenklatur bevorzugt wird. Laut PubChem ist das originale Label das IUPAC Label, aber das neue Label wird auch als Synonym gefuerht (folge dem PubChem CID link). Aber ich gebe Dir insoferne recht, dass die Aenderung nicht notwendig war und nichts verbessert hat. Das liegt daran, dass die FDA UNII labels nicht besonders gut sind, ich importiere sie auch nicht mehr. Gruss, Sebotic (talk) 11:12, 3 February 2017 (UTC)[reply]
Ja, so ist es. Ich habe nun wieder den alten Namen eingesetzt. --Leyo 00:45, 5 February 2017 (UTC)[reply]

Hallo Sebotic,

könntest du so einen Lauf bitte auch für die deutschen Chemie-Infoboxen machen? Viele Grüße, --Kopiersperre (talk) 17:39, 20 February 2017 (UTC)[reply]

@Kopiersperre: Ja, kann ich jedenfalls machen, ich komme allerdings fruehestens naechste Woche dazu. Sebotic (talk) 08:40, 21 February 2017 (UTC)[reply]

Item to be delete

[edit]

In RFD there are one or more item proposed for the deletion created by you. If you do not agree you can participate in the debate --ValterVB (talk) 23:34, 3 March 2017 (UTC)[reply]

Mass from PubChem

[edit]

Hi :) Correct me if I'm wrong, but it seems to me that you added molecular masses of chemical compounds from PubChem. In connection with the discussion in the WikiProject Chemistry, I have a question: would it be possible to import also average molecular masses to WD? (those already imported would have to be modified with qualifier and monoisotopic mass (Q3297559); average masses would have to be added with qualifier and something like 'average molecular mass'). Wostr (talk) 21:57, 25 December 2017 (UTC)[reply]

@Wostr: Hi and sorry for the delayed reply, I was travelling. You are right, the average mass should be imported as well and both should receive the appropriate qualifiers. I will be working on that as soon as possible. I will contribute to the discussion you pointed me to. Best Sebotic (talk) 10:35, 4 January 2018 (UTC)[reply]
Thank you :) Wostr (talk) 11:11, 4 January 2018 (UTC)[reply]
While SoCalChemBot has been inactive since November 2016, it seems that this issue (PubChem-sourced masses for compounds use the monoisotopic mass, not the molecular weight) never got fixed. I've just corrected the mass for urea hydrochloride, but it seems like there are many other bot-created pages, e.g. lycopsamine, for which a fix was never applied.
Upon further review, it looks like the underlying issue is that the January 2018 WikiProject Chemistry discussion on fixing this stalled out, without a clear path forward. "Molar mass" has been listed as a new property to implement in WikiProject Chemistry since the beginning of the project in 2013, with a note that it might be helpful if we could automatically calculate this based on compounds' chemical formulas. As far as I can tell, monoisotopic mass isn't mentioned anywhere in WikiProject Chemistry, but could presumably be calculated the same way.
In any case, I'm very new to Wikidata; are you (or @Wostr) aware of any post-2018 discussions about implementing a molar mass property? Preimage (talk) 14:07, 26 August 2024 (UTC)[reply]
@Preimage: there were no further discussions about this issue. We have millions of items and in most of them we have stataments with mass that were imported or added manually, in many cases by different persons or bots, hence there are many situations where in one item there are two different masses next to each other, without any qualifier. This problem would require a thorough discussion in WikiProject Chemistry and an enormous amount of work by many people – which apparently we don't have right now. ‘Molar mass’ property was discussed many years ago, but then it was agreed that mass (P2067) should be used for molar mass. After a clean-up of properties related to physical quantities few years ago it turned out that molar mass units cannot be used in the same property with mass units, so it seems reasonable to discuss creating this property again. However, I'd recommend having any discussion about these problems in WikiProject Chemistry and not on a user talk page. Wostr (talk) 17:50, 26 August 2024 (UTC)[reply]
As I curated a lot of them, I can say most of them are monoisotopic mass (Q3297559).
I think we all agree we need to do better. Thus my attempt to at least reduce the number of statements heavily by associating them with the formulas and not the chemical entities (https://www.wikidata.org/wiki/Wikidata:Property_proposal/chemical_formula#chemical_formula). Curious to see how this evolves. AdrianoRutz (talk) 08:56, 30 August 2024 (UTC)[reply]

PDB identifier in small molecules items

[edit]

Is there any reason why your bot [2] added (in 2016) dozens of identifiers for proteins (PDB structure ID (P638)) to α-D-galactopyranose (Q181381)? Wostr (talk) 16:53, 19 October 2020 (UTC)[reply]

Use expressed in (P5572) instead of "part of" for microRNAs?

[edit]

Hello, Sebotic, I've noticed that microRNAs (e.g. hsa-let-7b-3p (Q27594441) are currently modelled as part of (P361) some anatomical structure. Perhaps it would be good to change the ProteinBoxBot / script to the more precise "expressed in" expressed in (P5572). What do you think? TiagoLubiana (talk) 18:40, 8 August 2021 (UTC)[reply]

New property for deletion

[edit]

Hello, I wanted to inform you that I've just nominated for delation the property:P2874 that you proposed. Horcrux (talk) 10:12, 11 May 2024 (UTC)[reply]