KI-Tools beschleunigen Extraktion experimenteller Daten aus wissenschaftlichen Artikeln für Materialdatenbank

Materialwissenschaftler, die neue Funktionsmaterialien für Technologien wie Smartphones und Automobile entwickeln, stehen vor erheblichen Herausforderungen bei der Vorhersage von Materialeigenschaften, da theoretische Modelle allein aufgrund komplexer Zusammenhänge zwischen Zusammensetzung, Synthesemethoden und resultierenden Eigenschaften keine zuverlässigen Prognosen liefern können. Ein Team unter der Leitung von Dr. Yukari Katsura am japanischen National Institute for Materials Science hat zwei künstliche Intelligenz-Tools entwickelt, die den Aufbau von Starrydata beschleunigen – einer Materialeigenschaftsdatenbank, die aus Daten aus wissenschaftlichen Artikeln aufgebaut wird. Ihre Arbeit wurde kürzlich in der Fachzeitschrift Science and Technology of Advanced Materials: Methods veröffentlicht.

Die Forschung adressiert einen kritischen Engpass in der Materialwissenschaft: Millionen wissenschaftlicher Artikel enthalten wertvolle experimentelle Daten, die von früheren Forschern gesammelt wurden, doch ein Großteil dieser Informationen bleibt ungenutzt, weil die manuelle Extraktion zeitaufwändig ist. Das Starrydata-Projekt, das Dr. Katsura 2015 startete, stützte sich zunächst auf manuelle Datensammlung, unterstützt durch das Starrydata2-Websystem. Die neuen KI-Tools optimieren diesen Prozess erheblich, indem sie große Sprachmodelle wie ChatGPT nutzen, um Informationen über Abbildungen, Tabellen und Proben aus Paper-PDFs verschiedener Materialwissenschaftsbereiche zu extrahieren.

Das erste Tool, Starrydata Auto-Suggestion for Sample Information, ist bereits in das Starrydata2-Websystem integriert und funktioniert, indem es den Text von Artikeln liest und Kandidaten für Datenfelder vorschlägt, die für jedes Materialgebiet vordefiniert sind. Wenn Nutzer Text aus dem Abstract oder den Methodenteilen eines Artikels einfügen, sendet das System diesen über eine API an OpenAIs GPT und zeigt automatisch Kandidatenvorschläge auf Englisch unter jedem Eingabefeld an. Dieses Tool hilft bei der Standardisierung der Dateneingabe und reduziert gleichzeitig die Zeit, die Forscher für die manuelle Informationsentnahme aufwenden.

Das zweite Tool, Starrydata Auto-Summary GPT, zerlegt gesamte Open-Access-Paper-PDFs, die von Nutzern hochgeladen werden, und fasst automatisch alle Beschreibungen von Abbildungen, Tabellen und Proben als strukturierte Daten im JSON-Format zusammen. Die mit ChatGPTs Custom-GPT-Funktion generierten Daten können als leicht lesbare Tabellen in Webbrowsern angezeigt werden. Obwohl diese Daten derzeit nicht direkt in die Starrydata-Datenbank integriert werden, beschleunigen sie die Arbeit der Datensammler erheblich, indem sie das schnelle Auffinden von Zielinformationen und deren systematische Eingabe ermöglichen. Das Team merkt an, dass das Auslesen von Datenpunkten aus Grafikbildern für LLMs nach wie vor herausfordernd ist, daher wird diese Aufgabe von Datensammlern mit einem eigenentwickelten halbautomatischen Tool durchgeführt.

Dr. Katsura erläuterte die Bedeutung dieses Ansatzes: „Ein Artikel ist eine logische Struktur, die zusammengesetzt wurde, um die Aussagen des Autors zu vermitteln. Indem wir ihn zerlegen und in die Form experimenteller Daten zurückführen, können auch andere Forscher ihn für ihre eigene Forschung nutzen.“ Das Team strebt eine Zukunft an, in der experimentelle Daten aus allen Materialwissenschaftsbereichen digital geteilt und aus der Vogelperspektive betrachtet werden können, sodass Forscher durch umfassende Datenüberblicke Inspiration gewinnen und Eigenschaftsvorhersagen basierend auf empirischen Trends mithilfe von maschinellem Lernen realisieren können.

Derzeit hat Starrydata Fortschritte beim Aufbau von Datenbanken für spezifische Materialwissenschaftsbereiche wie thermoelektrische Materialien, die Wärme und Elektrizität umwandeln, und Magnete erzielt. Als offener Datensatz, der für die Entwicklung neuer Materialien genutzt werden kann, wird er bereits von führenden Forschern weltweit verwendet. Die Forschung des Teams zielt darauf ab, das Bewusstsein für das Potenzial groß angelegter experimenteller Daten zu schärfen und die Sammlung von Paper-Daten als anerkannte Forschungsform in der wissenschaftlichen Gemeinschaft zu etablieren. Die Tools zielen derzeit auf Open-Access-Artikel ab, da Verlage die Nutzung künstlicher Intelligenz mit Paper-PDFs einschränken. Weitere Details sind in ihrem veröffentlichten Artikel unter https://doi.org/10.1080/27660400.2025.2590811 verfügbar.

Die Implikationen dieser Forschung gehen über die Materialwissenschaft hinaus und zeigen, wie KI das wissenschaftliche Datenmanagement über Disziplinen hinweg transformieren kann. Durch die Automatisierung der Extraktion vergrabener experimenteller Daten können Forscher umfassendere Datenbanken aufbauen, die Entdeckungen und Innovationen beschleunigen. Dieser Ansatz könnte schließlich auf andere wissenschaftliche Bereiche angewendet werden, in denen wertvolle Daten in veröffentlichten Artikeln eingeschlossen bleiben, und potenziell revolutionieren, wie wissenschaftliches Wissen organisiert, zugänglich gemacht und für zukünftige Durchbrüche genutzt wird. Die Zeitschrift, in der diese Forschung erscheint, Science and Technology of Advanced Materials: Methods, konzentriert sich auf neuartige Methoden und Tools zur Verbesserung der Materialentwicklung. Weitere Informationen finden Sie unter https://www.tandfonline.com/STAM-M.

KI-Tools beschleunigen Extraktion experimenteller Daten aus wissenschaftlichen Artikeln für Materialdatenbank

Das Redaktionsteam Burstable.News