Tre tips: Så strukturerar jag ostrukturerad data med AI
27.06.2025Christoffer Björkskog är AI-forskare vid Yrkeshögskolan Novia, doktorand vid Åbo Akademi och grundare av AI-konsultföretaget graceful.ai som hjälper företag med AI och systemutveckling. Tidigare forskare vid HIIT och utvecklingschef på Genero. Med över 20 års erfarenhet kombinerar han teknisk erfarenhet och akademisk insikt med kreativa och praktiska problemlösningar. På fritiden uppfinnare.
När man behöver omvandla ostrukturerad data – till exempel texter, ritningar eller PDF:er – till ett format som kan användas av system, är ett effektivt tillvägagångssätt att tvinga en stor språkmodell (LLM) att returnera data i en strikt definierad datastruktur. Såhär gör man:
1. Experimentera och utforska
Testa att ladda upp ett exempel av den aktuella datan till ChatGPT och be modellen att föreslå en datastruktur (Pydantic eller JSON-schema) och omvandla datan till det formatet. Det ger ofta bra resultat. Undersök även ifall det finns rekommenderade datastrukturer, standarder och ontologier för informationstypen du hanterar.
2. Använd Pydantic-modeller som returformat
Pydantic är ett bibliotek som möjliggör strikta datamodeller med validering. När du kommunicerar med LLM-modeller via API kan du specificera att svaret ska returneras som en Pydantic-modell. Det garanterar att datan är i rätt format och uppfyller dina kriterier, som att alla obligatoriska fält är ifyllda och värdena är inom godkända gränser.
3. Använd skärmdumpar när layouten är viktig
När du arbetar med visuellt komplexa delar av ett dokument, t.ex. ritningar och diagram, är ett bra tips att använda skärmdumpar av sidorna istället för direkta PDF-filer. LLM:er får ofta endast tillgång till texten i PDF:er via förbehandling, och då försvinner information om var elementen är placerade. De multimodala modeller som kan hantera både bild och text gör ett väldigt bra jobb att tolka samband mellan olika element i en bild. För att undvika feltolkningar av symboler och ord är det också bra att skicka med extraherad text och tvinga den att returnera datan enligt din datastruktur. Detta minimerar risken för feltolkningar, uppmuntrar modellen att hitta alla fält och ger mer användbar strukturerad data.
Med rätt struktur, lite eftertanke samt validering av data, kan stora språkmodeller bli ett kraftfullt verktyg för att organisera och omstrukturera ostrukturerad data. För känslig företagsdata bör man använda tjänster och lokala modeller där data stannar inom organisationens infrastruktur. Detta säkerställer full kontroll över dataflödet samtidigt som man kan dra nytta av samma metoder.
TEXT: Christoffer Björkskog FOTO: Privat