Yandex leerde neurale netwerken om archiefstukken met complexe spelling te ontcijferen
Gemengde Berichten / / April 03, 2023
Historische manuscripten, die voor een persoon moeilijk te ontleden zijn, worden vrijwel onmiddellijk door kunstmatige intelligentie omgezet in gedrukte tekst.
Yandex heeft een nieuwe service gelanceerd genaamd Archive Search, die neurale netwerken gebruikt om archiefdocumenten te ontcijferen met complexe prerevolutionaire spelling.
De service biedt toegang tot meer dan 2,5 miljoen pagina's aan historische documenten met teksttranscripties. Het algoritme, gebouwd op basis van een optisch tekenherkenningssysteem, houdt rekening met de eigenaardigheden van handschrift, herkent brieven die hun relevantie hebben verloren en begrijpt de speciale structuur van archiefdocumenten.
De specialisten van het bedrijf trainden het neurale netwerk op een data-array van honderdduizenden handgeschreven regels uit echte teksten uit de 18e-19e eeuw en tientallen miljoenen gegenereerde voorbeelden.
Manuscripten die moeilijk te ontleden zijn voor een onvoorbereid persoon, Yandex-technologie verandert vrijwel onmiddellijk in gedrukte tekst. Hierdoor kunt u in de database van de dienst snel documenten vinden met vermelding van de achternaam, plaats of andere woorden.
"Zoeken in archieven" zal de efficiƫntie van het werk van historici, sociologen, demografen, genealogen vergroten en degenen helpen die op zoek zijn naar informatie over hun familie.
Het eerste fonds dat in de dienst werd gepresenteerd, was het hoofdarchief van Moskou - het was op zijn materialen dat de ontwikkelaars het neurale netwerk trainden. De database bevat ook documenten uit de archieven van de regio's Orenburg en Novgorod. Na verloop van tijd zal het aantal opslagruimtes en beschikbare gescande bestanden toenemen.
U kunt zoeken naar materialen uit de 18e - begin 20e eeuw, die het populairst zijn bij gebruikers. Dit zijn parochieregisters, biechtbladen en revisietabellen met de uitslag van de volkstelling. Documenten zijn te vinden in de catalogus of via de zoekbalk. Er zijn filters op jaren, archieven, fondsen en inventarissen.
Naast de scan van elke pagina wordt een regel-voor-regel decodering weergegeven, gemaakt door neurale netwerken. Als u met de muis over het gewenste fragment gaat, wordt het meteen uitgelicht op de digitale kopie.