hidsgehalte: Spelfouten en zoekmachines

maandag 7 april 2008

Spelfouten en zoekmachines

Martin Reynaert van de Universiteit van Tilburg is bezig met een oplossing die het beruchte spellingsprobleem bij een zoekmachine kan oplossen.

Dat probleem is als volgt: een pagina waarop een trefwoord verkeerd gespeld is, wordt in de zoekmachine geïndexeerd op die spelfout. Stel, je typt per ongeluk 'ftinkdier' in plaats van 'stinkdier'. Omdat de zoekmachine werkt met letter-voor-letterherkenning komt die 'ftinkdier'-pagina nooit meer tevoorschijn als je zoekt naar 'stinkdier'. Dat probleem speelt vooral bij het elektroniseren van grote hoeveelheden papieren teksten, zoals Ewoud Sanders onlangs uitlegde in de NRC. OCR is notoir spelfoutgevoelig. Bij een correcte herkenning van 99,9% zit het programma er per 1000 tekens toch nog 1 keer naast. Kan lastig zijn.

In NRC van afgelopen zaterdag schrijft Ewoud over Martin Reynaert: die heeft een slimme oplossing ontwikkeld voor juist dat probleem. Niet door een spellingchecker los te laten op de gescande teksten, maar door foutgespelde varianten toe te voegen aan de index in de database. Zodat je resultaatlijst van 'stinkdier' toch alle mogelijke varianten oplevert.

Een vraag houdt mij toch bezig. Want op deze manier groeit het aantal gepresenteerde treffers alleen maar verder aan. Waarmee de gebruiker uiteindelijk misschien wel een nóg groter probleem heeft. Dat oplossen lijkt dé uitdaging voor Web 3.0 te worden...

Geen opmerkingen:

Een reactie posten

hidsgehalte

maandag 7 april 2008

Spelfouten en zoekmachines

Geen opmerkingen:

Kamila en turkan

Publiek domein

Publiek domein

Blogarchief

Redactie

Alle afbeeldingen:

Volgers

Labels

hidsgehalte

maandag 7 april 2008

Spelfouten en zoekmachines

Geen opmerkingen:

Kamila en turkan

Publiek domein

Publiek domein

Blogarchief

Redactie

Alle afbeeldingen:

Aanmelden bij

Volgers

Labels