Miglioramento risultati di ricerca per italiano

2 risposte
Joined: 17 Nov 2005
User offline. Last seen 1 ora 39 min ago.

Leggendo il libro su Drupal (questo è uno spoiler, Psicomante! Eye-wink) ho notato una cosa preoccupante che riguarda il sistema di ricerca interno. Il fatto, cioè, che questo sistema è ottimizzato solamente (e tramite l'uso di un modulo non-core) per la lingua inglese, per il francese e l'olandese.
In pratica, dato che la ricerca con wildcard è stata disabilitata a vantaggio della sicurezza, il motore di ricerca e indicizzazione si basa su regole di stemming, cioè in sostanza su come si formano le desinenze delle parole.
Per esempio, permette di associare "skips" e "skipping" a "skip", ma purtroppo non esiste niente di simile per associare "mangiai" a "mangiare" o, ancora peggio, "vai" a "andare".
Conoscete se sono disponibili "dizionari" o algoritmi di stemming (non so manco come si traduce in italiano: derivazioni?) che possano essere usati come base per costruire moduli come quelli per inglese, francese e olandese?

Joined: 1 Gen 2007
User offline. Last seen 3 ore 59 min ago.

mm... non credo si possibile avere una cosa del genere per l'italiano, decisamente più complessa come lingua dell'italiano. Si potrebbe FORSE ABILITARE l'uso delle wildcard effettuando dei check per mantenere comunque un buon livello di sicurezza.

__________________

Ciao
    Mavimo
_________________
Io mio sito su Drupal, CFD e OpenFOAM (e se vi chiedete cosa c'entrano l'uno con l'altro.. bhè, non so nemmeno io la risposta Sticking out tongue )

Joined: 17 Nov 2005
User offline. Last seen 1 ora 39 min ago.

Ho scoperto che esiste un algoritmo per lo stemming italiano. Forse non copre tutti gli irregolari, comunque si potrebbe provare a lavorarci sopra. In rete ho trovato un modulo di Perl e, forse più utile ai nostri scopi, una classe PHP.
L'algoritmo è qua:
http://snowball.tartarus.org/algorithms/italian/stemmer.html
La fonte è la stessa usata per gli olandesi. Qualche linguista presente magari può controllare...

Condividi contenuti