La gestione di un indice per un sistema informativo organizzato su più server è intrinsecamente più complessa in quanto la macchina che ospita il servizio deve recuperare informazioni esterne al proprio spazio. Escludendo la possibilità che le macchine costituenti le unità del servizio siano collegate da tecnologie come NFS o AFS, si tratterà di recuperare le informazioni utilizzando le comuni tecnologie di Rete. Vi sono due possibili strategie: utilizzare uno strumento simile a quelli visti precedentemente che supporti anche la fusione di due diversi indici in uno più generale oppure impiegare uno strumento alternativo che possa operare su più sistemi.
In questo caso il programma incaricato dell'indicizzazione si divide
in due parti principali: un robot che visita ricorsivamente
il grafo ipertestuale delle pagine del Web del servizio a partire da
un nodo predefinito, e l'indicizzatore vero e proprio che utilizza
questo materiale per creare il database su cui effettuare le ricerche.
Questa è anche la struttura utilizzata dai motori di ricerca che
indicizzano tutto il World-Wide Web. La
differenza d'uso risiede principalmente nell'insieme di regole molto
restrittive su quali nodi del grafo e quali collegamenti ipertestuali
il robot deve analizzare in modo da indicizzare tutto e solamente il
servizio informativo dell'organizzazione.