Particolarmente importante è l'inter-rater reliability, cioè il grado di correlazione fra i punteggi assegnati allo stesso campione di pazienti da parte di due o più valutatori indipendenti che usano la stessa RS. Generalmente la valutazione viene fatta indipendentemente dai due (o più) valutatori presenti alla stessa intervista, anche se sarebbe metodologicamente più corretto che i valutatori intervistassero separatamente il paziente.
La stima dell'affidabilità di una scala richiede che il campione esaminato possieda una discreta variabilità in modo che si possa evidenziare la capacità dello strumento di discriminare i soggetti tra di loro: la buona affidabilità, infatti, presuppone che i valutatori siano concordi non solo nella valutazione ma anche nella discriminazione. L'inter-rater reliability, perciò, non si esprime soltanto in termini di accordo percentuale tra i valutatori, ma in termini di correlazione fra un insieme di fenomeni. Si deve tener conto, infatti, che una parte della concordanza è dovuta al caso: in una scala a 4 livelli (da 1 a 4), per esempio, i valutatori hanno il 25% di probabilità di concordare solo in funzione della casualità. Uno dei metodi più usati è il coefficiente r di Pearson, il quale però non corregge per gli errori sistematici (p. es., la costante sottostima di un valutatore rispetto ad un altro). Più affidabile è il K di Cohen e, soprattutto, il weighted K (wK) di Hall, che è stato sviluppato appositamente per la valutazione dell'accordo fra valutatori diversi di una RS.
Molto spesso l'inter-rater reliability e l'accordo tra valutatori sono considerati due concetti equivalenti ed intercambiabili: si tratta di una convinzione del tutto erronea poiché l'essenza della reliability è la condivisione, è il condividere la discriminazione fra soggetti, mentre l'accordo tra valutatori riguarda il singolo soggetto e, come è ovvio, con un solo soggetto non può esserci discriminazione.
Nel caso, del tutto improbabile, che due valutatori concordino al 100% che l'entità del miglioramento in risposta ad un certo trattamento, in un campione di pazienti, è esattamente sovrapponibile, ci troveremmo di fronte ad un perfetto accordo tra valutatori ma la reliability sarebbe indeterminata.