



## La gerarchia delle memorie

Prof. Alberto Borghese Dipartimento di Scienze dell'Informazione

alberto.borghese@unimi.it

Università degli Studi di Milano

Riferimento Patterson: Sezioni 5.1, 5.2

A 2014-2015 1/47



## **Sommario**



http:\\borghese.di.unimi.it\

http:\\borghese.di.unimi.it\

Struttura di un sistema di memoria

Cache a mappatura diretta

Il campo tag di una cache





A.A. 2014-2015

http:\\borghese.di.unimi.it\

















## Principio di progettazione di una memoria



http:\\borghese.di.unimi.it\

Quanta memoria? Quanto deve essere veloce? Quanto deve costare?

Maggiore è la velocità di accesso, maggiore il costo per bit. Maggiore è la capacità, minore il costo per bit.

Maggiore è la capacità, maggiore è il tempo di accesso.



Memorie piccole e veloci. Memorie grandi e lente.







## Gerarchia di memorie - caratteristiche



| Livello                                                | Dimensioni indicative | Tempo di<br>Accesso              | Velocità di<br>Trasferimento (Mbyte/s)              |
|--------------------------------------------------------|-----------------------|----------------------------------|-----------------------------------------------------|
| Registri                                               | < 1 Kbyte             | < 0,01 ns                        | 400,000 (32 byte)                                   |
| Cache Primaria<br>(Pentium 4, 3Ghz)<br>ExecTrace cache | 8kbyte<br>12kbyte     | 0.16ns                           | 192,000 (32/64 byte)                                |
| Cache Secondaria<br>(Pentium 4, 3Ghz)                  | 256-512<br>kbyte      | 0.3ns                            | 96,000 (32 byte in parallelo)                       |
| Memoria centrale<br>(RAM, DRAM)                        | < 4 Gbyte             | < 3-5 ns<br>(233Mhz /<br>320Mhz) | 1,600 – 3,000 di picco<br>(DDSRAM – doppia lettura) |
| Bus PCI<br>Bus PCI 64                                  | 8 byte<br>64 byte     | 133 Mhz<br>100 Mhz               | 133 (8 byte)<br>1064 (64 byte)                      |
| Dischi                                                 | > 100 Gbyte           | < 10ms                           | < 200 (Seagate Cheetah SCSI)                        |
| Nastri                                                 | > 1 Tbyte<br>(Pbyte)  | > 100ms                          | 1                                                   |





## Principi di località



I programmi riutilizzano dati e istruzioni che hanno usato di recente.

**Regola pratica:** un programma spende circa il 90% del suo tempo di esecuzione per solo il 10% del suo codice.

Basandosi sul passato recente del programma, è possibile predire con ragionevole accuratezza quali dati e istruzioni userà nel prossimo futuro.

*Località temporale:* elementi ai quali si è fatto riferimento di recente saranno utilizzati ancora nel prossimo futuro.

Località spaziale: elementi i cui indirizzi sono vicini, tendono ad essere referenziati in tempi molto ravvicinati.

Si possono organizzare programmi e dati in modo da sfruttare al massimo il principio di località (e.g. scrittura di blocchi di dati nei dischi, salti locali....).

A A 2014-2015 17/47 http:\\borghese.di.unimi.it



#### Caratteristiche della memoria



#### Posizione della memoria:

- Processore
- Interna (cache)
- Esterna (cache + Memoria Principale)
- Disco

#### Metodo di accesso:

- Sequenziale (e.g. Nastri).
- Diretto (posizionamento + attesa, e.g. Dischi).
- Random Access (circuito di lettura / scrittura HW,tempo indipendente dalla posizione e dalla storia, e.g. Cache e Memoria principale).
- Associativa (Random Access, il contenuto viene recuperato a partire da un sottoinsieme incompleto dello stesso).

#### Caratteristiche fisiche:

- Nelle memorie volatili (E.g. Cache), l'informazione sparisce quando si toglie l'alimentatore (memorie a semiconduttore).
- Nelle memorie non-volatili, l'informazione è duratura (un emepio di memoria volatile è la memoria magnetica dei dischi e dei nastri). Esistono memorie a semiconduttore non-volatili (ROM).

A.A. 2014-2015 http://borghese.di.unir





## Misura della capacità di una memoria



Ampiezza della memoria. Minimo numero di bit consecutivi che possono essere indirizzati (Memoria Principale 1 byte; Register file: 1 word); cache: K word).

Altezza della memoria. Numero di elementi base della memoria.

Parola di memoria. E' l'unità naturale in cui la memoria viene organizzata (e.g. 32 bit in MIPS).

Unità indirizzabile. E' il minimo numero di *unità contigue* indirizzabili. In quasi tutti i sistemi si tratta del byte.

Spazio dell'indirizzamento della memoria è:  $N = log_2$  Capacità





## Indirizzamento dei byte all'interno della parola



MIPS utilizza un **indirizzamento al byte**, cioè l'indice punta ad un byte di memoria, byte consecutivi hanno indirizzi consecutivi indirizzi di parole consecutive (adiacenti) differiscono di un fattore 4 (8-bit x 4 = 32-bit): ad ogni indirizzo è associato un byte.





## **Addressing Objects: Endianess**



- Big Endian: address of most significant byte = word address (xx00 = Big End of word)
  - IBM 360/370, Motorola 68k, MIPS, Sparc, HP
- Little Endian: address of least significant byte = word address (xx00 = Little End of word)
  - Intel 80x86, DEC Vax, DEC Alpha (Windows NT)



A.A. 2014-2015 22/47 http:\\borghese.di.unimi.it\







### Tassonomia del funzionamento



HIT Successo nel tentativo di accesso ad un dato: è presente al livello superiore della

gerarchia.

MISS Fallimento del tentativo di accesso al livello superiore della

gerarchia => il dato o l'indirizzo devono essere cercati al livello inferiore.

HIT\_RATE Percentuale dei tentativi di accesso ai livelli superiori

della gerarchia che hanno avuto successo.

HIT RATE = Numero successi / Numero accessi memoria

MISS\_RATE Percentuale dei tentativi di accesso ai livelli superiori

della gerarchia che sono falliti

MISS\_RATE = Numero\_fall. / Numero\_accessi\_memoria

 $HIT_RATE + MISS_RATE = 1$ 

**HIT TIME** Tempo richiesto per verificare se il blocco è presente al livello attuale

della memoria.

MISS\_PENALTY Tempo richiesto per sostituire il blocco di memoria mancante al livello

superiore + tempo necessario per inviarlo al processore.

A.A. 2014-2015 25/47 http:\\borghese.di.unimi.it\



## Valutazione prestazioni memoria



Obbiettivo principale della gerarchia di memoria è incrementare le prestazioni => diminuire la velocità di accesso sia in caso di HIT che di MISS.

Cosa succede in caso di MISS?

HIT\_TIME Tempo di accesso al livello superiore (che comprende

anche il tempo necessario per determinare se l'accesso

ha avuto successo oppure fallisce.

MISS\_PENALTY è composto da:

TEMPO DI ACCESSO per accedere alla prima parola del blocco dopo che è stato rilevato il fallimento. TEMPO DI TRASFERIMENTO per trasferire le altre

parole del blocco al livello superiore.

MISS\_TIME = > HIT\_TIME + MISS\_PENALTY

A.A. 2014-2015 26/47 http://borghese.di.unimi.it/



## Gestione dei fallimenti di una cache



Hit – è quello che vorremmo ottenere, il funzionamento della CPU non viene alterato.

*Miss* – in lettura devo aspettare che il dato sia pronto in cache -> stallo.

Passi da eseguire in caso di Miss (fase Mem):

- 1) Ricaricare la pipeline (indirizzo dell'istruzione (PC-> PC-4), decodifica, esecuzione, memoria...)
- 2) Leggere il blocco di memoria dalla memoria principale.
- 3) Trasferire il blocco in cache, aggiornare i campi validita' e tag.
- Avviare la fase di fetch, decodifica, esecuzione, memoria dell'istruzione con i dati corretti..

NB Il programma non può continuare!!

In scrittura?

.A. 2014-2015 27/47 http:\\borghese.di.unimi.it\



## Sommario



Struttura di un sistema di memoria memoria

Cache a mappatura diretta

Il campo tag di una cache



## Principio di funzionamento di una cache



Scopo: fornire alla CPU una velocità di trasferimento pari a quella della memoria più veloce con una capacità pari a quella della memoria più grande.

La memoria è un sottosistema a sè che cerca di mantenere in cache i dati di cui ha bisogno il processore. Meccanismi di speculazione analoghi a quelli utilizzati dalla CPU. Per speculazioni errate, il MISS\_PENALTY può essere elevato e la CPU può andare in stallo per un tempo considerevole.

Una cache "disaccoppia" i dati utilizzati dal processore da quelli memorizzati nella Memoria Principale.



Word transfer: Data transfer or Instruction transfer. In MIPS = 1 parola.

La cache contiene una copia di parte del contenuto della memoria principale. Di che cosa?

A.A. 2014-2015 29/47 http:\\borghese.di.unimi.it\







## Corrispondenza diretta



http:\\borghese.di.unimi.it\

lw \$9, \$68(\$0)

Supponiamo di avere una cache con 8 linee di un byte => Capacità\_Cache = 8

Indirizzo / Capacità\_Cache = N\_blocchi Resto = N\_linea

68 / 8 = 8 occore "saltare" N\_blocchi, il dato appartiene al blocco 9

della memoria principale

R = 4 occorre "saltare" 4 posizioni all'interno della cache, il

dato si trova nel 5° byte della cache.





## Come si ottiene l'indirizzo di cache? (Metodo delle divisioni successive)



lw \$t0, 14(\$t1) - carico in cache tutto il blocco associato all'indirizzo \$t1 + 14.

Identifico il blocco di Memoria principale a cui appartiene il byte da leggere / scrivere. Associo il blocco di Memoria principale ad una linea di cache mediante operazione di modulo.

Posizione\_byte\_cache = indirizzo\_Memoria principale (in #byte) *modulo* #byte\_cache.

Utilizzo come range di conteggio in RAM, il blocco di cache.

#### Note:

L'operazione di modulo se la dimensione del blocco è multiplo della base di conteggio si ottiene scartando alcune delle cifre meno significative.

La divisione per un multiplo di 2 si ottiene come shift a sx, le cifre che "escono" rappresentano il resto.



### **Esempio**



La cache con linee di ampiezza pari a 4 parole (blocco = 4 parole) ed altezza di 8 linee: Il blocco di dati della memoria principale che può essere contenuto in ogni linea di cache, ha dimensioni: n\_byte\_x\_linea = 4 parole \* 4 byte = 16 byte.

La capacità della cache sarà C = 8 linee \* n = 8 \* 16 = 128 byte.

•lw \$t0, 72(\$zero) – 72 è il 9° byte della  $5^a$  linea (72 / 16) = 4,  $\epsilon$  5° linea della cache.

Indirizzo\_cache = Indirizzo\_Memoria principale *modulo* blocco\_cache
Indirizzo\_cache = 72 / 16 = 4 → resto 8. {Il resto indica la posizione del primo byte della parola
all'interno della linea di cache (blocco) → 9° byte = 1° byte della 3ª parola.}
La word letta è costituita dal byte 72, e dai byte 73, 74, 75, contenuti nella 3ª parola della 5ª linea della

•lw \$t0, 204(\$zero) – 204 / 128 byte = 1 (resto = 76) => mappiamo il 2° blocco di RAM sulla cache. 204 è il 13° byte della 13ª linea (204 / 16) = 12, ∈ 13ª linea (8 + 5). La memoria cache ha solo 8 linee.

Indirizzo\_cache = Indirizzo\_memoria principale (**relativo all'inizio del blocco**) *modulo* capacità\_blocco  $\rightarrow$  76 / 16 = 4  $\rightarrow$  resto 12.{Il resto indica la posizione del primo byte della parola all'interno della linea di cache  $\rightarrow$  13° byte.}

Il dato viene letto (trasferito nella CPU) assieme ai byte 205, 206, 207) nella stessa linea  $5^a$  della cache. Il dato viene recuperato (dalla RAM) assieme alle word di indirizzo 200, 196, 192) nella stessa linea  $5^a$  della cache.

A.A. 2014-2015 35/47 http:\\borghese.di.unimi.it\



## Indirizzamento scartando i bit più significativi



| Indirizzo cache | Indirizzo decimale<br>RAM              | Indirizzo binario<br>RAM    |
|-----------------|----------------------------------------|-----------------------------|
| 111             | 112-127, 240-255, 368-<br>383,         | 00 0111 0000 - 00 0111 1111 |
| 110             | 96, 224, 352                           | 00 0110 0000 - 00 0110 1111 |
| 101             | 80-95, 208, 336                        | 00 0101 0000 - 00 0101 1111 |
| 100             | 64-79, 192-207, 320-<br>335, 448, 461, | 00 0100 0000 - 00 0100 1111 |
| 011             | 48-63, 176, 304                        | 00 0011 0000 - 00 0011 1111 |
| 010             | 32-47, 160, 288                        | 00 0010 0000 - 00 0010 1111 |
| 001             | 16-31, 144, 272                        | 00 0001 0000 - 00 0001 1111 |
| 000             | 0-15, 128, 256, 384,                   | 00 0000 0000 - 00 0000 1111 |

NB: La capacità della cache è di: 8 \* 16 byte = 128 byte = x000 0000 – x111 1111

A.A. 2014-2015 36/47 http:\\borghese.di.unimi.it\



# Indirizzamento scartando i bit più significativi (2° blocco di RAM)



| Indirizzo cache | Indirizzo decimale<br>RAM             | Indirizzo binario<br>RAM    |
|-----------------|---------------------------------------|-----------------------------|
| 111             | 112-127, 240-255, 368-<br>383,        | 00 1111 0000 - 00 1111 1111 |
| 110             | 96, 224, 352                          | 00 1110 0000 - 00 1110 1111 |
| 101             | 80-95, 208, 336                       | 00 1101 0000 - 00 1101 1111 |
| 100             | 64-79, 192-207, 320-<br>335, 448,461, | 00 1100 0000 - 00 1100 1111 |
| 011             | 48-63, 176, 304                       | 00 1011 0000 - 00 1011 1111 |
| 010             | 32-47, 160, 288                       | 00 1010 0000 - 00 1010 1111 |
| 001             | 16-31, 144, 272                       | 00 1001 0000 - 00 1001 1111 |
| 000             | 0-15, 128, 256, 384,                  | 00 1000 0000 - 00 1000 1111 |

NB: La capacità della cache è di: 8 \* 16 byte = 128 byte = x10000000 - x111111111

A 2014-2015 37/47 http://borghese.di.unimi.it/



# Indirizzamento scartando i bit più significativi (3° blocco di RAM)



| Indirizzo cache | Indirizzo decimale<br>RAM             | Indirizzo binario<br>RAM    |
|-----------------|---------------------------------------|-----------------------------|
| 111             | 112-127, 240-255, 368-<br>383,        | 01 0111 0000 - 01 0111 1111 |
| 110             | 96, 224, 352                          | 01 0110 0000 - 01 0110 1111 |
| 101             | 80-95, 208, 336                       | 01 0101 0000 - 01 0101 1111 |
| 100             | 64-79, 192-207, 320-<br>335, 448,461, | 01 0100 0000 - 01 0100 1111 |
| 011             | 48-63, 176, 304                       | 01 0011 0000 - 01 0011 1111 |
| 010             | 32-47, 160, 288                       | 01 0010 0000 - 01 0010 1111 |
| 001             | 16-31, 144, 272                       | 01 0001 0000 - 01 0001 1111 |
| 000             | 0-15, 128, 256, 384,                  | 01 0000 0000 - 01 0000 1111 |

NB: La capacità della cache è di: 8 \* 16 byte = 128 byte =  $x1\ 0000\ 0000 - x1\ 0111\ 1111$ 

A.A. 2014-2015 38/47 http:\\borghese.di.unimi.it\



## Parsing dell'indirizzo



0000 0000 0000 00(00)

0000 0000 0111 11(11)

128 indirizzi diversi di RAM (32 parole sequenziali di 4 byte)

- •Questi 128 byte vengono messi in corrispondeza con i 128 byte di una cache che è organizzata come 8 x 16: 4 parole per linea.
- •Gli ultimi 2 bit a destra indicano i byte interni alla parola. Non vengono considerati nei trasferimenti da / per la memoria. Viene considerata la *Word*.
- •I 2 bit seguenti indicano la posizione della parola ricercata all'interno della linea della cache.
- •I 3 bit seguenti indicano la linea della cache nella / dalla quale si scrive / legge.
- •I bit seguenti indicano il numero del blocco della memoria principale messo in corrispondenza con la cache.

A.A. 2014-2015 39/47 http:\\borghese.di.unimi.it\



## Metodo di parsing dell'indirizzo



0000 0000 0000 00(00)

0000 0000 0111 11(11)

128 indirizzi diversi di RAM (32 parole sequenziali di 4 byte)

#### Questo vale per:

- •Cache di 8 linee.
- •Linee di 4 parole.
- •Parole di 4 byte.

Prendiamo un indirizzo ed operiamo per divisioni successive nel caso più generale:

#### Capacità della cache

M / [ (#byte / parola) \* (#parole / linea) \* #linee] = Numero\_blocco di RAM.

Il resto, R<sub>1</sub>, rappresenta l'offset in byte all'interno della cache a partire dal byte 0 di cache.

 $R_1/[$  (#byte / parola) \* (#parole / linea) ] = Numero di linea (di blocco) di cache. Il resto,  $R_2$ , rappresenta l'offset in byte all'interno della linea di cache.

 $R_2$ / [ (#byte / parola) ] = Numero di parola all'interno della linea di cache. Il resto,  $R_3$ , rappresenta l'offset in byte all'interno della parola.

A.A. 2014-2015 40/47 http:\\borghese.di.unimi.it\



## Esempio di parsing dell'indirizzo



0000 0000 0000 00(00)

0000 0000 0111 11(11)

128 indirizzi diversi (32 parole di 4 byte

La cache con linee di 4 parole (ampiezza) ed altezza di 8 linee:

Il blocco di dati contenuto in ogni linea di cache è di dimensioni: n = 4 \* 4 byte = 16 byte. La capacità della cache è di 8 \* 16 byte = 128 byte.

lw \$t0, 196(\$zero)

196 / [4\*4\*8] = 1 (2° blocco di RAM) con resto  $R_1 = 196 - 1*128 = 68$ . Il resto,  $R_1$ , rappresenta l'offset in byte all'interno della cache.

68/ [4\*4] = 4 (5ª linea della cache) con resto  $R_2 = 68 - 4*16 = 4$ . Il resto,  $R_2$ , rappresenta l'offset in byte all'interno della linea di cache.

4/4 = 1 (2<sup>a</sup> parola della cache) con resto  $R_3 = 4 - 1*4 = 0$ . Il resto,  $R_3$ , rappresenta l'offset in byte all'interno della parola.

A A 2014-2015 41/47 http://borghese.di.unimi.it/

### Esempio di parsing dell'indirizzo



0000 0000 000<mark>0 00</mark>(00)

0000 0001 1111 11(11)

512 indirizzi diversi (128 parole, 4 byte)

La cache con linee di 8 parole (ampiezza) ed altezza di 16 linee:

Il blocco di dati contenuto in ogni linea di cache è di dimensioni: n = 8 \* 4 byte = 32 byte. La capacità della cache è di 16 \* 32 byte = 512 byte.

lw \$t0, 600(\$zero)

600 / [16\*8\*4] = 1 (2° blocco di RAM) con resto  $R_1 = 600 - 1*512 = 88$ . Il resto,  $R_1$ , rappresenta l'offset in byte all'interno della cache.

88 / [8\*4] = 2 (3ª linea della cache) con resto  $R_2 = 88 - 2*32 = 24$ . Il resto,  $R_2$ , rappresenta l'offset in byte all'interno della linea di cache.

24/4 = 6 (7<sup>a</sup> parola della linea di cache) con resto  $R_3 = 24 - 6*4 = 0$ . Il resto,  $R_3$ , rappresenta l'offset in byte all'interno della parola.

A.A. 2014-2015 42/47 http:\\borghese.di.unimi.it



## Sommario



Struttura di un sistema di memoria

Cache a mappatura diretta

Il campo tag di una cache

A.A. 2014-2015 43/4



## Come si può sapere se un dato è presente in cache?



http:\\borghese.di.unimi.it\

Aggiungiamo a ciascuna delle linee della cache un campo tag.

Il tag contiene i bit che costituiscono la parte più significativa dell'indirizzo e rappresenta il numero di blocco di RAM in cui il dato di cache è contenuto. Esso è costituito da K bit:

 $K = M - \sup (\log_2 Capacità\_cache (byte))$ 

Nell'esempio precedente:  $K = 32 - \sup(\log_2 512) = 23$  bit.

Occorre inoltre l'informazione data\_valid / data\_not\_valid: bit di validità.

A.A. 2014-2015 44/47





## Come leggere / scrivere su cache



http:\\borghese.di.unimi.it\

Individuare la linea della cache dalla quale leggere / scrivere (operazione analoga all'indirizzamento del register file).

Confrontare il campo tag con il blocco RAM in cui risiede il dato.

Controllare il bit di validità.

Leggere (scrivere) il dato.

Per blocchi più ampi di una parola, occorre individuare una parola tra le k presenti nella linea di cache.



## Sommario



http:\\borghese.di.unimi.it\

Caratteristiche di un sistema di memoria

Struttura di una memoria

Principio di funzionamento di una memoria cache

Cache a mappatura diretta

Il campo tag di una cache

A 2014-2015 47/47