NVidia GeForce GTX200 architettura nata per vincere?

La nuova Nvidia GTX200 rappresenta un buon argomento da trattare, così come la nuova ATI HD 4800. In questo articolo si discuterà brevemente su alcuni benchmark e i loro risultati ottenuti sulle schede Gainward GeForce GTX 280 e Leadtek GeForce GTX 260.

La strategia di ATI è basata su creare schede non troppo costose, che abbiano discrete performance al fine di accaparrarsi la parte maggiore del mercato ovvero quella media. NVidia invece ha deciso di creare GPU alle massime performance costi quel che costi. Naturalmente entrambe le case hanno fatto le loro previsioni di marketing, vedremo se la scelta di una o dell’altra sarà quella giusta. Strano comunque che ATI abbia deciso di abbandonare il segmento alto, dato che le risorse per poterlo sviluppare ci sono…
Sappiamo (o almeno la mia impressione è) che NVidia ormai non ha competizione nel segmento high performance, tranne forse la ATI Radeon HD 3870 X2. Ormai si è creata una corsa contro il tempo: le software house infatti sfornano giochi che non sono “giocabili” con le attuali schede, e le aziende produttrici di schede grafiche devono fare l’impossibile per stare al passo con i tempi (dando per scontato che anche il resto del pc poss sopportare la nuova scheda). Tanto per citare due giochi usciti prima delle adeguate schede nominiamo Crysis oppure Call of Juarez. Si dice che le nuove schede riusciranno ad offrire un nuovo livello di realtà nei giochi (cosa che viene detta sempre :p), ma se ci si pensa è ormai passato un anno e mezzo dall’uscita della GTX8800, pertanto speriamo che tutto questo tempo sia servito agli ingegneri per creare una nuova realtà videoludica.

La precedente generazione di GPU era davvero molto complessa: transistor oltre 500 milioni, misura del die di 484 mm quadrati e oltre 100W di consumi in un utilizzo medio. Continuando sulla stessa strada si ottengono GPU( sempre più complesse anche se più large, con maggiori consumi e problemi (finanziari, di bravura degli ingegneri…). Ati per questo ha deciso di puntare sulla stesura di driver multi GPU anche se resta “fedele” alla GPU singola, mentre NVidia ha deciso di continuare sulla strada dello slogan “GPU potenti a prezzi non proprio proponibili”.

Dopo questa breve introduzione, passiamo all’analisi del nostro prodotto ovvero l’architettura G200 che è la più costosa, la più complessa, la più potente e anche ovviamente la più veloce.

Tanto per dire i prezzi attualmente esistono due modelli basati su questa architettura: il primo è GTX 280 ed è il più potente, seguito poi dal 260 che consuma un po’ meno per le modiche cifre di lancio di 649$ e 399$. Alla fine grazie ai prezzi “stracciati” di ATI, NVidia è stata costretta a rivedere i suoi prezzi, che ora stanno sui 499$ e 299$.

Qualche delucidazione tecnica…

Mentre parlo di questa scheda mi sto emozionando, pensate che è la prima in assoluto ad integrare più di un miliardo di transistor a tecnologia 65nm. Stando a voci di corridoio provenienti da ATI sembrerebbe che la scheda sia l’ultima sullo standard monolitico dati i prezzi di produzione e l’area di silicio occupata (ovvero prodotta in blocco logico e non a strati logici anche se in realtà funziona a strati comunque).

Così mentre ati punta su bande alte con GDDR5, NVidia resta con meno frequenza ma con un bus simile ad un’autostrada, ben 512 bit. LA G200 ha 240 ALU (aritmetic logic unit), 80 TMU (Texture managment/mapping unit) e 32 RBE (Render Back Ends).

Passiamo ad analizzare l’architettura in dettaglio (chi non se la sente si fermi qui, è un consiglio…:D ).
LA precedente soluzione NVidia era composta da 8 clusters ognuno con 16 UEU (Unified Execution Unit). La G200 ha incrementato il numero di ALU da 128 a 240 e anche i cluster, da 8 a 10.

Dentro ogni cluster precedentemente erano inclusi due shader processor (che per NVidia si chiamano streaming processor), ognuno contenente 8 ALU; ora ogni cluster consiste di tre processori identici a quelli. Inoltre la cache L1 e l’instruction dispacher contengono a loro volta 8 ALU e una piccola memoria dedicata per lo scambio di dati.

Comparando l’architettura G200 con la G90 o la G92 è lampante la nuova potenza di calcolo. Siamo ancora indietro rispetto a ATI che raggruppa nell’RV770 ben 800 alu in 160 shader processors, comunque grazie alla frequenza superiore di NVidia le prestazioni sono simili. E’ importante notare questa scelta, infatti sembra che NVidia si stia prendendo in considerazione come fattore più importante la bellezza della rappresentazione delle texture, al contrario di ATI che mette al primo posto i calcoli matematici del gioco. Con questo non voglio dire che una fa schifo in un campo e l’altra nell’altro, infatti entrambe registrano buoni valori in entrambi i campi. Solo si vuole specificare l’idea diversa che sta alla base di ciascuna soluzione (la considerazione è fatta solo sulle operazioni single point e non floating point).

Punto di orza di NVidia in questa nuova scheda non è il raggruppamento nei cluster o strane soluzioni, bensì il numero di ottimizzazioni.

****Faccio un esempio stupido per far comprendere cosa può essere un’ottimizzazione (anche se non è quello che viene fatto dentro al chip). Supponiamo di dover spedire il numero 1004566693233: una possibile ottimizzazione può essere 110241516391312132 ovvero <numero><totale numero>….
qualcuno di voi potrebbe dire ma che razza di ottimizzazione è mai questa, i caratteri sono di più ! Considerazione esatta, infatti le ottimizzazioni vanno fatte sulla base di campioni statistici e anche se nel totale delle operazioni ci si guadagna, inevitabilmente in qualche caso ci si perde. Se il numero ad esempio fosse 111113333355555 l’ottimizzazione precedente produrrebbe 153555 che è molto più corto.****

L’ottimizzazione in realtà qui è di tipo hardware e consiste nell’aumento mirato di alcune unità come ad esempio i thread di shader, il numero di registri general purpose (ovvero dei registri dove ci si può buttare di tutto), la capacità dei buffer interni, l’introduzione della doppia precisione floating point (FP64) (introdotta in ognuno dei 30 processori shader). Comparando su questo aspetto NVidia con ATI comunque, ATI risulta di gran lunga il top con ben 240Gflops prodotti con l’RV770 contro i 90Gflops prodotti dal G200.
Nvidia inoltre non introduce il controllo nativo delle DirectX 10.1 che sembra però una mossa politico srategica più che un difetto di implementazione.

La parte di texturing non è cambiata più di tanto tranne una maggior velocità della logica di controllo per l’aumento della velocità di campionamento delle texture stesse. Vi sono 8 processori adibiliti alle texture con due indirizzamenti e due texture filtering units assegnate ad ugnuno dei 10 cluster. In teoria il sistema prevede il campionamento di 80 pixel per clock, ma con filtro Anisotropo il numero scende a 40.
Qui è possibile vedere come sono disposte le unità sul chip:

purtroppo il chip occupa 600 mm quadrati, ed ha costretto gli sviluppatori ad inserire esternamente diversi controlli (come già fatto all’inizio con il G80).
Il funzionamento delle parti di raster processor sono restate pressoché identiche, tranne l’aumento di RBE arrivate ora a 8. In altre parole il nuovo chip ha 32 ROP e può rilasciare 32 pixel al clock.

Si tratta solamente di un altro modo estensivo per incrementare le performance. Tuttavia è presente anche un modo intensivo: l’RBE può ora shiftare i pixel in formato RGBA9 a velocità piena, anziché a metà velocità come nel G80…G92.
Da una parte 8 unità RBE possono traslare in 8 controller di memoria da 64 bit e un’interfaccia esterna da 512 bit senza limiti di banda fissa, ma dall’altra 32 RBE hanno il loro costo e occupano il loro spazio. Inoltre raramente gli RBE sono i responsabili dei cali di prestazioni, dato che con 32 raster processor si può tranquilamente giocare a 1920×1200 a tutto schermo con AntiAliasing.

Come già detto il G200 ha molte più RBE e ognuna di essa è connessa con un controller a 64 bit. Il numero dei controller è salito ulteriormente, da 4 a 8 (richiedendo un aumento del bus, da 256 a 512 bit). Anche la quantità di memoria è aumentata, arrivando nel modello top a 1024 MB. Ricordo ai nostri lettori che una quantità di memoria così alta è visibile solo ad alte risoluzioni, e non viene sfruttata altrimenti (la maggior parte delle schede di fascia alta arriva a 512-764MB). Dato l’aumento del bus si è deciso di non inserire ulteriori tecnologie DDR, per tanto la scheda usa ancora come i precedenti modelli le memorie GDDR3 (le frequenze arrivano a 1200MHz in doppia banda ovvero 2400MHz equivalenti, con 512 bit di bus, per un totale di 150 GB/s teorici di dati…). Anche se non si trovano informazioni a riguardo si sa che il numero di registri è aumentato e che l’interfaccia tra essi e il thread dispatch è migliorato, riducendo i cicli di idle.

Per quanto riguarda il discorso PureVideo HD nulla è cambiato dalle precedenti generazioni che viene effettuato a livello software. Nessun processore audio è stato integrato a differenza di ATI, e ricordiamo che il principale difetto del PureVideo HD se comparato sempre con l’ATI è l’assenza del formato hardware HD deconding VC-1. L’architettura è stata creata con il voltaggio e la frequenza variabile, anche se non è stato dedicato molto tempo a tale caratteristica data l’enorme complessità del chip. Il G200 ha anche la tecnologia HybridPower, con cui è pienamente compatibile (ricordiamo che tale tecnologia permette alla scheda di spegnersi se i calcoli effettuati sono in 2D, e permette alla scheda di scaricarli sul chip grafico integrato della scheda madre, che deve essere costruita con chipset nForce 780a, 750, Geforce 8200 o GeForce 8300).

Il nuovo core NVidia supporta le operazioni in virgola mobile a doppia precisione, e per questo può essere adattabili a scopi scientifici, tecnici e finanziari (che richiedono appunto un’alta precisione di calcolo). Ora NVidia risulta perfettamente compatibile con il protocollo IEEE 754 così come l’ATI con il suo RV670. In questa nuova scheda NVidia ha implementato anche l’acceleratore fisico a livello della GPU (relizzato finora con scheda aggiuntiva a parte).

Se qualcuno è interessato posso descrivere dettagliatamente le schede, fatemi sapere. Intanto vi lascio con i consumi:

Il livello di rumore:

Qualche benchmark:

Come si comportano le schede con qualche filtro?

Vi ringrazio per la lettura, e aspetto i vostri commenti. Ciao a tutti !
Hochwart

Annunci

~ di Hochwart su agosto 7, 2008.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

 
%d blogger hanno fatto clic su Mi Piace per questo: