المساعد الشخصي الرقمي

مشاهدة النسخة كاملة : شرح مفصل و شامل عن معمارية FERMI من NVIDIA



الصفحات : [1] 2

SNOOP-NO LIMIT
08-10-2009, 12:49
https://www.arab-box.com/photos/00079/oqct0m7sz2yk.jpg (https://www.arab-box.com)

اليوم نحن قادرين على الكشف عن المزيد من المميزات المثيرة للأهتمام للجيل القادم من هندسة الـ GPU من NVIDIA والمعروفه بأسم (FERMI) . تشير NVIDIA الى FERMI على انها قفزة هائلة للأمام في هيكلية الـ GPU منذ هيكلية الـ G80 وبعد قراءة داخل التوثيق , من الصعب المجادلة ضد قضيتهم . إن هيكلية الـ GT200 التي قدمت لنا الـ GTX 285 وGTX 295 كان تطورا كبيرا على G80 بالرغم من انها كانت مرتكزه بشكل اساسي على نفس مبادئ التصميم للـ G80

https://www.arab-box.com/photos/00077/lb54c131tmlj.jpg (https://www.arab-box.com)

NVIDIA FERMI قامت بأخذ حوسبة الـ GPU الى خطوة اخرى تماما وهذا هدف واضح وأساسي من الهيكلية الجديده .وسوف نرى ان NVIDIA قد قامت بالتركيز على امور معينه مثل نقطة العوم ذات الدقة المزدوجة , تقنيات الذاكره مثل
دغم الـ ECC و الـ caches وتبديل الحالة بين تطبيقات الـ GPU للقيام بشكل مباشر بإستهداف هيكلية CUDA وما تعتقده NVIDIA هو ان المستقبل هو الحوسبة الموازية.

The Fermi Architecture

عند مستوى اعلى , هيكلية FERMI الجديده قد تم تصميمها كي تقوم برسم تفصيلي بشكل مباشر لتفسير NVIDIA عن حوسبة CUDA المتفدمة. في نسخة تنفيذ البرنامج هذه يوجد : معالجة ثانوية (threads) , وكتل معالجة ثانويه (thread blocks)وشبكات كثل معالجة ثانوية (grids of thread blocks) التي تميز نفسها بالإعتماد على دخول الذاكره وتنفيذ النواة .

https://www.arab-box.com/photos/00077/2fyvamnuzzav.jpg (https://www.arab-box.com)

إن كثل المعالجة الثانوية هي مجموعة من المعالجات التي لديها القدرة على التعاون مع بعضها وتتواصل بواسطة كتل ذاكرية مشتركة . كل كتلة تدعم بقدر يصل إلى 1536 معالجة ثانوية متزامنة , كل منها لها دخول منفصل لذاكرة منفردة., عدادات, سجلات, الخ. كل شبكة هي في المواقع ايضا تكون صفوف من كتل المعالجة الثانوية والتي تقوم
بتشغيل نفس النواة لكن لديها القدرة على قراءة وكتابة من الذاكرة الشامله (لكن فقط بعد تزامن نواة بنطاق عالمي)

مجموعة البرامج هذه تتطابق مع هيكلية NVIDIA بصيغة الـ GPU , وتدفق المعالجات الثنائية ونواة الـ CUDA. الـ GPU بنفسه يقوم بالعمل على شبكات المعالجة الثانوية , كل صف من تدفق المعالجات الثنائية (SMs) تقوم بتنفيذ واحد او اكثر من المعالجات الثانوية والنواة الفردية للـ CUDA (حيث ان NVIDIA تسميها الأن كذلك) تقوم ايضا بتنفيذ المعالجة الثانوية . ان SMs تقوم بتنفيذ المعالجة الثانوية في المجموعات المكونة من WARPS" 32 "والتي تساعد على تحسين فعالية الـ GPU

https://www.arab-box.com/photos/00077/p5twoqg1zjqw.jpg (https://www.arab-box.com)

ان التنفيذ الأول لتلك الهيكلية , والتي نسميها مبدئيا GT300 سيكون لديها مواصفات خام مدهشة . ان هذا الـ GPU مصنوع من 3.0billion transistors وتستقبل معالجة النواة 512 CUDA والمنظمة في 14 تدفق معالجات ثانوية من 32 نواة لكل واحدة , ان هيكلية الذاكرة مبنية حول تطبيق GDDR5 الجديد ولديها 6 قنوات والواحده بحجم 64BIT اي ما يعادل 384BIT لحجم الذاكرة الإجمالية . ان نظام الذاكرة يمكن ان تدعم فنيا لغاية 6GB كما أنه أيضا يعتبر شيء أساسي لتطبيقات الـ HPC


https://www.arab-box.com/photos/00077/sfebjkfj5zxe.jpg (https://www.arab-box.com)

كل SM تتضمن 32 نواة معالج CUDA (كانت 4 في تصميم الـ GT200 السابقه) كما نرى في الصوره اعلاه (مربعات ذات اللون الأخضر) لكن ايضا تقوم بتقديم ميزات اخرى كي تساعد على تحسين الأداء . كل معالج يتضمن
fully pipelined integer ووحدة نقطة العوم التي تقوم بتطبيق المعيار الجديد IEEE 754-2008 وهي حركة اخرى هامة لحوسبة الـ GPU . ان نواة Evergreen الجديده من AMD ايضا يمكن ان تطبق هذا المعيار حيث انها تضيف الدعم لأوامر الإضافة المدمجة والمتعددة.

ويتضمن ابضا كل SM ستة عشر (16) وحدة حفظ واربع وحدات ذات توظيف خاص كي تقوم بإستلام عمليات الحوسبة مثل sin and cosine.

تزعم NVIDIA بأن الأداء الثنائي لهيكلية FERMI ستكون ذات تحسن هائل اكثر من التصميم الحالي للـ GT200

https://www.arab-box.com/photos/00077/k2tl83cke6o8.jpg (https://www.arab-box.com)

مع زعم NVIDIA بانها ستكون اسرع بي 4.25X من GT200 فهذا يجعل الـ GT300 عند GFLOPS 330 للأداء الثنائي
(المرتكز على GFLOPS 78 والتي تقع على عاتق GT200)

خلال حديث السيد JEN-HSUN's في مؤتمر NVIDIA GPU الفني , فقد صرحت ان ثورة زيادة الأداء كان '8X' إذا كانت
هذه هي المسألة فإن GT300 يمكن ان يصل بأقصى ما يصل الى GFLOPS 624 وسوف نعرف الإجابة النهائيه قريبا

بينما بالتأكيد سيكون هناك تحسن مدهش , فإن عائلة Evergreen الجديده من AMD سوف تصل ثروتها النظريه الى
لـ GFLOPS 544 بالنسبه للأداء الثنائي , لذلك نحن بحاجة الى مراقبة تلك الأرقام حيث اننا نرى القطعة الفعلية من NVIDIA قد ضربت الشارع.
Fermi Architecture continued

لقد سمعتوني مسبقا اذكر - "WARPS" والتي تشكل مجموعة الـ THREADS 32 والـ SM المفرده سوف يقوم بمعالجتها .

https://www6.0zz0.com/2009/10/08/08/687866652.jpg (https://www.0zz0.com)


ان كل SM تملك وحدات اوامر إطلاق ومجدولات الـ WARPS والتي تسمح لإثنين للـ WARPS بأن يتم تنفيذها حاليا
على نواة CUDA . كل WARPS يعين اوامر لـ 16 من حدات النواة و 16 من وحدات التحميل والحفظ ونصف وحدات الوظائف الخاصة - ان WARPS بعدها تقوم بالتنفيذ بشكل مستقل بدون مساعدة المجدول . وهذا الموديل لهيكلية
المسألة الثنائية سوف يسمح بشكل واضح لـ FERMI بالوصول قريبا الى حدود الأداء النظري.

في الرسم البياني للـ SM أعلاه بإمكانك ان ترى البلوك KB 64 من الذاكرة المشتركة و L1 CACHE . هذه الذاكرة مميزة بحيث انها قابلة للتعديل في إعداداتها سواء كذاكرة مشتركة بحجم 48 KB او L1 16 KB CACHE او كذاكرة مشتركة بحجم 16 KB و L1 48 KB CACHE زهذا الخيار كان مطلوبا كي يتضمن توافقية خلفية 100% مع الـ GPU الحالي المرتكز على التطبيقات لكنها ايضا تقوم بتزويد سلاسه للمصمم والمرتكزة على حاجات برامجهم.

https://www6.0zz0.com/2009/10/08/09/903999786.jpg (https://www.0zz0.com)

بإمكانكم ان تشاهدوا هنا ظهور مواصفات لهيكلية الـ GPU الجديدة ومقارنة مع الـ G80 و GT200 في هذا الوقت NVIDIA لا تنوي القيام بأي دعاوي ضد تصاميم AMD الحالية والقادمة , سواء كان ذلك بسبب ان NVIDIA لن نكون بمنظر المستفيد او لأن الشركة بكل بساطة لها الساحة العليا والتي لم تظهر بعد .

بجانب قدرات الحواسب الخام هذه , يوجد بعض الميزات الجديدة التي تأمل NVIDIA بان تساعد تميز FERMI في المنافسة . الأول هو (ISA) الجديدة وهو هيكلية إعداد الأمر والتي تم تحديثها كي تقوم بدعم اكثر لغات البرمجة شهرة اليوم وهي ++C عن طريق تضمين الدعم بمساحة عنوان موجدة إن هيكلية NVIDIA يمكنها الأن دعم برمجة الموديلات مع مواقع معينة غير محدودة او مقيدة . هذه الميزة لوحدها يمكن ان تجذب الكثير من المصميمن الى داخل عالم CUDA وحوسبة الـ GPU .

كانت NVIDIA سريعة في الإشارة الى ان الـ ISA الجديد والهيكلية بشكل عام جاهزة بشكل كامل
للـ OpenCL and DirectCompute , ان مشاركة العوائق الأساسية مثل الـ threads, blocks and grids هي
المفتاح نحو المثالية بالنسبة للغات الحوسبة القادمة .

إن نموذج تنفيذ الـ thread الموازي والجديد يزود دعم branching بشكل محسن , بواسطة الإطلاع المباشر على رمز امر branching إن FERMI قادرة على تحسين الأداء بكلا الألعاب وحوسبة الـ GPU , هذه الميزة تبدو مشابة جدا لوحدة الـ branching التي تنفذها AMD على الـ GPU خاصتهم منذ جيلين .

Memory Subsystem Innovations

بينما قمنا مسبقا بمناقشة فوائد الذاكرة المشتركة 64KB of shared memory/L1 cache , وبوجد بعض التغيرات
التي قامت بها NVIDIA مع FERMI لتحسين اداء الحوسبة .

https://www6.0zz0.com/2009/10/08/09/541583298.jpg (https://www.0zz0.com)

التطبيقات التي تستفيد من الذاكرة المستركة سيكون لديها خيار ,لغاية 48 KB . ولكن سيبقى لديها دخول
الى L1 cache والذي هو مميز بالنسبة لهذا التصميم . ان L1 تقوم بحفظ التسجيل مؤقتا وبهذا يمكن ان تحسن وقت دخول الذاكرة بشكل إجمالي .

قامت NVIDIA ايضا بيتضمين L2 cache جديد بحجم 768KB وهو مشترك ومترابط عبر كل 16 SMs في الـ GPU
ان الـ L2 cache بعد ذلك يمكن ان يحسن التواصل ما بين التطبيقات المتعددة للـ SMs والتي تمتد على اكثر من مجموعة واحدة من 32 نواة CUDA .

وقامت NVIDIA ايضا بإتخاذ خطوة بتزويد كل الذاكرات الداخلية الكبرى بدعم الـ ECC , بينما لن يقلق المستهلك المعتمد عليها فيما يتعلق بحقول عملية السيرفر الكبيرة جدا حول single bit-flips بسبب الإشعاع العشوائي . ان الـ
ECC هو محتوى رئيسي لمحيط مستقر . ان تحكم ذاكرة GDDR5 تقوم بدعم الـ ECC كما ايضا التسجيل الداخلي
L1 and L2 caches

-----------------------

تابع

SNOOP-NO LIMIT
08-10-2009, 12:50
GigaThread Scheduler

ان جدولة الـ THREAD المحدثة تقوم بعرض ميزتين جديدتين مع FERMI وهي تستحق المناقشة . الأولى التحسن الهائل في اداء تبديل السياق- لغاية ما يقارب الـ 10-20 جزء بالثانية . ان تبديل السياق يستخدم عندما يحتاج الـ GPU الى تبديل ما بين التطبيقات :على سبيل المثال إظهار الغرافيك ومعالجة الفيزكس(PhysX).

وهذا يسمح للمصممين بإستخدام طاقة الحوسبة للـ GPU لأغراض غير الغرافيكس , إذا كان ثمن التطبيق السابق تقليل الأداء المحدد لأجله.

ان التحديث الثاني الهائل هو مع تنفيذ kernel المتزامن والذي اعتقد بأنه مثل HyperThreading بالنسبة للـ GPU.

https://www6.0zz0.com/2009/10/08/09/453408868.jpg (https://www.0zz0.com)

وهذا يسمح للبرنامج الذي يستخدم عدد صغير من kernels and thus SMs and CUDA cores بتحسين الأستخدام
لكل الـ GPU عن طريق تشغيل تحفيز kernels بشكل متزايد ومتعدد . ولكي يتم عمل هذا فأن الـ kernels بحاجة ان تكون متمركزة على نفس سياق الـ GPU لكي لا تتمكن من تشغيل كلا الغرافيك وعملية الفيزيكس فس هذا المثال.

-------------------------------------------------------------------------

الأن فل نشرح المميزات التي سوف تأتي مع الجيل القادم من NVIDIA بأسم FERMI بشكل ادق

ان الجيل القادم لهيكلية الحوسبة واسمها FERMI . هو اكثر GPU متقدم في الهيكلية حيث لم يصنع مثله من قبل .
وهو يتضمن مميزات مبتكرة جديدة وهي :

(كما نرى في الصورة 4 مميزات)

https://www6.0zz0.com/2009/10/08/10/101305089.jpg (https://www.0zz0.com)

ان FERMI CUDA كود معدلة كي تقوم باداء استثنائي ودقة متناهية . ان الأداء المضاعف اسرع بـ 8 مرات من هيكلية الـ GPU السابقة . ان تطبيق اداء الحوسبة العالي يعتمد على تحفيز و اوليفيرجبيري.

https://www.arab-box.com/photos/00079/a9pvwqt1vkuq.jpg (https://www.arab-box.com)

التي سوف تستفيد بشكل خاص من تطور FERMI المتزايده, في الأداء بدقة مضاعفة . ان FERMI هي الأولى في هندسة الـ GPU . التي تدعم FULL CASHE مع الإندماج مع الذاكرة المشتركة .

L1 CASHE المعد بـ 64 KB والمدمج مع الذاكرة الظاهرية للكاش يقوم بتحسين عرض النطاق الترددي ويقلل التأخر
الحاصل لعدد كبير من التطبيقات الحوسبة البرامج مثل تحفيز تدفق الفيزكس . ومعالجة العمليات .

https://www.arab-box.com/photos/00079/3b47r1y0x2bn.jpg (https://www.arab-box.com)

ان FERMI تقدم تقنية محرك GIGA THREAD التي تقوم بدعم تتفيذ الـ كيرنال الممتد والذي يسمح لوظائف البرامج ان
يتم تنفيذها بشكل متوازي مما يحسن الفعالية والسرعة للتطبيقات الإجمالية , ان FERMI يتضمن ايضا محرك اوامر موجة لنقل البيانات والذي تقوم بذكاء بمعالجة الألاف من الأطنان من الثريدز .

https://www.arab-box.com/photos/00079/8i4ayvv2281k.jpg (https://www.arab-box.com)

ان FERMI هي الأولى في هندسة الـ GPU التي تدعم التحقق من الأخطاء الوتصحيح والتي تسمى ايضا بي الـ ECC
ان الأشعاعات الحاصلة بشكل طبيعي قد تؤدي الى تغير البيانات المحفوظة في الذاكرة مما ينتج عن ذلك
اخطاء بسيطه حيث هنا يأتي دور تقنية الـ ECC حيث تقوم بكشف وتصحيح هذه الأخطاء البسيطه .

https://www.arab-box.com/photos/00079/4cmzbx3vwors.jpg (https://www.arab-box.com)

قبل ان تؤثر على النظام . ان ملفات التسجيل والذواكر المشتركة( الـ CASHE الرامات التابعة لي FERMI تكون في حماية تقنية الـ ECC بشكل كامل .

https://www.arab-box.com/photos/00079/vu1gcleb7ikw.jpg (https://www.arab-box.com)

وذلك لا يجعلها فقد اقوى GPU في تطبيقات الحوسبة الإحترافية بل ايضا الأكثر اعتمادا وثقة .

---------------------------------------------------------

انتهى بعون الله

(ارجوا عدم نقل الموضوع الى الموضوع المثبت لأن هذا الموضوع ليس خبر او شائع انما شرح عن معمارية)

ارجو تثبيت الموضوع للفائدة

(ان كان هناك اخطاء في بعض الكلمات سوف يتم تعديلها في اسرع وقت ممكن)

اخوكم
SNOOP DOGG

Gwynn'bliedd
08-10-2009, 13:07
جميل جداً سنوبي ,

طرح اكثر من رائع

S@M
08-10-2009, 13:10
رائع سنوبى......... وتم التقيم ...............:)

yeahi
08-10-2009, 13:14
موضور اكثر من رائع تم التقيم

Stokon
08-10-2009, 13:15
موضوع رائع بجد و ياريت يثبت للأهمية
وأن شاء الله كروت Nvidia القادمة أنا متأكد من قوتها الخارقة:ah40:
تم تقييم الموضوع ;)
بس تقييم العضو مش راضى يقيم !!!!!(معرفش أيه السمعات ده !!!)

dune2000
08-10-2009, 14:05
موضوع رائع ويستحق التثبيت

0 cool
08-10-2009, 14:39
شكرا لك على ترجمة :)

!! NoMeRcY !!
08-10-2009, 14:46
شكراً سنوب .. تقرير رائع بالفعل

UNREAL
08-10-2009, 14:53
+18 تم التقييم

A4-F8
08-10-2009, 14:59
شكراااا لك على الموضوع

HossaM_ScorpioN1989
08-10-2009, 15:21
شكرا يا أخي
موضوع رائع وتم التقيم

Extreme2
08-10-2009, 15:46
رائع سنوب :)

Marine
08-10-2009, 15:56
رائع جدا سنوب :)

HuLkY
08-10-2009, 16:31
رائع سنوبى , أستسمحك تبص على التقييم نفسه :D

EN.AhMeD
08-10-2009, 17:47
رائع جدا اخوي سنوبي...

تم التقييم:ah7:

alayoubi
08-10-2009, 18:49
سنوبي الله يسامحك هذا تقرير بنعمل كم يوم بدنا عشان نقرأه :rolleyes: أنا لمى أشوف تقارير طويلة بخاف وبقلب عطول على موضوع غيره :eek:

اذا في مجال تختصره بخمس أسطر :D

شكرا عالتقرير حبيبي :)

anabtawi
08-10-2009, 19:31
الفشكر اخي سنوب على التقرير المثالي عن التقنيه الجديده لأنفيديا

تم التقييم

aziz-50
08-10-2009, 20:12
جهد متمير أخ SNOOP DOGG تشكر عليه .

Brigadier
08-10-2009, 20:17
:) عمل رائع اشكرك يا سنوب.

Jiraiya
10-10-2009, 14:17
ماشاء الله عليك أخوي سنوب موضوع ممتاز جداً الف شكر يا غالي ولكن

:mad:

( يجب أن تضع للبعض سمعات قبل إعطائها إلى SNOOP DOGG مرة أخرى )

تم تقييم الموضوع

bika08
10-10-2009, 22:42
تسلم ايدك اخى سنوب على الموضوع
جارى قراءة باقى الموضوع......

Jiraiya
16-10-2009, 12:55
أخوي سنوب أقترح عليك و ضع الشرح على صيغة (PDF)

alayoubi
17-10-2009, 02:40
يثبت لمدة أسبوع ليطلع عليه أكبر عدد من الأعضاء الكرام .
وشكرا مرة أخرى أخي سنوب عالجهد المبذول بالتقرير.

shaker3
17-10-2009, 11:40
يثبت لمدة أسبوع ليطلع عليه أكبر عدد من الأعضاء الكرام .
وشكرا مرة أخرى أخي سنوب عالجهد المبذول بالتقرير.

تم الاطلاع بعونه تعالى .........:) مشكور سنوووب دوغ
هل مازلت ((جاهل )) ام اني اصبحت على معرفة الان :ah38:

alayoubi
17-10-2009, 19:05
تم الاطلاع بعونه تعالى .........:) مشكور سنوووب دوغ
هل مازلت ((جاهل )) ام اني اصبحت على معرفة الان :ah38:

أخي شاكر دعك من هذا الأسلوب , فأنت لست بحاجة لمخالفة أخرى .
عندما وصفك الأخ سنوب بالجاهل لم يقصد أنك أمي فكلنا جهله في الأمور التي لا نعلمها ولا يخلق الانسان عالما .

أرجو ان لا تأخذ كلامي هذا بشكل شخصي فكل الأعضاء سواء , واذا عندك أي رد راسلني عالخاص فقط .

مطلوب للعدالة
18-10-2009, 14:37
سنوبي بصراحة لم اجد لك اي موضوع قرائته في حياتي في هذا المنتدى لعظيم الا و كان اروووووع من الرئع تقرير ممتاز والى الرقي

UNIVERSE
18-10-2009, 16:03
ماشاء الله مجهودك رائع
والشرح كامل ووافي

شكرا لك

miro the king
18-10-2009, 21:11
شكرا يا سنوبى طب ما هى الاسعار المتوقععة ومتى هينزل الكروت

-M7mD
19-10-2009, 15:40
شكراً سنوب على الشرح الرائع ...
تم التقييم