مشاركة عبر


قاعدة بيانات تجميع الجينوم (gnomAD)

إشعار

تحديث هام مايو 2025: عزيزي المجتمع، نود أن نعلمك بالتغيير القادم فيما يتعلق بمجموعات البيانات المفتوحة للجينوم المتوفرة حاليا من خلال Azure. بعد دراسة متأنية، قررنا تحويل تركيزنا إلى مبادرات جديدة من شأنها أن تخدم مجتمعنا بشكل أفضل وتتسق مع أهدافنا على المدى الطويل. على هذا النحو، سيتم إهمال الوصول إلى مجموعات البيانات المفتوحة Genomics على Azure في الأشهر القادمة. نحن نفهم أن مجموعات البيانات هذه كانت قيمة للبحث والتطوير والتعلم، ونقدر بعمق المساهمات والمشاركة من مجتمعنا بمرور الوقت. نشكرك على تفهمك ودعمك.

قاعدة بيانات تجميع الجينوم (gnomAD) هي مورد طوره تحالف دولي من المحققين، بهدف تجميع ومواءمة كل من بيانات تسلسل الجينوم و exome من مجموعة واسعة من مشاريع التسلسل واسعة النطاق، وإتاحة بيانات موجزة للمجتمع العلمي الأوسع.

إشعار

توفر Microsoft Azure Open Datasets على أساس "ثابت". لا تقدم Microsoft أي ضمانات صريحة أو ضمنية أو شروطاً فيما يتعلق باستخدامك لمجموعات البيانات. وتخلي Microsoft مسؤوليتها عن أي أضرار أو خسائر، بما في ذلك المباشرة أو التبعية أو الخاصة أو غير المباشرة أو العرضية أو العقابية، الناتجة عن استخدامك لمجموعات البيانات إلى الحد الذي يسمح به القانون المحلي الخاص بك.

ويتم توفير مجموعة البيانات هذه بموجب الشروط الأصلية التي تلقتها Microsoft على أنها بيانات المصدر. وقد تتضمن مجموعة البيانات بيانات مصدرها Microsoft.

مصدر البيانات

تتم استضافة مجموعة البيانات هذه كتعاون مع Broad Institute ويمكن رؤية كتالوج بيانات gnomAD الكامل في https://gnomad.broadinstitute.org/downloads

وحدات تخزين البيانات ومعدل التحديث

تحتوي مجموعة البيانات هذه على حوالي 30 تيرابايت من البيانات ويتم تحديثها مع كل إصدار من إصدارات gnomAD.

موقع التخزين

يقع حساب التخزين الذي يستضيف مجموعة البيانات هذه في منطقة Azure شرق الولايات المتحدة. يوصى بتخصيص موارد حساب في شرق الولايات المتحدة للتقارب.

الوصول إلى البيانات

حساب التخزين: 'https://datasetgnomad.blob.core.windows.net/dataset/'

تتوفر البيانات بشكل عام دون قيود، ويوصى باستخدام أداة AzCopy للعمليات المجمعة. على سبيل المثال، لعرض VCFs في الإصدار 3.0 من gnomAD:

$ azcopy ls https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes

لتنزيل جميع ملفات VCF بشكل متكرر:

$ azcopy cp --recursive=true https://datasetgnomad.blob.core.windows.net/dataset/release/3.0/vcf/genomes .

جديد: تنسيق Parquet لملفات gnomAD v2.1.1 VCF (exomes و genomes)

لعرض ملفات parquet:

$ azcopy ls https://datasetgnomadparquet.blob.core.windows.net/dataset

لتنزيل جميع ملفات parquet بشكل متكرر:

$ cp --recursive=true https://datasetgnomadparquet.blob.core.windows.net/dataset

يعد Azure Storage Explorer أيضا أداة مفيدة لاستعراض قائمة الملفات في إصدار gnomAD.

شروط الاستخدام

البيانات متوفرة بدون قيود. لمزيد من المعلومات وتفاصيل الاقتباس، راجع صفحة gnomAD حول.

جهة اتصال

للحصول على أي أسئلة أو ملاحظات حول مجموعة البيانات هذه، اتصل بفريق gnomAD.

الخطوات التالية

اعرض ما يتبقى من مجموعات البيانات في كتالوج Open Datasets.