معلومة

ما هي قواعد أسماء البلازميد؟

ما هي قواعد أسماء البلازميد؟


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

ما هي أفضل الممارسات لتسمية البلازميدات المنشأة حديثًا؟

على سبيل المثال ، التنسيق الشائع هوpABC123. ما هي المواصفات الدقيقة؟ هل يجب أن يكون هناك 3 أحرف؟

ما هي قواعد البيانات لأسماء البلازميد الموجودة؟ ما مدى الحرص على تجنب تضارب الأسماء؟


لذلك لا توجد قواعد لكل قول (على الرغم من أنني أتمنى وجودها). ولكن هناك قواسم مشتركة بين أسماء البلازميد ويمكن أن تساعد الأشخاص في التعرف عليها:

قم بتضمين اسم العمود الفقري الفارغ في اسم البلازميد الخاص بك. يمكن أن تنقل هذه المعلومة البسيطة في كثير من الأحيان العديد من التفاصيل المهمة. بمجرد معرفة العمود الفقري الذي يعتمد عليه البلازميد ، يمكنك عادةً اشتقاق: أ) مقاومة المضادات الحيوية البكتيرية ، ب) المحفز الذي يحرك الإدخال ، ج) أي علامات اختيار أخرى (للاستخدام في أنواع الخلايا الأخرى ، على سبيل المثال الخلايا حقيقية النواة ).

قم بتضمين معلومات حول الإدخال في اسم البلازميد الخاص بك. غالبًا ما يكون هذا تمثيلًا من 3 إلى 6 أحرف للجين (أو تسلسل الحمض النووي).

غالبًا ما يضيف الباحثون حرفًا صغيرًا إلى بداية اختصار الإدخال لتحديد الأنواع. مثال: "h" للإنسان (الإنسان العاقل)، "m" للفأر (موس العضلات)، "r" تعني الجرذ (rattus rattus أو rattus norvegicus)، إلخ.

أضف أي علامات أو عمليات دمج موجودة في إدخالك. عادةً ما تسرد أي علامة أو بروتين اندماج بالترتيب الذي تظهر به في البلازميد وموضعها النسبي في الإدخال. على سبيل المثال ، إذا كان لديك علامة Flag على N-terminal لإدخالك ، فستقوم بإدراجها أولاً.

على سبيل المثال pBACKBONE-Flag-hGene

إذا كان هناك أيضًا EGFP مدمجًا في الطرف C الخاص بالملحق الخاص بك ، فستقوم بإدراجه بعد الإدراج.

pBACKBONE-Flag-hGene-EGFP

إذا كان الإدخال الخاص بك يحتوي على طفرة أو تعديل ، فيجب تضمين ذلك في اسم البلازميد. يتم سرد الطفرات عمومًا على أنها تغير في الأحماض الأمينية وليس تغيرًا في النوكليوتيدات. الطريقة الصحيحة للدلالة على طفرة الأحماض الأمينية هي سرد ​​الاختصار بحرف واحد للحمض الأميني من النوع البري متبوعًا مباشرة بموضعه (الرقم) بالنسبة لبداية الميثيونين (ميت) متبوعًا باختصار حرف واحد من الأحماض الأمينية الطافرة حاليًا في هذا الموقف.

تحقق من مزيد من المعلومات في Addgene.com فهي أكبر مستودع للبلازميد في العالم.

من خلال الاصطدامات ، أظن أنك تقصد تسمية البلازميد الخاص بك بشيء "مأخوذ" بالفعل. هذه فائدة من التقديم إلى المستودع ، وسيضمنون عدم حدوث ذلك. إذا كنت تخطط لتقديم براءة اختراع ، فسيقوم محامي والدك بذلك.


واحدة من أكثر الطرق شيوعًا (التي وصفها AddGene) هيص(للبلازميد) ، متبوعًا باسم العمود الفقري ، وشرطة ، وإدخالات محددة بمزيد من الشرطات. من هذا نحصل على أشياء مثل:pBluescript-CMV-mACT1-GFP.

طريقة أخرى أفضلها هي تسمية جميع البلازميدات بالصيغة الواردة في السؤال:pABC123. هناABCهو تعيين مكون من 3 أحرف يجب على الباحث استخدامه باستمرار لكل بلازميد يقوم بإنشائه (غالبًا ما تكون الأحرف الأولى منه) ، والأرقام متسلسلة (مبطنة بالأصفار لتحسين الفرز حسب البرامج).

AddGene هو واحد من أكبر مستودعات البلازميد الموجودة هناك. لسوء الحظ ، تعتبر الاصطدامات مشكلة شائعة - يجب عليك دائمًا البحث عن اسم البلازميد قبل افتراض الأشياء بناءً على الاسم. بينما تساعد الاستراتيجيتان المذكورتان أعلاه في تقليل احتمالات الاصطدام ، هناك عدد قليل جدًا من مجموعات الأحرف المكونة من 3 أحرف التي لم يتم أخذها.


يعتمد علماء الأحياء التركيبية على قواعد بيانات الأجزاء البيولوجية لتصميم الأجهزة والأنظمة الجينية. غالبًا ما يتم اشتقاق تسلسل وأوصاف الأجزاء الجينية من سمات البلازميدات الموصوفة سابقًا باستخدام عمليات معالجة مخصصة وعرضة للخطأ وتستغرق وقتًا طويلاً لأن قواعد البيانات الحالية للبلازميدات والميزات منظمة بشكل فضفاض. غالبًا ما تفتقر قواعد البيانات هذه إلى الاتساق في طريقة تحديد ووصف التسلسلات. علاوة على ذلك ، لا توفر تنسيقات ملفات المعلومات الحيوية القديمة مثل GenBank معلومات كافية حول الغرض من الميزات. لقد قمنا بتحليل التعليقات التوضيحية لمكتبة & # x0223c2000 البلازميدات المستخدمة على نطاق واسع لبناء قاعدة بيانات غير زائدة عن الحاجة لميزات البلازميد. نظرنا في تنوع ميزات البلازميد وإحصائيات استخدامها وتوزيعاتها حسب نوع الميزة. قمنا بتقسيم ميزات البلازميد بواسطة مضيفات التعبير. اشتقنا مكتبة للأجزاء البيولوجية من قاعدة بيانات ميزات البلازميد. تم تنسيق المكتبة باستخدام اللغة المفتوحة للبيولوجيا التركيبية ، وهو معيار ناشئ تم تطويره لتنظيم مكتبات الأجزاء الجينية بشكل أفضل لتسهيل سير عمل البيولوجيا التركيبية. كدليل ، تم تحويل المكتبة إلى ملفات قواعد GenoCAD للسماح للمستخدمين باستيراد المكتبة وتخصيصها بناءً على احتياجات مشاريعهم البحثية.

يعتبر مفهوم الأجزاء البيولوجية القياسية أمرًا أساسيًا في علم الأحياء التركيبي. الأجزاء البيولوجية عبارة عن تسلسلات DNA مشروحة يمكن دمجها لإنشاء أنظمة وراثية أكبر (1،2). في البداية ، ركز توحيد الأجزاء على استراتيجيات تجميع محددة مثل معايير BioBrick (3) أو BglBrick (4). أدرك علماء الأحياء التركيبية أيضًا الحاجة إلى استخدام التمثيلات القياسية لوصف الأجزاء. كان سجل الأجزاء البيولوجية القياسية (www.partsregistry.org) الذي يدعم مسابقة iGEM أول محاولة لتوحيد بيانات الأجزاء (5). أدت هذه التجربة الرائدة إلى فكرة الإبلاغ عن البيانات التي تصف الأجزاء والوظائف # x02019 كأوراق بيانات موحدة (6).

أهم جزء من المعلومات المرتبطة بالجزء البيولوجي هو تسلسله. ثبت أن الحصول على معلومات تسلسل الجودة يمثل مشكلة أكثر مما قد يتوقعه المرء. على سبيل المثال ، لم تتضمن مراجعة مبكرة بعنوان & # x02018Genetic parts to Program البكتيريا & # x02019 أي إشارات إلى بيانات التسلسل (7). التكرار المتكرر في الأدبيات هو تعريف البنى بأسماء المروجين المعياريين و CDS ، مما يسمح باستنتاج التسلسلات ، ولكن لا يقدم معلومات حول التسلسلات الرئيسية الأخرى ، مثل 5 & # x02032 المناطق غير المشفرة. كشف تقييم لسجل الأجزاء البيولوجية المعيارية عن العديد من المشاكل ، مثل عدم وجود تسلسل أو تناقضات بين التسلسلات المنشورة والفيزيائية للأجزاء البيولوجية (8). بشكل عام ، العديد من المجلات لديها سياسات الكشف عن التسلسل ، ولكن هذه السياسات لا تنطبق على التسلسلات البلازميدية (9). هناك عدد من الأسباب الأخرى ، مثل الميزانيات المحدودة أو الوصول المحدود إلى مرفق التسلسل ، يفسر أيضًا سبب افتقار العديد من البلازميدات الموصوفة في الأدبيات إلى التسلسلات الكاملة. تهدف المستودعات مثل Addgene (10،11) إلى معالجة هذه المشكلة عن طريق توثيق البلازميدات في مجموعاتها مع بيانات التسلسل والشروح ، وأيضًا عن طريق ربط البلازميدات ببيانات النمط الظاهري ، لكن هذه الجهود لم تغطي سوى جزء صغير من البلازميدات في الأوراق المنشورة .

للتغلب على هذه القيود ، بحثنا عن بدائل للمنشورات التي راجعها النظراء للحصول على بيانات تسلسل الجودة التي يمكن أن توفر أساسًا متينًا لتطوير قاعدة بيانات شاملة للأجزاء الجينية. تم استخدام العديد من نواقل الاستنساخ والتعبير لعقود من قبل علماء الأحياء الجزيئية. تقدم الشركات والاتحادات البحثية التي توزع هذه النواقل عادةً معلومات تسلسل مفصلة.

استخدم مطورو برامج المعلوماتية الحيوية شروح تسلسل البلازميد لتطوير قدرات رسم الخرائط التلقائية. باستخدام قائمة الميزات الموجودة بشكل شائع في متواليات البلازميد ، كان برنامج PlasMapper قادرًا على التعليق تلقائيًا وإنشاء خرائط لتسلسل الحمض النووي الخام (12). يتم استخدام هذا النهج الآن من قبل حزم المعلومات الحيوية الأخرى بما في ذلك SnapGene (www.snapgene.com). ومع ذلك ، يقوم كل فريق برمجي بتطوير قاعدة بياناته الخاصة لميزات البلازميد الشائعة باستخدام طرق معالجة خاصة. نتيجة لذلك ، لم يكن من الممكن استخدام قاعدة بيانات موجودة لخصائص البلازميد الشائعة لتطوير مكتبة للأجزاء الجينية.

قمنا بتحليل الميزات الموجودة في ملفات التسلسل المشروحة لعام 1901 بهدف تطوير قاعدة بيانات لميزات البلازميد التي تدعم التعليقات التوضيحية الواضحة لتسلسل البلازميد. يمكن استخدام هذه الميزات كأجزاء بيولوجية للبيولوجيا التركيبية بمساعدة نظام متطور من الفئات (13) متوافق مع لغة البيولوجيا التركيبية المفتوحة (SBOL) (14).


Resolvase بوساطة الحذف

المزايا التطورية للحذف بوساطة Resolvase

تساهم البلازميدات واللينقولات البكتيرية في ما يسمى ببركة الجينات المتنقلة (الأفقية) من خلال توليد مجموعات جديدة من الجينات ، ويحتمل أن تكون مفيدة. يتميز تحليل الاندماج المشترك أثناء التحويل بالعديد من المزايا: فهو يفصل بكفاءة بين المتبرع وجزيئات الحمض النووي المستهدفة التي قد يكون لها أنظمة تكرار غير متطابقة ضارة بالخلية ، ويؤدي إلى اكتساب الجزيء المستهدف ترانسبوزون ، وبالتالي توسيع مخزون الجينات الخاص به وتمكين المزيد من انتشار ال ينقل عبر الناقل الجديد. بالإضافة إلى ذلك ، إذا حصل جزيء DNA مع الينقولات على نسخة ثانية من الترانسبوزون نفسه أو ما شابه (على سبيل المثال ، عن طريق التبديل داخل جزيء الحمض النووي نفسه أو بين جزيئين ، أو عن طريق إعادة التركيب المتماثل الذي ينضم إلى جزيئين DNA) ، فإن الدقة بين الموجهة الدقة يمكن للمواقع أن تولد جزيئات مفردة تحتوي على ترانسبوزون هجين. تحدث هذه الهجينة في تينيسي3 و تينيسي5053/ تينيسي402 قد يكون لها ميزة انتقائية على الأشكال الأصلية في بعض البكتيريا. يمكن أن يؤدي القرار أيضًا إلى حذف تسلسل الحمض النووي المستهدف الموجود بين نسختين من الينقولات. أحداث إعادة تنظيم الجينات هذه ليست ضارة ما لم يتم فقد الجينات الرئيسية. الجزيئات الناتجة غير معتادة من حيث أن الينقولات التي تحتويها تفتقر إلى التسلسل الجانبي المتوقع DR.

تساهم أنظمة الدقة المرتبطة بالبلازميد في استقرار البلازميد وهي مهمة بشكل خاص في البلازميدات الكبيرة الموجودة في عدد قليل من النسخ في المضيف البكتيري. إعادة التركيب المتماثل التي قد تحدث بين البلازميدات لتكوين مولدات ، أو مولدات التي تنشأ أثناء تكاثر البلازميد الذي يتضمن ما يسمى بعملية الدائرة المتدحرجة ، يقلل من عدد جزيئات البلازميد المستقلة ، مما يضر بتوزيع البلازميدات على الخلايا الوليدة عند انقسام الخلية. تقلل أنظمة الدقة المرتبطة بالبلازميد multimers إلى الشكل الأحادي من خلال عمل resolvase على مواقع الدقة الموجهة مباشرة. ترميز البلازميدات RP4 و R46 أنظمة تحليل (ParA-الدقة ولكل46-لكل، على التوالي) التي تشبه وظيفيًا Tn3-نظام حل الانزيم المشترك من النوع وربما اشتُق منها. تنعكس الروابط التطورية الأخرى بين أنظمة البلازميد والترانسبوزون في قدرة نظام الينقولات على العمل بدقة متعددة (على سبيل المثال ، في pJHCMW1) ولأجل الدقة مواقع في RP4 وبعض Tn3-النقلات لتكون بمثابة أهداف لـالدقة-hunter 'الينقولات (ال Tn5053/ تينيسي402 الأسرة) التي ينطوي نقلها الفعال على resolvase الهدف.


أسماء ORI - اسم البلازميد أوري (نوفمبر / 16/2010)

لدي سؤال حول الأنواع المختلفة لـ "أصول النسخ المتماثل".

أعلم أن تسلسل بلازميد مستقل في الخميرة (S.pombe) يسمى "ARS".
لكن كيف يطلق عليه في الكائنات الحية الأخرى؟
على سبيل المثال S.cerevisiae؟

أعتقد أنه في الإشريكية القولونية يسمى هذا البلازميد أوري "oriT"؟

آمل أن تتمكن من فهم سؤالي وأن تكون قادرًا على مساعدتي & # 33

في عالم البلازميد البكتيري ، يشير مصطلح "oriT" إلى أصل الانتقال في بلازميد منحل. "OriV" هو أصل البلازميد للنمو الخضري (ويعرف أيضًا باسم النسخ المتماثل). ستحتوي جميع البلازميدات على oriV ، حيث يجب أن يتكاثر الجميع ، ولكن ليس كلهم ​​سيكون لديهم oriT ، حيث لا يمكن نقل جميعهم.

شكرا لك على هذه الإجابة السريعة.

أعتقد أنه & # 39s خطأ في الكتابة وأنت تقصد "OriT" بدلاً من "OriV" في الجزء الأخير من الجملة الأخيرة؟

آمل أن تسامح الطالب الجهل إذا سألك: "هل تمتلك كل البكتيريا نفس تسلسل الحمض النووي في OriV؟
أم أن كل بكتيريا لها تسلسل أوريفي خاص به؟ "

Ikar في الأربعاء 17 نوفمبر 09:31:28 2010 قال:

نعم ، أنت على حق. لقد أصلحت الخطأ المطبعي.

Ikar في الأربعاء 17 نوفمبر 09:31:28 2010 قال:

هل ما زلنا نتحدث عن البلازميدات؟ إذا كان الأمر كذلك ، فإن الإجابة هي لا - ليس كل البكتيريا لديها بلازميد ، لذا فإن أولئك الذين ليس لديهم بلازميد لن يكون لديهم أوريف ينقله البلازميد. علاوة على ذلك ، فإن التسلسل الدقيق لل oriV يختلف من البلازميد إلى البلازميد.

إذا كنت تقصد على الكروموسوم ، فإن كل كروموسوم بكتيري له أصل واحد للتكاثر - في الإشريكية القولونية ، يسمى هذا بـ oriC. تمتلك العتائق أصولًا متعددة للتكاثر على طول كروموسومها الدائري ، وعادةً ما يكون لحقيقيات النوى أصول متعددة للتكاثر على كل من كروموسوماتها الخطية.

اعذرني على توضيحاتي غير الدقيقة. أنا من ألمانيا ولا أستخدم اللغة الإنجليزية في كثير من الأحيان ، لذلك أجد صعوبات في توضيح شيء ما.
ولكن هذا أيضًا هو سبب محاولة استخدام منتدى اللغة الإنجليزية: لتحسين مهاراتي اللغوية بينما أحصل على إجابات لأسئلتي

ربما يكون الأمر أسهل بالنسبة لي إذا بدأت من جديد:

ملخص قصير لما فهمته:
- تحتوي الإشريكية القولونية على كروموسومه a oriC لتكرار الجينوم الخاص به
- يحتوي على oriV على البلازميد لتكاثره المستقل (تكرار هذا البلازميد)
- كل نوع من البكتيريا لديه نوع خاص به من oriC
- إذا كانت الأنواع تحتوي على بلازميدات ، فسيكون تسلسل oriV مختلفًا قليلاً بين الأنواع

ولكن إذا قمت بتحويل ناقل بلازميد في أي نوع من البكتيريا ، فهل تستخدم دائمًا نفس oriV الموجود على هذا
البلازميد لتكرارها؟
أو هل تستخدم أنواعًا مختلفة من "oriV" على البلازميدات المتجهة الخاصة بك لكل نوع؟

تتكاثر بعض البلازميدات في أنواع متعددة - تُعرف باسم البلازميدات ذات النطاق العريض. تتكاثر البلازميدات الأخرى فقط في نوع واحد أو في حفنة صغيرة من الأنواع وثيقة الصلة. توجد بلازميدات مُهندَسة تحتوي على نوعين من الأوريفو - أحدهما يعمل في نوع واحد والآخر يعمل في نوع آخر - وتسمى هذه النواقل المكوكية ، وتسمح للفرد بالقيام بأشياء مثل التلاعب بالاستنساخ في الإشريكية القولونية ثم التحرك التركيب المكتمل لجنس آخر ، مثل Bacteroides ، أو حتى مملكة أخرى ، مثل الفطريات.

شكرا لك. أعتقد أنني حصلت عليه.

عندما أستخدم ناقل المكوك هذا ، على سبيل المثال في E.Coli و S.cerevisiae ، يجب أن يحتوي هذا البلازميد
ARS (تكرار في الخميرة) و oriV (تكرار في E.Coli) & # 33؟

نعم فعلا. بالإضافة إلى ذلك ، يحتاج البلازميد إلى علامة اختيار لكل كائن حي. في الإشريكية القولونية ، عادة ما يكون هذا جينًا مقاومًا للمضادات الحيوية (الأمبيسيلين ، التتراسيلين ، الكاناميسين ، إلخ) ، وعادة ما يتم اختيار الخميرة باستخدام ناقل مكوك يكمل طفرة مساعدة في سلالة الخميرة المتلقية (ura3-52 ، his3-D1 ، leu2-D1 ، إلخ). انظر هنا للحصول على أمثلة.

شكرا لك. أعتقد أن الإجابة على سؤالي مثالية & # 33

أثناء قراءة الصفحة الرئيسية الرائعة التي قدمتها لي (http://dbb.urmc.rochester.edu/labs/sherman_f/yeast/Cont.html)
واجهت مشكلة أخرى أو بالأحرى سؤال:

إذا قمت بتحويل البلازميد (مع ORI) إلى خلية خميرة ، فسوف يتكاثر البلازميد مرة واحدة في كل دورة خلية.
كيف يمكنني التأكد من أن ابنتي ستحصل على أحد هذين اللازميدات؟
لذلك أنا بحاجة إلى دمج تسلسل CEN-DNA-Sequence في البلازميد ، وبالتالي فإن المغزل الانقسامي
يمكن إرفاقها.
- & GT. هذا مجرد موافقة مني. سأكون سعيدًا إذا أمكنك إخباري ما إذا كنت على صواب أم خطأ & # 33


أحجام جديدة

ال قاعدة بيانات CGSC من بكتريا قولونية تتضمن المعلومات الجينية الأنماط الجينية ومعلومات مرجعية عن سلالات في مجموعة CGSC ، الأسماء والمرادفات والخصائص وموقع الخريطة لـ الجينات, منتج الجينات معلومات ومعلومات محددة الطفرات و مراجع إلى الأدب الابتدائي. تتضمن النسخة العامة من قاعدة البيانات هذه المعلومات ويمكن الاستعلام عنها مباشرة عبر خادم ويب CGSC DB. للحصول على المساعدة ، استخدم روابط المساعدة الموجودة أعلاه وفي كل نموذج استعلام ، أو اتصل بنا مباشرة.


النتائج

توصيف مكتبة البلازميد

من أجل الحصول على فهم أفضل لخصائص البلازميد حسب مجال التطبيق ، قمنا يدويًا بتعيين البلازميدات في فئات وظيفية مختلفة وكائنات مضيفة. لكل كائن حي مضيف ، أنشأنا قطعًا مبعثرة لأطوال البلازميد مقابل عدد الميزات المقسمة حسب الفئة الوظيفية (الشكل 1). كما هو متوقع ، يميل عدد السمات لكل بلازميد إلى الزيادة مع طول البلازميد. معظم مجموعات البلازميدات في نطاق حجم 2-10 كيلو بايت مع 5-25 سمة لكل بلازميد. مما لا يثير الدهشة ، كانت البلازميدات للمضيفين ذوي الرتب الأعلى (الثدييات والحشرات) أكبر من العوائل الأبسط (البكتيريا والفطريات). وبالمثل ، تميل البلازميدات متعددة العوائل وناقلات الفيروسات القهقرية إلى امتلاك سمات أكثر من الفئات الأخرى من البلازميدات. بشكل عام ، يبدو أن معظم البلازميدات تحتوي على كمية كبيرة من التسلسل الدخيل وغير الوظيفي على ما يبدو ويمكن جعلها أكثر إحكاما عن طريق تصميم البلازميدات بخصائص وظيفية أقصر. من الأمثلة الجيدة على التصميم الفعال بلازميدات pGREEN للتعبير في الخلايا النباتية ، والبلازميدات التعبير متعدد المضيف في سلسلة pTriEx و pQE-TriSystem (الشكل 1).

الارتباط بين طول البلازميد وعدد السمات لكل بلازميد. (أ) جميع البلازميدات. يشار إلى أنواع البلازميد باللون في أساطير الشكل. لوحات (ب)–(F) حسب مضيف المختبر بنوع معين من البلازميد مبين باللون كما في اللوحة (أ). يتم تصنيف القيم المتطرفة ذات الكثافة المنخفضة أو العالية للميزات. تشير نقاط البيانات المحددة إلى البلازميدات التي تحتوي على ثلاث ميزات إضافية أو أكثر تم اكتشافها بواسطة SnapGene والتي لم يتم شرحها في الملفات الأصلية التي تم تنزيلها. تُظهر الدوائر الموضحة كثافات الميزة الأصلية لهذه البلازميدات وتوضح المثلثات الموضحة كثافات الميزات المحدثة.

الارتباط بين طول البلازميد وعدد السمات لكل بلازميد. (أ) جميع البلازميدات. يشار إلى أنواع البلازميد باللون في أساطير الشكل. لوحات (ب)–(F) حسب مضيف المختبر بنوع محدد من البلازميد مبين باللون كما في اللوحة (أ). يتم تصنيف القيم المتطرفة ذات الكثافة المنخفضة أو العالية للميزات. تشير نقاط البيانات الموضحة إلى البلازميدات التي تحتوي على ثلاث ميزات إضافية أو أكثر تم اكتشافها بواسطة SnapGene والتي لم يتم شرحها في الملفات الأصلية التي تم تنزيلها. تُظهر الدوائر الموضحة كثافات الميزة الأصلية لهذه البلازميدات وتوضح المثلثات الموضحة كثافات الميزات المحدثة.

حل الميزات المكررة وغير المتسقة

بعد الاستخراج الأولي للميزات من الملفات الموجودة في مكتبة الملفات غير المتكررة ، كان هناك 21594 ميزة في مجموعة البيانات الخاصة بنا. نظرًا لاستخدام العديد من الميزات عبر بلازميدات متعددة ، تضمنت هذه المجموعة الأولية الأولية من ميزات البلازميد تكرارات وتسلسلات غير متناسقة لم تكن مناسبة لمكتبة الميزات القياسية الخاصة بنا. الخطوات التي اتخذناها لتحسين البيانات موضحة أدناه:

أولاً ، استفسرنا عن قاعدة البيانات للعثور على ميزات مكررة مثالية ، أو تلك التي لها نفس التسلسل والاسم والوصف. قمنا بتضمين نسخة واحدة فقط من هذه الميزة في مكتبة الميزات القياسية مع تتبع جميع مثيلات هذه الميزة في مكتبة SnapGene Plasmid. قللت هذه الخطوة مجموعة البيانات الأولية من 21594 ميزة إلى 2046.

بعد ذلك ، أزلنا جميع الميزات التي وضعنا علامة عليها باعتبارها "غير متسقة". قد يتضمن ذلك ميزات ذات تسلسلات تحتوي على أحرف غير a و t و g و c (على سبيل المثال ، n و h و d و w و y) لأن هذه الميزات غامضة للغاية بحيث لا يمكن تضمينها في قاعدة بيانات للميزات القياسية. وبالمثل ، قمنا بإلغاء ميزات CDS ذات المواقع المرتبطة التي تتوافق مع الإنترونات والإكسونات لأن هذه الميزات تضيف مستوى جديدًا من التعقيد لا تدعمه خوارزميات التعيين الآلي. أدى هذا إلى تقليل مجموعة الميزات المتبقية من 2046 إلى 2036.

نظرنا أيضًا في حالة الميزات التي لها نفس التسلسل ولكن بأسماء مختلفة في مجموعة الميزات الأولية. في هذه الحالة ، قمنا بتضمين الميزة مع الاسم الأكثر استخدامًا في مكتبة الميزات القياسية مع تضمين متغيرات الاسم كمرادفات في حقل منفصل. خفضت هذه الخطوة مجموعة الميزات من 2036 إلى 1994 ميزات. لاحظنا أيضًا حالتين حيث كانت التسلسلات متشابهة ، لكن الأسماء تضمنت بعض معلومات الموقع. HIV-1 5 LTR و HIV-1 3 LTR لهما نفس التسلسل. لقد أزلنا التكرار وأعدنا تسمية هذه الميزة بـ HIV-1 LTR. لقد أجرينا نفس العملية للإصدار المقتطع من هذه الميزة.

ثم نظرنا في الحالة التي يكون فيها الاسم والتسلسل متماثلين ، لكن الوصف كان مختلفًا. كما في حالة الأسماء المختلفة لنفس التسلسل ، اخترنا الوصف الأكثر استخدامًا لهذه الميزة. أدت هذه الخطوة إلى تقليل مجموعة الميزات من عام 1994 إلى عام 1943.

أخيرًا ، بحثنا عن الميزات التي لها نفس الأسماء ولكن متواليات مختلفة. يتوافق هذا الموقف مع متغيرات التسلسل التي تتطلب توضيح اسم الميزة. ومن ثم ، قمنا بفهرسة متغيرات الميزات المختلفة عند تضمينها في مكتبة الميزات القياسية عن طريق إضافة رقم بعد الاسم ، كما هو الحال في MCS-001 و MCS-002 و MCS-003 وما إلى ذلك. بالإضافة إلى ذلك ، كانت هناك أربع ميزات لا لها أي اسم أو وصف تم فحصها يدويًا وتسميتها. لم يكن لهذه الخطوات أي تأثير على عدد الميزات ، ولكن 1518 ميزة بها تعديلات على أسمائها.

بعد إزالة جميع التكرارات ، تضمنت مكتبة الميزات القياسية ميزات 1943.

التحليل الإحصائي لمكتبة الخصائص القياسية

إحصائيات الاستخدام

قمنا بفحص التردد الذي حدثت به كل ميزة في مكتبة البلازميد (الشكل التكميلي S2 ، أعلى). من المثير للدهشة أن 766 سمة (40٪) ظهرت مرة واحدة فقط في مجموعة البلازميد ، لكن معظمها (448) عبارة عن أشكال مختلفة من السمات الأكثر شيوعًا. يوجد عدد من البروتينات الفلورية التي تم استيرادها من ملفات ذات ميزة واحدة أيضًا في هذه الحالة لأنها لا تستخدم في أي من البلازميدات. في الطرف الآخر من التوزيع ، تم استخدام 13 ميزة أكثر من 200 مرة في مكتبة الملفات غير الزائدة (الجدول التكميلي S2). تتضمن هذه المجموعة الميزات المطلوبة لانتشار البلازميد في الإشريكية القولونية (مقاومة المضادات الحيوية ، أصول النسخ المتماثل) ، تسلسل مواقع التمهيدي ، ومحفزات بدائية النواة والثدييات.

العديد من السمات المشتركة المهمة لها متغيرات متعددة. على سبيل المثال ، يحدث مروج AmpR-009 في 967 (62٪) من البلازميدات ، ولكن هناك 12 متغيرًا من محفز AmpR يحدث في 1110 (71٪) من البلازميدات. في بعض الحالات ، يتم استخدام أحد المتغيرات بشكل متكرر أكثر من أي متغيرات أخرى ، ولكن في حالات أخرى ، تحتوي المتغيرات المختلفة على إحصائيات استخدام كبيرة (تمت مناقشتها أدناه).

قد ينتج التباين في تسلسل الميزات عن أخطاء في التعليق التوضيحي أو أخطاء في تسلسل البلازميد أو عن طفرات - متعمدة أم لا (الجدول 2). على سبيل المثال ، يمكن أن يكون تحسين الكودون مصدرًا لتغير التسلسل على مستوى الحمض النووي. لتقييم المساهمة المحتملة للتعليقات التوضيحية وأخطاء التسلسل في التباين الكلي لتسلسلات الميزات ، قمنا بتقسيم قاعدة بيانات الميزات إلى ميزات متغيرة مقابل الميزات المحفوظة التي لا تحتوي على متغيرات. وجدنا 272 ميزة متغيرة و 432 ميزة محفوظة (ملف إضافي S1). توجد ستة فقط من الميزات المحفوظة في أكثر من 100 بلازميد (مروج T7 ، ATG ، M13 rev ، M13 fwd ، مروج lacI ومروج EM7). بصرف النظر عن مروج lacI ، لا تظهر هذه الميزات تحت اسم مختلف في قائمة الميزات المتغيرة. توضح هذه الملاحظة أنه ، على الأقل في حالة الميزات المحددة جيدًا ذات التسلسلات القصيرة ، فإن العملية المستخدمة لتحرير التسلسلات والتعليق عليها قوية بما يكفي لمنع إدخال أخطاء زائفة.

إحصائيات لمتغيرات ميزة غير الترميز وتشفير البروتين
ميزة . عدد المتغيرات أ. عدد التكرارات. عدد التغييرات bp b. الطول الإجمالي (بي بي). التغييرات / المتغير. التغييرات / 1000 نقطة أساس. متغيرات الطول فقط ج.
الميزات غير المشفرة
مروج AmpR 12 1110 12 1154 1.0 10.4 3 (25.0%)
محسن CMV 15 519 15 4954 1.0 3.0 5 (35.7%)
محفز CMV 10 511 29 2039 2.9 14.2 3 (30.0%)
مروج SV40 د 23 897 28 4613 1.2 6.1 7 (30.4%)
f1 / M13 ori 22 651 85 9773 3.9 8.7 3 (13.6%)
أوري 22 1490 48 12 689 2.2 3.8 2 (9.1%)
IRES 16 82 21 8767 1.3 2.4 4 (25.0%)
المجموع 120 5260 238 43 989 2.0 5.4 27 (22.5%)
يعني / الميزة17751346284
ميزات الترميز
أمبير / بلوخ (م) 23 1065 161 19 734 7.0 8.2 4 (17.4%)
CmR 16 211 25 10 605 1.6 2.4 1 (6.3%)
هيجر 14 101 282 14 376 20.1 19.6 3 (21.4%)
كانر 19 119 131 15 474 6.9 8.5 0 (0.0%)
NeoR / كانر 23 354 66 18 312 2.9 3.6 2 (8.7%)
بورور 11 75 131 6627 11.9 19.8 0 (0.0%)
lacZ-α 74 144 14 27 102 0.2 0.5 70 (95.0%)
MBP 10 36 40 11 022 4.0 3.6 1 (10.0%)
مجموع البريد 116 1961 836 96 150 7.2 8.7 11 (9.5%)
190 2105 850 123 152 4.5 6.9 81 (42.6%)
يعني / الميزة1726311913 736
24 280 106 15 394
ميزة . عدد المتغيرات أ. عدد التكرارات. عدد التغييرات bp b. الطول الإجمالي (بي بي). التغييرات / المتغير. التغييرات / 1000 نقطة أساس. متغيرات الطول فقط ج.
ميزات غير مشفرة
مروج AmpR 12 1110 12 1154 1.0 10.4 3 (25.0%)
محسن CMV 15 519 15 4954 1.0 3.0 5 (35.7%)
محفز CMV 10 511 29 2039 2.9 14.2 3 (30.0%)
مروج SV40 د 23 897 28 4613 1.2 6.1 7 (30.4%)
f1 / M13 ori 22 651 85 9773 3.9 8.7 3 (13.6%)
أوري 22 1490 48 12 689 2.2 3.8 2 (9.1%)
IRES 16 82 21 8767 1.3 2.4 4 (25.0%)
المجموع 120 5260 238 43 989 2.0 5.4 27 (22.5%)
يعني / الميزة17751346284
ميزات الترميز
أمبير / بلوخ (م) 23 1065 161 19 734 7.0 8.2 4 (17.4%)
CmR 16 211 25 10 605 1.6 2.4 1 (6.3%)
هيجر 14 101 282 14 376 20.1 19.6 3 (21.4%)
كانر 19 119 131 15 474 6.9 8.5 0 (0.0%)
NeoR / كانر 23 354 66 18 312 2.9 3.6 2 (8.7%)
بورور 11 75 131 6627 11.9 19.8 0 (0.0%)
lacZ-α 74 144 14 27 102 0.2 0.5 70 (95.0%)
MBP 10 36 40 11 022 4.0 3.6 1 (10.0%)
مجموع البريد 116 1961 836 96 150 7.2 8.7 11 (9.5%)
190 2105 850 123 152 4.5 6.9 81 (42.6%)
يعني / الميزة1726311913 736
24 280 106 15 394

(أ) بعد دمج السمات المتطابقة عند تصحيح أخطاء التسلسل أو التعليقات التوضيحية.

ب يتغير زوج القاعدة بالنسبة إلى تسلسل الإجماع ، بما في ذلك الطفرات الخاطئة و indels ، ولكن مع استبعاد الاختلافات في حدود الميزات.

(ج) المتغيرات التي لا تختلف عن الإجماع إلا بحدودها. لا يتضمن المتغيرات التي تفتقد فقط رموز START أو STOP.

د يشمل جميع المتغيرات من SV40 ori ومحسن SV40 ومروج SV40.

e القيم المكتوبة بالخط العريض تستبعد متغيرات lacZ-α نظرًا لأن غالبية هذه الاختلافات تختلف فقط في مواقع الاستنساخ المتعددة داخل الإطار.

ميزة . عدد المتغيرات أ. عدد التكرارات. عدد التغييرات bp b. الطول الإجمالي (بي بي). التغييرات / المتغير. التغييرات / 1000 نقطة أساس. متغيرات الطول فقط ج.
الميزات غير المشفرة
مروج AmpR 12 1110 12 1154 1.0 10.4 3 (25.0%)
محسن CMV 15 519 15 4954 1.0 3.0 5 (35.7%)
محفز CMV 10 511 29 2039 2.9 14.2 3 (30.0%)
مروج SV40 د 23 897 28 4613 1.2 6.1 7 (30.4%)
f1 / M13 ori 22 651 85 9773 3.9 8.7 3 (13.6%)
أوري 22 1490 48 12 689 2.2 3.8 2 (9.1%)
IRES 16 82 21 8767 1.3 2.4 4 (25.0%)
المجموع 120 5260 238 43 989 2.0 5.4 27 (22.5%)
يعني / الميزة17751346284
ميزات الترميز
أمبير / بلوخ (م) 23 1065 161 19 734 7.0 8.2 4 (17.4%)
CmR 16 211 25 10 605 1.6 2.4 1 (6.3%)
هيجر 14 101 282 14 376 20.1 19.6 3 (21.4%)
كانر 19 119 131 15 474 6.9 8.5 0 (0.0%)
NeoR / كانر 23 354 66 18 312 2.9 3.6 2 (8.7%)
بورور 11 75 131 6627 11.9 19.8 0 (0.0%)
lacZ-α 74 144 14 27 102 0.2 0.5 70 (95.0%)
MBP 10 36 40 11 022 4.0 3.6 1 (10.0%)
مجموع البريد 116 1961 836 96 150 7.2 8.7 11 (9.5%)
190 2105 850 123 152 4.5 6.9 81 (42.6%)
يعني / الميزة1726311913 736
24 280 106 15 394
ميزة . عدد المتغيرات أ. عدد التكرارات. عدد التغييرات bp b. الطول الإجمالي (بي بي). التغييرات / المتغير. التغييرات / 1000 نقطة أساس. متغيرات الطول فقط ج.
الميزات غير المشفرة
مروج AmpR 12 1110 12 1154 1.0 10.4 3 (25.0%)
محسن CMV 15 519 15 4954 1.0 3.0 5 (35.7%)
محفز CMV 10 511 29 2039 2.9 14.2 3 (30.0%)
مروج SV40 د 23 897 28 4613 1.2 6.1 7 (30.4%)
f1 / M13 ori 22 651 85 9773 3.9 8.7 3 (13.6%)
أوري 22 1490 48 12 689 2.2 3.8 2 (9.1%)
IRES 16 82 21 8767 1.3 2.4 4 (25.0%)
المجموع 120 5260 238 43 989 2.0 5.4 27 (22.5%)
يعني / الميزة17751346284
ميزات الترميز
أمبير / بلوخ (م) 23 1065 161 19 734 7.0 8.2 4 (17.4%)
CmR 16 211 25 10 605 1.6 2.4 1 (6.3%)
هيجر 14 101 282 14 376 20.1 19.6 3 (21.4%)
كانر 19 119 131 15 474 6.9 8.5 0 (0.0%)
NeoR / كانر 23 354 66 18 312 2.9 3.6 2 (8.7%)
بورور 11 75 131 6627 11.9 19.8 0 (0.0%)
lacZ-α 74 144 14 27 102 0.2 0.5 70 (95.0%)
MBP 10 36 40 11 022 4.0 3.6 1 (10.0%)
مجموع البريد 116 1961 836 96 150 7.2 8.7 11 (9.5%)
190 2105 850 123 152 4.5 6.9 81 (42.6%)
يعني / الميزة1726311913 736
24 280 106 15 394

(أ) بعد دمج السمات المتطابقة عند تصحيح أخطاء التسلسل أو التعليقات التوضيحية.

ب يتغير زوج القاعدة بالنسبة إلى تسلسل الإجماع ، بما في ذلك الطفرات الخاطئة و indels ، ولكن مع استبعاد الاختلافات في حدود الميزات.

(ج) المتغيرات التي لا تختلف عن الإجماع إلا بحدودها. لا يتضمن المتغيرات التي تفتقد فقط رموز START أو STOP.

د يشمل جميع المتغيرات من SV40 ori ومحسن SV40 ومروج SV40.

e القيم المكتوبة بالخط العريض تستبعد متغيرات lacZ-α نظرًا لأن غالبية هذه الاختلافات تختلف فقط في مواقع الاستنساخ المتعددة داخل الإطار.

تحليل متغيرات الميزة

قمنا بفحص السمات المشتركة التي تحتوي على 10 متغيرات أو أكثر لتحديد مصادر هذا التباين. أجرينا محاذاة التسلسل لتسلسل متغير الميزات ومنتجات الترجمة لمناطق التشفير. كانت المتغيرات إما متغيرات طول نقية تختلف فيها حدود الميزة فقط ، أو متغيرات تسلسل خالص لها نفس حدود ميزة الإجماع ، ولكنها تحتوي على عدم تطابق أو indels أو مزيج من الاثنين. عادةً ما يتطابق المتغير الأكثر استخدامًا مع تسلسل الإجماع. ومن المثير للاهتمام ، أن العديد من المتغيرات كانت خاصة بالبلازميدات من مصدر أو مورد واحد ، حتى عندما كانت هناك عشرات الحالات من المتغير (ملف إضافي S1).

يوضح الشكل التكميلي S3 توزيعات الاستخدام للميزات التي تحتوي على 10 متغيرات أو أكثر. يميل الاستخدام المتغير للميزات غير المشفرة مثل المعززات والمروجين وأصول النسخ المتماثل إلى أن يكون متحفظًا ، حيث يهيمن متغير واحد أو متغيران على عدد المثيلات ، وتختلف نسبة كبيرة من متغيرات الميزات غير المشفرة في حدودها فقط (الجدول) 2). كانت الاستثناءات هي IRES (موقع دخول الريبوسوم الداخلي) ، والذي أظهر استخدامًا أكثر تكافؤًا للمتغيرات (الشكل التكميلي S3). ومع ذلك ، فإن معظم متغيرات IRES متميزة وظيفيًا (ملف إضافي S1).

على عكس معظم الميزات غير المشفرة ، تم استخدام متغيرات ميزات تشفير البروتين على نطاق واسع ، واختلف عدد قليل من متغيرات الترميز في الطول (الشكل التكميلي S3). بدلاً من ذلك ، عرضت هذه الميزات مستوى عالٍ من اختلاف التسلسل (الجدول 2). ومع ذلك ، فإن غالبية التغييرات في التسلسل كانت تغييرات مترادفة في الكودون والعديد من المتغيرات المشفرة لمنتجات الترجمة المتطابقة (الجدول 3).

أنواع الاختلافات في ميزات ترميز البروتين
ميزة . يغير كودون مرادف أ. تغييرات المخلفات الحافظة أ. تغيرات المخلفات غير المحافظة أ. المتغيرات لا تتغير أأ ب.
أمبير / بلوخ (م) 73% 17% 10% 39%
CmR 84% 16% 0% 81%
هيجر 87% 1% 12% 57%
كانر 54% 6% 40% 32%
NeoR / كانر 62% 14% 24% 65%
بورور 94% 1% 5% 73%
lacZ-α ج 93% 7% 0% 95%
MBP 27% 2% 71% 60%
مجموع لا. 641 54 156 134
المتوسط ​​الإجمالي 75% 7% 18% 71%
ميزة . يغير كودون مرادف أ. تغييرات المخلفات الحافظة أ. تغيرات المخلفات غير المحافظة أ. المتغيرات لا تتغير أأ ب.
أمبير / بلوخ (م) 73% 17% 10% 39%
CmR 84% 16% 0% 81%
هيجر 87% 1% 12% 57%
كانر 54% 6% 40% 32%
NeoR / كانر 62% 14% 24% 65%
بورور 94% 1% 5% 73%
lacZ-α ج 93% 7% 0% 95%
MBP 27% 2% 71% 60%
مجموع لا. 641 54 156 134
المتوسط ​​الإجمالي 75% 7% 18% 71%

(أ) النسبة المئوية لجميع تغييرات bp بما في ذلك حالات عدم التطابق و indels باستثناء الاختلافات الحدودية.

(ب) النسبة المئوية للمتغيرات التي لا تنتج أي تغييرات في البروتين المترجم.

ج باستثناء مواقع الاستنساخ المتعددة.

ميزة . يغير كودون مرادف أ. تغييرات المخلفات الحافظة أ. تغيرات المخلفات غير المحافظة أ. المتغيرات لا تتغير أأ ب.
أمبير / بلوخ (م) 73% 17% 10% 39%
CmR 84% 16% 0% 81%
هيجر 87% 1% 12% 57%
كانر 54% 6% 40% 32%
NeoR / كانر 62% 14% 24% 65%
بورور 94% 1% 5% 73%
lacZ-α ج 93% 7% 0% 95%
MBP 27% 2% 71% 60%
مجموع لا. 641 54 156 134
المتوسط ​​الإجمالي 75% 7% 18% 71%
ميزة . يغير كودون مرادف أ. تغييرات المخلفات الحافظة أ. تغيرات المخلفات غير المحافظة أ. المتغيرات لا تتغير أأ ب.
أمبير / بلوخ (م) 73% 17% 10% 39%
CmR 84% 16% 0% 81%
هيجر 87% 1% 12% 57%
كانر 54% 6% 40% 32%
NeoR / كانر 62% 14% 24% 65%
بورور 94% 1% 5% 73%
lacZ-α ج 93% 7% 0% 95%
MBP 27% 2% 71% 60%
مجموع لا. 641 54 156 134
المتوسط ​​الإجمالي 75% 7% 18% 71%

(أ) النسبة المئوية لجميع تغييرات bp بما في ذلك حالات عدم التطابق و indels باستثناء الاختلافات الحدودية.

(ب) النسبة المئوية للمتغيرات التي لا تنتج أي تغييرات في البروتين المترجم.

ج باستثناء مواقع الاستنساخ المتعددة.

على عكس جينات العلامة ، اختلفت متغيرات علامة التقارب مثل MBP و GST في الغالب في ما إذا كانت تتضمن أكواد START / STOP أو امتدادات داخل الإطار مثل الروابط أو مواقع MCS (ملف إضافي S1) ، ولكن متغيرات علامة epitope مثل HA و Myc كانت موحدة في الطول ومليئة بتغييرات الكودون المترادفة ، عادةً نتيجة لتحسين الكودون (16 ، 17). تُستخدم علامات التقارب بشكل حصري تقريبًا للتعبير البكتيري وتنقية البروتين ، بينما تُستخدم العلامات الحلقية في مجموعة متنوعة من الخلايا المضيفة للترسيب المناعي والتألق المناعي ، وبالتالي تتطلب تحسين الكودون لكل مضيف. يتم توفير مزيد من التفاصيل حول متغيرات الميزات في الملحق عبر الإنترنت.

طول تسلسل الميزة

كان طول التسلسل للسمات متغيرًا بدرجة كبيرة ، مع أقصر الميزات (أصل تسلسل pUC وطفرة مانح لصق) تأتي عند 1 نقطة أساس والأطول (الحمض النووي الفيروسي الغدي) عند 30549 نقطة أساس ، بمتوسط ​​طول تسلسل 267 نقطة أساس. التوزيع الإحصائي لأطوال تسلسل الميزة ثنائي النسق (الشكل التكميلي S2 ، أسفل). تحتوي غالبية الميزات على تسلسلات أقصر من 120 نقطة أساس. وتتكون ذروة أخرى تتمحور حول 700 نقطة أساس في الغالب من تسلسلات تشفير.

عدد الميزات في كل مؤهل ميزة

من بين 63 مفتاح ميزة GenBank المتاحة حاليًا من التعاون الدولي لقاعدة بيانات تسلسل النيوكليوتيدات http://www.insdc.org/documents/feature-table ، تم تمثيل 25 في مكتبة SnapGene Plasmid. يوضح تخطيط توزيع الميزات وفقًا لمفاتيح الميزات أن الغالبية العظمى (71 ٪) تقع في فئتين فقط (الشكل التكميلي S4). تم استخدام CDS في أغلب الأحيان (867 مرة) متبوعًا بـ MISC_FEATURE (515 مرة). يمثل التمثيل الزائد لفئتين مؤشرًا على أن مفاتيح ميزات GenBank لا تحتوي على الدقة اللازمة لتمثيل ميزات البلازميد. على سبيل المثال ، يتم وضع تعليقات توضيحية على علامات التنقية على أنها CDS ، ولكن يجب تحديدها على أنها علامات. وبالمثل ، يمكن للمرء أن يجادل في أن تسلسل ترميز البروتينات الفلورية يجب تمييزه عن تسلسلات الترميز الأخرى ، وأن مواقع الاستنساخ المتعددة أو رموز / إشارات التوقف شائعة بما يكفي لتبرير تحديدها بمفاتيح ميزات جديدة.

تجزئة بواسطة مضيف التعبير

بعض الميزات خاصة بالمضيف. For example, promoters are often specific to an expression host. Other features, such as coding sequences and structural elements allowing the propagation of a plasmid in بكتريا قولونية, can be used in shuttle plasmids for a number of different hosts. We looked at the expression host specified in the GenBank files of the plasmids. After some cleanup to address inconsistent spelling of the hosts, we found 12 different hosts represented in this dataset, 13 if including those where the host was unspecified this list of lab hosts includes بكتريا قولونية, Mammalian Cells, العصوية الرقيقة, Gram-negative bacteria, Drosophila melanogaster, Saccharomyces cerevisiae, Insect Cells, Plant Cells, Schizosaccharomyces pombe, Pichia pastoris, Aspergillus nidulans, Kluyveromyces lactis and Unspecified. We then associated each feature with their expression hosts by querying the features’ hosts from their related plasmids. Most of the features (1629) were associated with only one lab host (and, of those, 139 were associated only with Unspecified hosts). One hundred seventy-five features were associated with more than one lab host, and 21 of those were associated with five or more lab hosts.

Development of a library of biological parts

The SBOL is a community-driven standard for exchanging synthetic biology data between applications ( 14). In order to generate SBOL files of the Standard Features Library, we first developed a short Java program that could read the contents of a flat file that we could generate from the database. This program relied on the libSBOLj library (https://github.com/SynBioDex/libSBOLj) to reformat that information and output the features as collections of parts (DnaComponents). One challenge for this approach is that the features were categorized using the GenBank feature keys, but SBOL relies on the Sequence Ontology (SO) to categorize its parts ( 18, 19). BioPerl provides a script for translating GenBank Feature Keys to SO identifiers that we used for developing the mapping table reported in Supplementary Table S3. The flat file output included a display_id, the feature name, the description, the sequence and the SO identifier corresponding to the associated GenBank feature key.

We generated an SBOL file for each lab host, and one for the parts with the Unspecified host. Finally, we generated a file that includes the collections for all of the hosts (Supplemental File S4).

Development of a GenoCAD grammar

In order to facilitate the use of these standard features as genetic parts, we edited the features database and imported it into GenoCAD, a computer assisted design application for synthetic biology ( 20, 21). We used GenoCAD to edit the database of genetic parts by adding new parts, defining new categories of parts and rules ( 22) describing relations between part categories, and finally organizing the parts in different libraries as previously described ( 23). The grammar is available online as Supplemental File S5.

Removal of START and STOP codons

Many of the features annotated as CDS included coding sequences such epitope tags or fluorescent protein domains that could be used in fusion with other coding sequences. In order to facilitate the combination of coding sequences, we removed the start and stop codons found at the extremities of CDS features. After removal of these codons, 14 CDS feature variants were identical to other variants and were merged with them. We introduced START and STOP codons as separate parts in the database.

Part categorization

The GenBank qualifiers do not provide the resolution necessary to properly describe the function of genetic parts and organize a large library accordingly. As a result, we recategorized the parts library using a custom categorization system that relies as much as possible on existing SO terms. In some cases, we took advantage of commonly used terms that may not yet be part of the SO. The specification of each category includes a long category name and a short category code. The category description includes a reference to the corresponding SO terms along with the SO definition when applicable. The names of categories without a corresponding SO term start with a + in order to facilitate their identification. Each category is mapped to a GenBank feature key (Supplementary Table S3). Finally, each category is associated with an icon used to represent it graphically.

In addition, we defined syntactic rules for relationships between part categories. These rules are mostly derived from the SO parts definition. For instance, CDS (SO:0000316) is defined as ‘A contiguous sequence which begins with, and includes, a start codon and ends with, and includes, a stop codon’. Using the information in this definition, it is possible to define a rule stating that a CDS is composed of a START codon (SO:00003180), an ORF (so:0000236) and a STOP codon (SO:0000319). Other rules express that some categories of parts are subsets of a larger category. For instance, it is possible to express that a Bacterial terminator (SO:0000614) is a Terminator (SO:0000141).

Correction of annotation errors

A methodic review of the database content unveiled a number of sequence annotation issues, such as feature orientation errors and sequence errors resulting in nonsense mutations. We also merged parts that differed only in the START or STOP codons (see Online Supplement for details).

Addition of new parts

We noticed that many of the coding features in some plasmids had no annotated promoters, and this was still the case after we updated the annotations in the current version of SnapGene. To determine the functional promoters for these genes, we aligned their sequences upstream of the start codon with a set of all annotated promoters (one or two variants of each) from our library and performed BLAST searches on the sequences. Some of these promoter regions were new variants of the AmpR promoter, the CAT promoter and the Pc promoter (Supplemental File S3). The rest were promoters that had no counterparts in our features set. We have defined new native promoters for NeoR/KanR, KanR (aph(3)-Ia), KanR (aphA-3), P2 (SmR works in combination with Pc promoter) and ccdB. Plasmids from Oxford Genetics (pSF series) also have an apparent synthetic promoter used for both NeoR/KanR and AmpR. A total of seven new promoters were added to the parts database after this analysis. We also recommend 36 variants that match the consensus/natural (GenBank) sequences for highly variant features, and 17 new versions of features that match the consensus when none of the existing variants do, or comply with optimal sequences from structure-function studies ( 24–32). See Supplemental Files S1 and S2.

Parts libraries

We organized the parts in libraries. One library includes all of the parts in the database. We also have libraries for each of the 13 expression hosts and for the parts having an unspecified expression host. Finally, we have singled out the most popular parts as those having been used in 17 or more plasmids in the SnapGene Sequence library. We also created a library for the new parts described above.

Use of the GenoCAD grammar

The GenoCAD grammar can be customized for specific applications as previously described ( 23). Customization starts by adding new categories of parts specific to the application. By convention, the custom category names all start with ‘c-’ i.e. c-Lac Promoter or c-AmpR gene to help identify them quickly among all the existing categories. In the second step, rules are added to describe how parts of different categories can be combined to make a valid construct. Finally, a new parts library specific to a project is created and populated with a selection of parts found in other libraries. It is also possible to import new parts not already in the grammar.

We illustrate this feature by modifying the grammar to make it suitable to design cassettes for tagging S. cerevisiae genes with a fluorescent protein (Figure 2). The plasmid has an ampicillin resistance marker and an origin of replication. It also includes a cloning module allowing for blue/white screening. The LacZ-alpha gene is placed under the control of a Lac promoter. A cloning site and two sequencing primers are placed between the start codon and the LacZ-alpha ORF. Randomly generated sequences are inserted between the primers and the cloning site in order to ensure that the borders of the insert can be sequenced.

Structure of a plasmid to tag S. cerevisiae genes with a fluorescent protein. (أ) Map of the empty vector and insert derived from the GenBank files exported from GenoCAD. (ب) Structure of the same plasmid represented using SBOLv icons.

Structure of a plasmid to tag S. cerevisiae genes with a fluorescent protein. (أ) Map of the empty vector and insert derived from the GenBank files exported from GenoCAD. (ب) Structure of the same plasmid represented using SBOLv icons.

The cassette itself is composed of a fluorescent protein tag and an auxotrophic marker separated by a short random sequence. The entire cassette is flanked by two polymerase chain reaction (PCR) primer binding sites F2 and R1 used to amplify the cassette to generate PCR fragments for homologous recombination.


Northern Illinois University Department of Biological Sciences College of Liberal Arts and Sciences

The health and safety of our students, faculty and staff is our priority. Please visit the NIU coronavirus (COVID-19) website for current updates and information. See details about available services and hours and frequently asked questions.

Biology is a diverse and rapidly expanding field of study that addresses issues relevant to health, agriculture, industry and the environment. Biologists are responsible for new discoveries in medicine and molecular biology, increasing crop yields and pest resistance, defining the ecological relationships that maintain our planet, and examining the origins and evolution of species, to name just a few.

You will learn and conduct research alongside our faculty, who are highly-regarded and internationally known for their discoveries. Beyond the classroom, we encourage students to seek out faculty mentors and to conduct research very early in their college careers. Not only does this provide you the opportunity to apply knowledge learned in the classroom, but it also establishes you in the field and paves the way for future success.

Our program is highly regarded by both employers and educational institutions, allowing our graduates to pursue careers in government, education, and industry. Many students go onto graduate or professional schools, such as medical, dental, podiatric medicine, optometry, veterinary medicine and pharmacy.

Diversity Statement

The Department of Biological Sciences at NIU stands against oppression in all its forms. We stand for social and racial justice and are working to improve diversity, equity and inclusion (DEI) in our department. We recognize that biological sciences has a long history of colonialism, racism and white supremacy and has participated in oppressive endeavors, including biological racism, eugenics and inhumane treatment of and experimentation on Black, Indigenous and People of Color (BIPOC). That history and that of our society mean institutionalized, systemic racism is still a part of biology today.

We have recently formed a DEI committee that has helped to remove the GRE from consideration in our graduate application process, instituted DEI discussions as part of regular faculty meetings, and edited our bylaws to ensure search committees have student representation and that tenure/promotion criteria are clear and equitable. We commit to further amending our policies, practices and curricula, to continue to make our department a better, more welcoming place for all faculty, students and staff.


Identification of the cut and uncut plasmid on gel - (Jun/27/2005 )

would u plz tell me how we will differentiate between the gel electrophoresis of cut and uncut plasmid( in reference to pBluescript).

if possible can u show me the photo.


M1 : Lambda Hind III marker,
lane 1: pGEM-T(uncut, insert 1kb),
lane 2 : pGEM-T(EcoRⅠ),
lane 3 : pGEM-T(SphⅠ),
lane 4 : pUWL201(6.40 kb) ,
lane 5 : pUWL201(EcoRⅠ),
lane 6 : pUWL201(XbaⅠ)
M2 : 1 kb ladder marker.

would u plz tell me how we will differentiate between the gel electrophoresis of cut and uncut plasmid( in reference to pBluescript).

if possible can u show me the photo.

As a rule, the uncut plasmid is supercoiled, so it will run faster that the linearized (cut) plasmid.

Just run your digested sample next to the uncut plasmid you can identify it.

really feeling very nice to see your warm response.

actually veteran i have one more problem, that my vector is 2.9kb. whenever i isolate my plsmid by mini prep(DH5, E.Coli strain) , i get only one band of around 2.3kbp.

why dont around 2.9 kb. yet the transformtion is very normal by CaCl2 method.

i used the alkline lysis method for plasmid isolation.

if u have any information regarding this, then plz guide me , i will be be very thank ful to u.

I would guess that supercoiled pBluescript would run at about 2.3kB. Linearize it with NotI and run it next to undigested. Compare the migration pattern you see to your marker bands.


Principle:-

DNA ligation is the act of joining together DNA strands with covalent bonds with the aim of making new viable DNA or plasmids. There are currently three methods for joining DNA fragments in vitro. The first of these is DNA ligase that covalently joins the annealed cohesive ends produced by certain restriction enzymes. The second depends upon the ability of DNA ligase from phage T4-infected E. coli to catalyse the formation of phosphodiester bonds between sticky or blunt-ended fragments. The third utilizes the enzyme terminal deoxynucleotidyl transferase to synthesize homopolymeric 3′ single-stranded tails at the ends of fragments. The most commonly used is the T4 DNA ligase method.

E.coli and phage T4 encode an enzyme, DNA ligase, which seals single-stranded nicks between adjacent nucleotides in a duplex DNA chain. Although the reactions catalyzed by the enzymes of E. coli and T4-infected E. coli are very similar, they differ in their cofactor requirements. The T4 enzyme requires ATP, while the E. coli enzyme requires NAD+. In each case the cofactor is split and forms an enzyme–AMP complex. The complex binds to the nick, which must expose a 5′ phosphate and 3′ OH group, and makes a covalent bond in the phosphodiester chain.

DNA fragments with either sticky ends or blunt ends can be inserted into vector DNA with the aid of DNA ligases. During normal DNA replication, DNA ligase catalyzes the end-to-end joining (ligation) of short fragments of DNA, called Okazaki fragments. For purposes of DNA cloning, purified DNA ligase is given to covalently join the ends of a restriction fragment and vector DNA that have complementary ends. The vector DNA and restriction fragment are covalently ligated together through the 3’ → 5’ phosphodiester bonds of DNA. When termini created by a restriction endonuclease that creates cohesive ends associate, the nicks in the joints has few base pairs apart in opposite strands. DNA ligase can then repair these nicks to form an intact duplex.


What are the rules for plasmid names? - مادة الاحياء

Baby Steps Through the
PUNNETT SQUARE


(Get it? "Square" = nerd. Ha ha ha ha ha . )

  • genotype = the genes of an organism for one specific trait we use two letters to represent the genotype. A capital letter represents the dominant form of a gene (allele), and a lowercase letter is the abbreviation for the recessive form of the gene (allele).
  • phenotype = the physical appearance of a trait in an organism

      For example, let's say that for the red-thoated booby bird ( I am making this up ), red throat is the dominant trait and white throat is recessive.
      Since the "red-throat code" and the" white-throat code" are alleles (two forms of the same gene), we abbreviate them with two forms of the same letter. So we use "R" for the dominant allele/trait (red throat) and "r" for the recessive allele/trait (white throat).

    Our possible genotypes & phenotypes would be like so:

    Symbol Genotype Name Phenotype
    RR homozygous (pure)
    dominant
    red thoat
    Rr heterozygous (hybrid) red throat
    rr homozygous (pure)
    recessive
    white throat

    ملحوظة: Remember, we don't use "R" for red & "W" for white because that would make it two different genes which would code for two different traits, and throat color is one trait. What the genotype contains are two codes for the same trait, so we use two forms of the same letter (capital & lowercase).

    Here are the basic steps to using a Punnett Square when solving a genetics question. After you get good at this you should never miss a genetic question involving the cross of two organisms.
    BABY STEPS:
    1. determine the genotypes of the parent organisms
    2. write down your "cross" (mating)
    3. draw a p-square
    4. "split" the letters of the genotype for each parent & put them "outside" the p-square
    5. determine the possible genotypes of the offspring by filling in the p-square
    6. summarize results (genotypes & phenotypes of offspring)
    7. bask in the glow of your accomplishment !
    • Sometimes this already done in the question for you. If the question says "Cross two organims with the following genotype: Tt & tt", it's all right there in the question already.
    • More likely is a question like this: "Cross a short pea plant with one that is heterozygous for tallness". Here, you have to use your understanding of the vocab to figure out what letters to use in the genotypes of the parents. Heterozygous always means one of each letter, so we'd use "Tt" (where "T" = tall, & "t" = short). The only way for a pea plant to be short is when it has 2 lowercase "t's", so that short parent is "tt". So the cross ends-up the same as in my first example: Tt x tt.
    • Now, we (us mean teachers) can make things just a little more tricky. Let's use hamsters in this example. Brown is dominant (B), and white is recessive (b). What if a question read like this: "Predict the offspring from the cross of a white hamster and a brown hamster if the brown hamster's mother was white". Oooooh, is this a toughy? First things first: the only way for the white hamster to be white (the recessive trait) is if it's genotype is homozygous recessive (2 little letters), so the white hamster is "bb". Now, the brown hamster's genotype could be either "BB" or "Bb". If its mommy was white (bb), then this brown hamster MUST have inherited a little "b" from its mommy. So the brown one in our cross is "Bb" (not "BB"), and our hamster cross is: Bb x bb.

    Step #3: Draw a p-square.

    • For an example cross we'll use these parental genotypes: Tt x tt.
    • Take the genotype letters of one parent, split them and put them on the left, outside the rows of the p-square.

    What we've done is taken the hetrozygous tall plant (Tt) and put its big "T" out in front of the top row, and the little "t" out in front of the bottom row. When we fill-in the p-square, we will copy these "tees" into each of the empty boxes to their right. So the big "T" will be in each of the boxes of the top row, and the lowercase "t" will be in the two boxes of the bottom row.
    Isn't this exciting?

    • I kinda gave this away already, but to "determine the genotypes of the offspring" all we gotta do is fill-in the the boxes of the p-square. Again we do this be taking a letter from the left & matching it with a letter from the top. Like so:
    • Simply report what you came up with. You should always have two letters in each of the four boxes.
    • In this example, where our parent pea plants were Tt (tall) x tt (short), we get 2 of our 4 boxes with "Tt", and 2 of our 4 with "tt". The offspring that are "Tt" would end up with tall stems (the dominant trait) and the "tt" pea plants would have short stems (the recessive trait).
    • So our summary would be something like this:
      Parent Pea Plants
      ("P" Generation)
      Offspring
      ("F1" Generation)
      Genotypes:
      Tt x tt
      Phenotypes:
      tall x short
      Genotypes:
      50% (2/4) Tt
      50% (2/4) tt
      Phenotypes:
      50% tall
      50% short
    • We are so good I can't stand it.
    • We are genetics MONSTERS !

    A little scientific side-note:

    You know how, in Step #4, when we "split" the letters of the genotype & put them outside the p-square? What that step illustrates is the process of gametogenesis (the production of sex cells, egg & sperm). Gametogenesis is a cell division thing (also called meiosis) that divides an organism's chromosome number in half. For example, in humans, body cells have 46 chromosomes a piece. However, when sperm or eggs are produced (by gametogenesis/meiosis) they get only 23 chromosomes each. This makes sense (believe it or not), because now, when the sperm & egg fuse at fertilization, the new cell formed (called a zygote) will have 23 + 23 = 46 chromosomes. Cool, huh?

    So, when the chromosome number is split in half, all of the two letter genotypes for every trait of that person (or organism) get separated. Which is why we do what we do in Step #4.

    TAKE WHAT YOU'VE LEARNED & DAZZLE SOME PEOPLE.


    <Back to that Mendel Guy & his Laws
    On to a Punnett Square Practice Page>

    Back to Biology Topics Outline

    IF YOU HAVE COMMENTS (GOOD OR BAD) ABOUT THIS OR ANY OF MY BIOLOGY PAGES,
    OR ANYTHING ELSE IN GENERAL , DROP ME A NOTE



تعليقات:

  1. Nabi Ulmalhamah

    أعني أنك مخطئ. اكتب لي في رئيس الوزراء ، سنناقش.

  2. Fedal

    أعتقد أنك ترتكب خطأ. دعونا نناقش هذا. أرسل لي بريدًا إلكترونيًا إلى PM ، سنتحدث.

  3. Kaziran

    يحدث ذلك ... مثل صدفة

  4. Corby

    أعني أنك لست على حق. أدخل سنناقشها. اكتب لي في PM ، وسوف نتعامل معها.

  5. Mozes

    من النتيجة.



اكتب رسالة