Similarity Searches in Sequence Databases

Sequence Similarity Search

GenomicsProteomics গবেষণায় Sequence সাদৃশ্য খুঁজে বের করা একটি অত্যন্ত গুরুত্বপূর্ণ ধাপ। নিম্নে DNA, RNA বা প্রোটিন সিকোয়েন্সের সাদৃশ্য অনুসন্ধানের প্রক্রিয়া বর্ণনা করা হলো:

১. Input Query Sequence

  • প্রক্রিয়াটি শুরু হয় একটি Query Sequence দিয়ে, যা হতে পারে একটি নতুন সিকোয়েন্সকৃত জিন বা প্রোটিন।
  • এই Sequence টি সাধারণত FASTA ফরম্যাটে দেওয়া হয়।
  • লক্ষ্য হলো ডেটাবেজে এমন অনুক্রম খুঁজে বের করা যেগুলো বিবর্তনগত বা কার্যকরীভাবে সম্পর্কিত।

Structure of a FASTA file

২. Database Selection

Query Sequence এর ধরন অনুযায়ী সঠিক ডেটাবেজ বেছে নেওয়া হয় : এক্ষেত্রে

নিউক্লিওটাইড ডেটাবেজ (DNA/RNA):

  • NCBI GenBankEMBL-Bank

প্রোটিন ডেটাবেজ:

  • UniProtSwiss-ProtPDBNCBI Protein

বিশেষায়িত ডেটাবেজ:

  • Pfam (প্রোটিন ফ্যামিলি), Rfam (RNA ফ্যামিলি), KEGG (Metabolic পাথওয়ে)

৩. Choosing a Similarity Search Tool

বিভিন্ন অ্যালগরিদম বিভিন্ন ধরনের Sequence Similarity Search এর জন্য ব্যবহার করা হয়:

Search Tool ব্যবহার বৈশিষ্ট্য
BLAST Fast, heuristic লোকাল অ্যালাইনমেন্ট BLASTn (DNA), BLASTp (প্রোটিন), PSI-BLAST (প্রোফাইল)
FASTA মধ্যম গতি, সংবেদনশীল অ্যালাইনমেন্ট FASTA, SSEARCH
Smith-Waterman সবচেয়ে নির্ভুল (ডাইনামিক প্রোগ্রামিং) ধীর কিন্তু অত্যন্ত সঠিক
HMMER Hidden মার্কভ মডেল (HMM) ব্যবহার করে remote homologs খোঁজা Pfam অনুসন্ধানে কার্যকর
DIAMOND অতি দ্রুত প্রোটিন অনুসন্ধান tool (BLASTx-এর মতো) বড় ডেটার জন্য অপ্টিমাইজড

৪. Running the Search

BLAST ব্যবহার করে Similarity Searching –

  1. Query Sequence আপলোড : FASTA ফরম্যাটে সিকোয়েন্স input দেয়া।
  2. প্রোগ্রাম নির্বাচন:

    • BLASTn (DNA vs DNA)
    • BLASTp (প্রোটিন vs প্রোটিন)
    • BLASTx (ট্রান্সলেটেড DNA vs প্রোটিন ডেটাবেজ)

  3. ডেটাবেজ বাছাই: যেমন, প্রোটিনের জন্য “nr” (নন-রিডানডেন্ট)।
  4. প্যারামিটার সেটিং:

    • E-value threshold (যত কম, তত কার্যকর, যেমন – 0.001)
    • Scoring matrix (প্রোটিনের জন্য BLOSUM62, ছোট সিকোয়েন্সের জন্য PAM30)

  5. Run & Retrieve Results

৫. Results ‍Analysis

  • অ্যালাইনমেন্ট স্কোর:

    • Bit score (যত বেশি, তত ভালো মিল)
    • E-value (যত কম, তত তাৎপর্যপূর্ণ, যেমন 1e-10)

  • Sequence Identity (সাদৃশ্য) (%)

    • ৯০-১০০% = একই ধরনের কাজ করে
    • ৩০-৫০% = দূর সম্পর্ক

Visualization Tools :

  • NCBI BLAST রেজাল্ট ভিউয়ার
  • Jalview (মাল্টিপল সিকোয়েন্স অ্যালাইনমেন্ট)
  • UCSC Genome Browser (জিনোমিক কনটেক্সট)

৬. Biological Interpretation

  • Functional Prediction : যদি মিলে যাওয়া অনুক্রমের কাজ জানা থাকে, তবে একই রকম কাজ করতে পারে বলে ধরে নেওয়া যায়।
  • Evolutionary Relationships : ফাইলোজেনেটিক Tree বানানো (MEGA, RAxML ব্যবহার করে)।
  • Structural Insights : PDB ব্যবহার করে 3D স্ট্রাকচার তুলনা।

Redirecting to vuduflyy.com in 1 seconds...

Know More

Hover here to see exclusive content

20 thoughts on “Similarity Searches in Sequence Databases

Leave a Reply

Your email address will not be published. Required fields are marked *