Similarity Searches in Sequence Databases
Genomics ও Proteomics গবেষণায় Sequence সাদৃশ্য খুঁজে বের করা একটি অত্যন্ত গুরুত্বপূর্ণ ধাপ। নিম্নে DNA, RNA বা প্রোটিন সিকোয়েন্সের সাদৃশ্য অনুসন্ধানের প্রক্রিয়া বর্ণনা করা হলো:
১. Input Query Sequence
- প্রক্রিয়াটি শুরু হয় একটি Query Sequence দিয়ে, যা হতে পারে একটি নতুন সিকোয়েন্সকৃত জিন বা প্রোটিন।
- এই Sequence টি সাধারণত FASTA ফরম্যাটে দেওয়া হয়।
- লক্ষ্য হলো ডেটাবেজে এমন অনুক্রম খুঁজে বের করা যেগুলো বিবর্তনগত বা কার্যকরীভাবে সম্পর্কিত।
২. Database Selection
Query Sequence এর ধরন অনুযায়ী সঠিক ডেটাবেজ বেছে নেওয়া হয় : এক্ষেত্রে
নিউক্লিওটাইড ডেটাবেজ (DNA/RNA):
- NCBI GenBank, EMBL-Bank
প্রোটিন ডেটাবেজ:
- UniProt, Swiss-Prot, PDB, NCBI Protein
বিশেষায়িত ডেটাবেজ:
- Pfam (প্রোটিন ফ্যামিলি), Rfam (RNA ফ্যামিলি), KEGG (Metabolic পাথওয়ে)
৩. Choosing a Similarity Search Tool
বিভিন্ন অ্যালগরিদম বিভিন্ন ধরনের Sequence Similarity Search এর জন্য ব্যবহার করা হয়:
| Search Tool | ব্যবহার | বৈশিষ্ট্য |
|---|---|---|
| BLAST | Fast, heuristic লোকাল অ্যালাইনমেন্ট | BLASTn (DNA), BLASTp (প্রোটিন), PSI-BLAST (প্রোফাইল) |
| FASTA | মধ্যম গতি, সংবেদনশীল অ্যালাইনমেন্ট | FASTA, SSEARCH |
| Smith-Waterman | সবচেয়ে নির্ভুল (ডাইনামিক প্রোগ্রামিং) | ধীর কিন্তু অত্যন্ত সঠিক |
| HMMER | Hidden মার্কভ মডেল (HMM) ব্যবহার করে remote homologs খোঁজা | Pfam অনুসন্ধানে কার্যকর |
| DIAMOND | অতি দ্রুত প্রোটিন অনুসন্ধান tool (BLASTx-এর মতো) | বড় ডেটার জন্য অপ্টিমাইজড |
৪. Running the Search
BLAST ব্যবহার করে Similarity Searching –
- Query Sequence আপলোড : FASTA ফরম্যাটে সিকোয়েন্স input দেয়া।
- প্রোগ্রাম নির্বাচন:
- BLASTn (DNA vs DNA)
- BLASTp (প্রোটিন vs প্রোটিন)
- BLASTx (ট্রান্সলেটেড DNA vs প্রোটিন ডেটাবেজ)
- ডেটাবেজ বাছাই: যেমন, প্রোটিনের জন্য “nr” (নন-রিডানডেন্ট)।
- প্যারামিটার সেটিং:
- E-value threshold (যত কম, তত কার্যকর, যেমন – 0.001)
- Scoring matrix (প্রোটিনের জন্য BLOSUM62, ছোট সিকোয়েন্সের জন্য PAM30)
- Run & Retrieve Results
৫. Results Analysis
- অ্যালাইনমেন্ট স্কোর:
- Bit score (যত বেশি, তত ভালো মিল)
- E-value (যত কম, তত তাৎপর্যপূর্ণ, যেমন 1e-10)
- Sequence Identity (সাদৃশ্য) (%)
- ৯০-১০০% = একই ধরনের কাজ করে
- ৩০-৫০% = দূর সম্পর্ক
Visualization Tools :
- NCBI BLAST রেজাল্ট ভিউয়ার
- Jalview (মাল্টিপল সিকোয়েন্স অ্যালাইনমেন্ট)
- UCSC Genome Browser (জিনোমিক কনটেক্সট)
৬. Biological Interpretation
- Functional Prediction : যদি মিলে যাওয়া অনুক্রমের কাজ জানা থাকে, তবে একই রকম কাজ করতে পারে বলে ধরে নেওয়া যায়।
- Evolutionary Relationships : ফাইলোজেনেটিক Tree বানানো (MEGA, RAxML ব্যবহার করে)।
- Structural Insights : PDB ব্যবহার করে 3D স্ট্রাকচার তুলনা।
Know More
Hover here to see exclusive content

https://shorturl.fm/ZKPiO
https://shorturl.fm/YMr6X
https://shorturl.fm/10wuY
https://shorturl.fm/U2etT
https://shorturl.fm/Tvb1O
https://shorturl.fm/pbpox
https://shorturl.fm/Lh6Wg
https://shorturl.fm/ZTM4C
https://shorturl.fm/awzXQ
https://shorturl.fm/fjGcY
https://shorturl.fm/IrdfL
https://shorturl.fm/2AcrX
https://shorturl.fm/pyXs5