🔙 Quay lại trang tải sách pdf ebook Giáo trình Tin - Sinh học
Ebooks
Nhóm Zalo
NGUYỄN VĂN CÁCH
TIN - SINH HỌC
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI Gửi tham gia vào mạng tài liệu 2008
Lời nói đầu
Trong nửa cuối thế kỷ XX, nền khoa học công nghệ thế giới đã tạo ra bước phát triển mang tính đột phá ngoạn mục trên rất nhiều lĩnh vực khác nhau, trong đó đặc biệt nhất là ba lĩnh vực tin học, công nghệ thông tin trên nền tảng internet và công nghệ sinh học. Thành công trong lĩnh vực công nghệ sinh học phải kể đến bước phát triển đột phá của công nghệ lên men hiện đại, của sinh học phân tử và kỹ thuật gen, của công nghệ enzym và động học phản ứng... Chính trong thời khắc lịch sử ấy, một lĩnh vực khoa học mới đã ra đời là tin-sinh học.
Tin-sinh học chính là sự hội tụ, hợp tác hữu cơ và đặc biệt hiệu quả của cả ba lĩnh vực công nghệ hàng đầu: tin học- công nghệ thông tin-công nghệ sinh học. Trong thực tế, ngay từ khi ra đời tin-sinh học đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đắc lực và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học; chắp cánh cho công nghệ sinh học nói riêng và sinh học nói chung, bay lên tầm cao mới.
Việc biên soạn cuốn “Tin-sinh học” này nhằm cung cấp cho cán bộ và sinh viên ngành công nghệ sinh học và cho các đối tượng khác có liên quan, những kiến thức cơ bản về tin-sinh học và điểm qua một vài ứng dụng của lĩnh vực khoa học này.
Việc biên soạn cuốn sách này không hy vọng tránh khỏi khiếm khuyết, tác giả rất mong nhận được sự đóng góp của độc giả để hiệu chỉnh cho lần in sau được hoàn chỉnh hơn.
Xin chân thành cám ơn bạn đọc.
PGS- TS. Nguyễn Văn Cách
2
MỤC LỤC
Mục lục
Mở đầu
Đại cương về internet
2.1. Khái niệm về internet và địa chỉ trên mạng 2.2. Thông tin trên internet
2.3. Một số dịch vụ trên internet
2.4. Truy cập tìm kiếm dữ liệu thông tin qua internet
3. Cơ sở dữ liệu công nghệ sinh học
3.1. Đại cương
3.2. Đặc điểm của dữ liệu công nghệ sinh học 3.3. Một số cơ sở dữ liệu sinh học lớn trên thế giới 3.3.1. Cơ sở dữ liệu Trung tâm Thông
tin Quốc gia về Công nghệ Sinh
học Mỹ
3.3.2. Cơ sở dữ liệu EMBL
3.3.3. Cơ sở dữ liệu CBI-DDBJ
4. Nghiên cứu cấu trúc chuỗi DNA và amino axit 4.1. Cơ sở xây dựng chương trình xử lý dữ liệu 4.2. Nghiên cứu so sánh cấu trúc chuỗi
5. Chương trình phân tích cấu trúc chuỗi CLUSTALW
5.1. Đại cương về chương trình CLUSTAL
5.2. Sử dụng chương trình
6. Chương trình thiết kế và lựa chọn đoạn mồi Primer3
6.1. Đại cương
6.2. Thao tác sử dụng chương trình
7. Chương trình phân tích cấu trúc tương đồng BLAST 7.1. Đại cương
2
11
11
13
14
18
21
21
29
30
32
35
37
39
39
49
53
53
55
77
77
80
91
91
92
105 105
3
7.2. Sử dụng chương trình BLAST
8. Chương trình hiển thị phân tích cấu trúc không gian Cn3D 8.1. Đại cương
8.2. Sử dụng chương trình
8.2.1. Sử dụng công cụ tìm kiếm cấu trúc chuỗi qua Entrez
8.2.2. Từ dịch vụ entrez sequence neighbor
8.2.3. Từ dịch vụ phân tích cấu trúc chuỗi BLAST
8.2.4. Sử dụng mã hiệu chuỗi PDB Identifier
9. Tra cứu dữ liệu qua Internet
9.1. Dịch vụ PubMed
9.2. Dịch vụ thư viện qua mạng ScienceDirect→
9.3. Dịch vụ Entrez của NCBI và SRS của EBI
10. Khai thác thông tin cơ sở dữ liệu cấu trúc để thiết kế gen 10.1. Cơ sở dữ liệu RFLP (Restriction Fragment Length Polymorphism) và cơ sở dữ liệu ESTs (Expressed Sequence Tags)
10.1.1. Cơ sở dữ liệu RFLP (Restriction
Fragment Length Polymorphism)
10.1.2. Cơ sở dữ liệu ESTs (Expresed
Sequence Tags)
10.2. Khai thác thông tin cơ sở dữ liệu chuỗi
trong thiết kế và tách dòng gen
10.2.1. Tách dòng gen trên các loài đã biết cấu trúc di truyền
10.2.2. Thiết kế tách dòng gen từ chủng mang hoạt tính gen
10.2.3. Thiết kế tách dòng gen từ các chủng mới
Tài liệu tham khảo
106 107 109 111 112
113 113
115 117
123 123
123 126
134
134 138 139
4
1.
MỞ ĐẦU
Sự phát triển như vũ bão của khoa học và công nghệ trong thế kỷ XX đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực hoạt động của đời sống xã hội. Trong lĩnh vực công nghệ sinh học, nhờ những thành tựu vô cùng to lớn của sinh học và sinh học ứng dụng (đặc biệt là trong các lĩnh vực: di truyền học, sinh học phân tử, kỹ thuật gen, công nghệ lên men hiện đại...), cùng với việc hoàn thiện và hiện đại hoá các trang thiết bị phục vụ nghiên cứu khoa học đã cho phép con người trong khoảng thời gian ngắn thu được khối lượng dữ liệu khoa học khổng lồ về công nghệ sinh học, nói riêng và về khoa học sự sống nói chung. Đồng thời, sự phát triển vô cùng mạnh mẽ của sinh học phân tử và kỹ thuật gen trong nửa cuối thế kỷ XX đã cho phép con người khám phá bản chất sinh học, ở cấp độ phân tử, các đơn vị cơ sở nhỏ nhất cấu thành nên từng bộ phận cơ thể và các quá trình vận động biến đổi xảy ra trong các cơ thể sống. Chính các yếu tố trên đã cấu thành nên cơ sở vật chất ban đầu cho các ngân hàng dữ liệu công nghệ sinh học.
Nguồn dữ liệu cơ sở này, thực tế là các dữ liệu kết quả nghiên cứu thu được của từng cá nhân hay của các cơ sở nghiên cứu rải rác khắp nơi trên thế giới. Với đặc thù là ngành khoa học thực nghiệm, đây chính là sản phẩm kết tinh của khối lượng rất lớn lao động trí tuệ, hao phí vật chất, tiền bạc và tiêu tốn thời gian, công sức. Việc bảo quản tại chỗ kết quả nghiên cứu này là không hiệu quả và không thể tránh khỏi mất mát hay thất lạc, do nhiều nguyên nhân khác nhau, thí dụ: do cơ sở hạ tầng vật chất kỹ thuật lạc hậu, năng lực tài chính hạn chế, điều kiện địa lý, khí hậu không thuận
5
lợi hay các yếu tố chính trị liên quan... Trong khi đó, Việc sử dụng các trang thiết bị phân tích hiện đại đã cho phép thu được khối lượng thông tin rất lớn, cho mỗi nghiên cứu riêng biệt. Kết quả là trong hầu hết các trường hợp, bằng các phương tiện thông tin truyền thống (tạp chí, sách, hội nghị, hội thảo khoa học...) nhìn chung không đủ dung lượng và môi trường để truyền tải hết ý tưởng và dữ liệu kết quả nghiên cứu của các tác giả. Đây cũng là một nguyên nhân dẫn tới khả năng thất thoát tài nguyên trực tiếp hay gián tiếp, do lạc hậu về thông tin nên có thể ở nơi này vẫn đang tiêu tốn tiền bạc vào các mục tiêu nghiên cứu đã được giải quyết thành công ở nơi khác. Trong khi đòi hỏi thực tiễn đặt ra cho sự phát triển toàn diện và sâu rộng công nghệ sinh học ngày càng trở nên cấp bách. Như một hệ quả tất yếu để giải quyết các vấn đề trên, các trung tâm dữ liệu công nghệ sinh học đã ra đời và phát triển hết sức nhanh chóng, trên cả hai mặt quy mô và số lượng các đơn vị thành viên.
Về mặt bản chất, sinh học hiện đại đã chỉ rõ rằng: đặc tính riêng biệt của mỗi loài trong sự đa dạng của thể giới sinh học được quyết định chính trong kích thước và cấu trúc gen của từng cá thể, với đơn vị cấu trúc cơ sở là bốn loại nucleotide: Adenine, Guanine, Cytosine và Thimine (Uracil thay thế Thymine trong RNA). Đồng thời, protein (thành phần quan trọng nhất của mọi cơ thể sống) được tạo thành trên cơ sở kết nối của 20 amino axit khác nhau. Logic chính xác trong quy luật của thế giới sống trong môi trường tin học đã cho phép con người “số hoá và ký tự hoá ” trong việc mô tả bản chất và sự vận động của thế giới sinh học. Kết hợp với khả năng kết nối trao đổi thông tin “vô hạn ” của công nghệ thông tin và internet đã mở ra điều kiện lý tưởng cho các nhà sinh học để cất giữ, liên kết, xử lý và trao đổi kho tàng dữ liệu giữa các thành viên với nhau. Nhờ sự hợp tác và liên kết rộng rãi này, một mặt mở ra khả năng tư vấn, trao đổi và hỗ trợ cho nhà nghiên cứu hay các tổ chức thành viên tham gia. Nhưng mặt khác, chính sự liên kết này đã tạo ra công cụ mới để nghiên cứu sự biến đổi
6
trong các cơ thể sống hay các hiện tượng sống, trên cơ sở phân tích phát hiện tính quy luật từ vô số các dữ liệu thực nghiệm trong kho tàng dữ liệu khổng lồ này... Nghĩa là, thông qua xử lý hàng loạt mảng dữ liệu thực nghiệm rời rạc, người ta thu được các mảng dữ liệu thứ cấp, để từ đó có thể khái quát hoá thành quy luật vận động và biến đổi của nó; hoặc trên cơ sở xử lý cơ sở dữ liệu đã có để định hướng, hoạch định kế hoạch và tổ
chức thực nghiệm khoa học của mình sao cho hiệu quả hơn, hay trên cơ sở nắm bắt được quy luật vận động của tự nhiên để “thiết kế ” ra các sản phẩm hoàn toàn mới, thậm chí có thể chưa xuất hiện trong thiên nhiên... Chính từ các cơ sở lý luận và thực tiễn nêu trên, một lĩnh vực khoa học mới đã ra đời, đó chính là tin-sinh học.
Tin-sinh học (Bioinformatic) là một ngành khoa học sinh học tìm kiếm, phát hiện và mô phỏng quy luật vận động sinh học của thế giới sống, trên cơ sở phân tích nguồn dữ liệu thông tin sinh học khổng lồ quy mô toàn cầu, với công cụ quản trị và xử lý dữ liệu của computer trên nền năng lực kết nối thông tin nhanh chóng và hiệu quả qua mạng Internet và hệ thống viễn thông hiện đại; Nghĩa là Tin-sinh học là ngành nghiên cứu lý thuyết trong sinh học, được thiết lập và hoạt động trên sự liên kết hữu cơ giữa thông tin sinh học – công nghệ xử lý dữ liệu trên computer - internet và công nghệ viễn thông hiện đại.
Sự ra đời của tin-sinh học không chỉ mở ra khả năng quả lý, khai thác tổng hợp và toàn diện hơn nguồn dữ liệu thực nghiệm thu được, mà trong thực tế chính tin-sinh học đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đắc lực và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học; chắp cánh cho công nghệ sinh học nói riêng và sinh học nói chung, bay lên tầm cao mới. Cơ sở dữ liệu công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần, mà nó còn bao gồm khả năng khái quát hoá, mô phỏng hoá thành
7
những “đối tượng số ” của thế giới sinh học sống động. Thí dụ, với công cụ tin-sinh học đã cho phép con người tìm hiểu và khám phá các quá trình vận động nội tại trong bản thân mình, nhờ nghiên cứu dữ liệu thực nghiệm trên các đối tượng sinh vật khác, hay cho phép con người chế tạo ra cả
những sinh giới mới vượt ra khỏi quy luật tiến hoá và chọn lọc tự nhiên... Tin-sinh học có thể khái quát hoá thành ba nhiệm vụ cơ bản là:
• Thiết lập, kết nối và quản trị và khai thác cơ sở dữ liệu khổng lồ và đa dạng về sinh học và các ngành hay lĩnh vực khoa học liên quan, trên quy mô toàn cầu. Vấn đề này đã và sẽ chỉ phát huy được lợi thế khổng lồ của nó khi huy động được sự tham gia thực sự của đông đảo các thành viên sở hữu thông tin sinh học trên toàn thế giới.
• Tìm kiếm, phát hiện và mô phỏng các quy luật vận động sinh học tích tụ trong các dữ liệu sinh học phục vụ yêu cầu hoạch định hay định hướng các sinh học thực nghiệm khác, trên cơ sở không ngừng phát triển và hoàn thiện các công cụ xử lý dữ liệu tương ứng, dưới dạng các chương trình xử lý dữ liệu độc lập hay được tích hợp ngay trong các thiết bị phân tích hiện đại, nhằm trợ giúp các nhà sinh học trong việc xây dựng phương án nghiên cứu thực nghiệm hay phân tích, xử lý kết quả thu được với sự “tư vấn và trao đổi của các chuyên gia ” trên toàn thế giới. Hiệu quả của nhóm hoạt động này ngày càng cao trên nền tảng khối lượng dữ liệu sinh học khổng lồ, năng lực các công cụ xử lý ngày càng hiệu quả và năng lực vận dụng bám sát mới bản chất sinh học của đối tượng cần nghiên cứu khám phá.
• Đào tạo và cập nhật thường xuyên cho các nhà sinh học kỹ năng tư duy và năng lực khai thác hai nội dung trên vào hoạt động khoa học và công nghệ nhằm tạo ra bước chuyển biến đột phá trong phương cách tiếp cận và nghiên cứu khám phá thế giới sống, tạo ra cuộc cách mạng
8
thực sự trong hoạt động sáng tạo của con người vì phồn vinh và hạnh phúc nhân loại.
2.
ĐẠI CƯƠNG VỀ INTERNET
2.1. Khái niệm về internet và địa chỉ trên mạng
Internet là hệ thống gồm rất nhiều mạng máy tính cục bộ hay khu vực được kết nối lại với nhau thành mạng chung trên phạm vi toàn cầu (Networks of the Networks). Như vậy, internet kết nối nhiều triệu máy tính riêng lẻ đã hoà mạng vào hệ thống chung, trong đó giữa các máy đã nối mạng đều bình đẳng và có thể liên hệ trao đổi thông tin qua lại với nhau. Trên internet, người truy cập vào mạng từ khắp nơi trên hành tinh, nếu được phép của chủ sở hữu, có thể tìm kiếm và khai thác tất cả mọi thông tin và dữ liệu trong từng máy con với tốc độ “ánh sáng” vượt qua mọi trở ngại về không gian và lãnh thổ.
Điểm khởi đầu của internet là dự án nối mạng các máy tính của bốn đơn vị thành viên là Viện Nghiên cứu Stanford, Trường Đại học Tổng hợp California, Trường Đại học Tổng hợp UC-Santa Barbara và Trường Đại học Tổng hợp Utah do cơ quan quản lý dự án nghiên cứu phát triển của bộ
quốc phòng Mỹ (U.S. Defense Advance Research Projects Agency – DARPA) tài trợ (tháng 7/1968). Việc kết nối thành công các máy tính tham gia của bốn thành viên trên (năm 1969) đã đánh dấu sự ra đời của mạng máy tính khu vực – viết tắt là ARPANET. Lịch sử phát triển của internet là quá trình phát triển và hoàn thiện không ngừng từ ARPANET, qua MILNET và NSFNET (National Science Foundation Network), đến
9
internet với khả năng khổng lồ và quy mô toàn cầu hiện nay (internet với đầy đủ ý nghĩa và thực sự bùng nổ mạnh mẽ chỉ từ 1995, sau thời điểm chính phủ Mỹ cho phép công khai và thương mại hoá công nghệ này trên phạm vi toàn cầu).
Internet là sự kết nối đa chiều các mạng diện rộng (Wide Area Network – WAN) của các quốc gia hay khu vực. Mỗi mạng WAN được hình thành do sự kết nối của nhiều mạng khu vực hẹp hơn (Local Area Network – LAN); trong đó, mỗi mạng LAN lại là mạng kết nối các máy tính riêng lẻ
(hay mạng của cụm các máy tính riêng lẻ) lại với nhau. Việc kết nối giữa các mạng trên được thực hiện nhờ các cổng chuyển thông tin - thường là các cầu nối (Bridges) hoặc các bộ định tuyến (Router).
Từng máy tính con thường được kết nối vào internet qua một máy chủ (Host). Để các máy tính nối mạng có thể nhận biết và thông tin qua lại với nhau, mỗi máy chủ đều được nhận một miền gồm một số địa chỉ IP (Identification Protocol) nhất định và không trùng nhau với các máy chủ khác. Trung tâm thông tin điều phối internet quốc tế (Network Information Center – NIC) chủ trì phân phối các địa chỉ mạng (Net ID) cho mỗi quốc gia. Tiếp theo, tổ chức quản lý internet từng quốc gia sẽ phân phối miền địa chỉ cho các máy chủ trên mạng đó (Host ID). Theo hệ địa chỉ đang được sử dụng hiện tại IPv4 mỗi địa chỉ mạng gồm bốn cụm số phân cách nhau bằng dấu chấm dạng A.B.C.D, với A, B, C, và D là một số nguyên có giá trị trong dải (0 – 255), thí dụ: 192.168.127.16; 172.16.1.3 (mạng WAN một vài nước đã sử dụng hệ địa chỉ IPv6). Để thuận tiện cho người sử dụng trong giao tiếp, các địa chỉ IP kiểu số trên thường được máy chủ (do các nhà cung cấp dịch vụ internet quản lý) phiên mã thành dạng địa chỉ các cụm từ, thí dụ: http://www.vnn.vn; http://www.hut.edu.vn; http://www.atcc.org; http://merlin.bcm.tmc.edu...
10
Để truy cập vào mạng, người sử dụng internet (thường được gọi chung là khách hàng) phải đăng ký với các nhà cung cấp dịch vụ và sẽ được cấp một tên truy cập (Account) và với mật khẩu riêng tương ứng (Password). Với tên và mật khẩu đã đăng ký, thường khách hàng có thể truy cập vào mạng internet từ bất kỳ máy tính nào trong mạng LAN của nhà cung cấp dịch vụ đó hay thông qua kết nối trực tiếp một máy tính ngoài mạng với máy chủ bằng đường điện thoại (sử dụng Modem thường hay Modem ADSL). Việc kết nối giữa một máy tính con với máy chủ còn phụ thuộc vào chế độ kết nối. Có nhiều kiểu kết nối khác nhau, phụ thuộc vào kiểu dữ liệu sử dụng, phần mềm cài đặt trên máy chủ, phần mềm của khách hàng. Các kiểu kết nối này thường mang đặc trưng riêng với từng trường hợp cụ thể (“service by service”, “user by user”) và thường được xác định qua cổng kết nối (Port) đi kèm như một địa chỉ phụ, thí dụ “192.168.127.16:8080” (port 8080); hay
“merlin.bcm.tmc.edu:23” (port 23)...
2.2. Thông tin trên internet
Internet chứa khối lượng thông tin khổng lồ, bao gồm dữ liệu của hầu như tất cả mọi lĩnh vực khác nhau trong đời sống xã hội hiện đại, từ khoa học, kinh tế, văn hoá, chính trị, xã hội đến cả vô số các thông tin quảng cáo sản phẩm hay các thông tin về dịch vụ thương mại điện tử... Các dữ
liệu thông tin này được lưu giữ trong các máy chủ của hàng trăm ngàn mạng con (LAN và WAN) và trong các máy tính đang hoà mạng trên khắp thế giới. Khả năng khai thác các dữ liệu thông tin này, đương nhiên còn phụ thuộc vào việc cung cấp của chủ sở hữu và giới hạn khai thác của khách hàng được chủ sở hữu dữ liệu cấp phép. Ở góc độ khai thác, có thể
chia cơ sở dữ liệu khổng lồ trên thành hai nhóm lớn là:
11
* Loại các thông tin công cộng: Bao gồm tất cả các loại dữ liệu thông tin mà bất kỳ khách hàng nào, từ mọi nơi trên khắp thế giới, khi đã vào internet đều có thể tự do truy cập và khai thác phục vụ cho mục đích riêng, điển hình cho kiểu dịch vụ thông tin công cộng là WWW (World Wide Web), thí dụ: http://www.vnn.vn; http://www.sony.com...
* Loại các thông tin giới hạn truy cập: Bao gồm tất cả các dữ liệu hay các hệ thống dữ liệu trên mạng, nhưng việc truy cập và khai thác chỉ có thể được thực hiện nếu được phép của chủ sở hữu chúng. Thí dụ các thông tin phải trả tiền khi sử dụng, các thông tin chỉ dành cho các đối tượng đã được cấp quyền truy cập, các thông tin chỉ sử dụng nội bộ.... Thông thường, nguồn dữ liệu này được lưu giữ trên mạng nhưng với độ bảo mật rất cao; chỉ có những người đã được cấp phép (với tên và mật khẩu truy cập đã đăng ký) mới có thể truy cập và khai thác.
2.3. Một số dịch vụ trên internet
Các dịch vụ trên mạng rất đa dạng và được cải tiến, hoàn thiện và mở rộng không ngừng. Một số dịch vụ phổ dụng hiện nay của internet là:
• Truy cập khai thác thông tin từ xa (Telnet): Được xem là dịch vụ cơ sở và đầu tiên của việc kết nối mạng. Dịch vụ này cho phép từ một máy tính ở bất kỳ vị trí nào trên thế giới có thể truy cập vào một máy tính xác định khác trong mạng thông qua giao thức TCP/IP (Transfer Control Protocol/Internet Protocol). Khi dịch vụ đã được thiết lập, người sử dụng dịch vụ có thể thực hiện các thao tác đầy đủ trên máy tính kia cũng như trên máy đang sử dụng, thí dụ: gọi các chương trình hiện có, ghi hay xoá các tệp tin... Trong
12
thực tế, việc khai thác dịch vụ truy cập từ xa được thực hiện với sự trợ giúp của các chương trình hỗ trợ và giám sát mà các nhà quản lý hệ thống máy chủ phía sở hữu dữ liệu sử dụng. Nghĩa là người muốn truy cập vẫn phải được "cấp phép" dưới dạng được cấp tên đăng ký và mật khẩu riêng (public login name and password).
• Dịch vụ trao đổi các tệp dữ liệu (files transfer - ftp): Dịch vụ ftp cũng là dịch vụ cơ sở đầu tiên của việc kết nối mạng, nhưng được xây dựng dành riêng cho những người sử dụng chỉ trao đổi một hay một số tệp dữ liệu nhất định, song không mong muốn truy cập (hay không được thẩm quyền truy cập) vào toàn bộ ngân hàng dữ liệu của máy chủ đó. Thao tác để sử dụng dịch vụ ftp nguyên thuỷ cũng hoạt động trên cơ sở tương tự như sử dụng dịch vụ telnet. Khi sử dụng dịch vụ ftp, thông thường khách hàng phải thực hiện hàng loạt dòng lệnh khác nhau mới có thể gửi (put files) hoặc nhận (get files) và phải phân biệt hai dạng dữ liệu là kiểu ký tự (text mode) và kiểu nhị phân (binary mode). Dịch vụ ftp với kiểu ký tự đã lưu ý đến sự khác biệt giữa các hệ điều hành (môi trường Unix sử dụng hệ ASCII 10, môi trường Macintosh sử dụng hệ ASCII 13 và môi trường MSDOS được thiết kế cho sử dụng một trong hai hệ trên, trong đó với kiểu nhị phân sẽ được trao đổi đúng nguyên bản gốc).
Nhằm giảm bớt trục trặc và để thuận tiện hơn cho khách hàng, người cung cấp tin có thể chuẩn bị sẵn các tệp dữ liệu hay một một số thư mục tệp dữ liệu liên quan thành các nhóm riêng, sao cho khi khách hàng cần trao đổi có thể thực hiện được dễ dàng mà không cần phải sử dụng đến mật khẩu. Khi xây dựng các trang WWW (World Wide Web) người ta sử dụng phổ biến kỹ thuật này giúp khách hàng đang ở trong trang Web vẫn có thể trao đổi thuận tiện các tệp dữ liệu mong muốn, qua truy cập các đường dẫn siêu liên kết dưới dạng dòng lệnh
13
“Download”, “Download now” hay đường dẫn “ftp://...” (thông thường các tệp dữ liệu dạng này không có sẵn trong các trang WWW), thí dụ:
“The file is available by anonymous ftp. ftp to ftp.bcm.tmc.edu
and retrieve mbcr/pub/file.txt” Để trao đổi tệp trên có thể thực hiện nhờ sử dụng lệnh:
ftp://ftp.bcm.tcm.edu/bmcr/pub/file.txt
• Dịch vụ thư điện tử (E-Mail): Dịch vụ thư điện tử là dịch vụ đơn giản nhất nhưng lại rất hiệu quả và được nhiều người sử dụng nhất. Dịch vụ này dành cho cả những người không đăng ký quyền truy cập mạng hay thường xuyên được chọn với các khách hàng chỉ đăng ký sử dụng hạn chế các dịch vụ trên internet. Người gửi thư chỉ cần "gọi ra" một khung mẫu thư từ một máy chủ nhất định (các mailserver), sau đó sử dụng bàn phím để viết thư, điền địa chỉ điện tử của người nhận và nhấn lệnh gửi đi. Khi đó thư sẽ được chuyển ngay đến máy chủ rồi chuyển tiếp sang máy chủ của người nhận đăng ký địa chỉ và được lưu giữ ở đó. Người nhận thư, vào lúc thời gian thuận tiện, có thể truy cập vào "thùng thư" của mình trên máy chủ để xem các thư gửi đến. Ngày nay, kết hợp với các dịch vụ đi kèm khác, người gửi thư có thể gửi đồng thời một bức thư đến nhiều người nhận khác nhau (dịch vụ C.c. qua listserver), có thể chuyển cả "thư" dưới dạng âm thanh, hình ảnh hay tiếng nói đến người nhận và thường kết hợp kèm thêm dịch vụ chuyển tệp đơn giản để mở rộng năng lực phục vụ khách hàng (chế độ attachment). Nhìn chung, việc sử dụng dịch vụ thư điện tử rất đơn giản về thao tác, thuận tiện về thời gian và hết sức nhanh chóng. Vì vậy, để
thu hút khách hàng truy cập, rất nhiều công ty kinh doanh trên internet
14
thường có thêm mailserver phục vụ miễn phí cho mọi đối tượng được tự do đăng ký "thùng thư" cá nhân.
• Dịch vụ thông tin theo nhóm (usenet): Dịch vụ này cho phép người sử dụng mạng có thể tham gia “sinh hoạt” theo các nhóm thông tin (Newsgroup), trong đó họ có thể gửi hay nhận các thông tin cho các thành viên khác cùng tham gia trong chủ đề này. Các nhóm thông tin được trình bày theo chủ đề, không phân biệt thời gian cập nhật, tách biệt độc lập giữa các nhóm với nhau và độc lập với dịch vụ thư điện tử. Đồng thời, việc đăng ký tham gia vào nhóm tin, xoá tên đã đăng ký, gửi và nhận tin thao tác rất đơn giản và thuận tiện. Do dịch vụ này rất thuận lợi nên từ thời kỳ đầu internet chỉ có 7 nhóm tin (sci- khoa học, soc-xã hội, comp-computer...), song đến nay có thể tới hàng chục ngàn nhóm tin khác nhau trên mạng. Tuy nhiên, do những lý do nhất định, nhiều nhóm tin không tham gia vào hệ thống dịch vụ “usenet” chung, mà chúng tồn tại theo nhóm độc lập riêng hay các nhóm chỉ “trao đổi nội bộ” trong diện đối tượng hẹp trên mạng.
• Dịch vụ tìm kiếm thông tin gopher, WAIS (Wide Area Information Server) và dịch vụ truyền siêu văn bản HTTP (Hyper Text Transport Protocol) hoặc WWW (World Wide Web): Với mục đích phối hợp với dịch vụ trao đổi tệp dữ liệu, gopher cho phép người sử dụng mạng có thể tìm kiếm và hiển thị thuận tiện các tệp dữ liệu có trên mạng, thường với các tên theo từ khoá và các đường đẫn từ trang gopher đến các trang khác. Cũng hoạt động tương tự, dịch vụ WAIS (Wide Area Information Server) tìm kiếm theo các cụm dữ liệu dưới dạng ký tự (free-text databases). Nhờ vậy, dịch vụ này có công năng rất mạnh để
tìm kiếm, thu thập và cung ứng thông tin. Song song với hai dạng trên, phương án liên kết các tệp dữ liệu trong từng máy chủ để tạo ra dạng cung cấp thông tin hiệu quả hơn đã xuất hiện dịch vụ truyền thông tin
15
siêu văn bản HTTP (Hyper Text Transport Protocol) và Web (www, W3 hoặc Web). Với dịch vụ thông tin mới này, khả năng trình bày, nội dung hiển thị, đường dẫn đến các cơ sở dữ liệu hay các dạng dịch vụ khác rất đa dạng. Nhờ vậy, đã tạo ra phương án cung cấp thông tin nhanh chóng và hiệu quả, môi trường giao tiếp thân thiện và hết sức thuận lợi cho khách hàng. Với ưu thế to lớn của mình, ngày nay hầu như dịch vụ WWW đã thế chỗ hoàn toàn cho dạng dịch vụ gopher và WAIS (các Web server đều có khả năng giao tiếp kết nối với các gopher server và ftp server). Để giao tiếp với các Web server khách hàng thường sử dụng các chương trình trình duyệt Web, trong đó ba chương trình trình duyệt mạnh nhất hiện nay là: Microsoft Internet Explorer (của Microsoft Corp.), Netscape Explorer (của Netscape Communication Corp.) và AOL Browser (của American On Line Corp.).
2.4. Truy cập tìm kiếm dữ liệu thông tin qua internet
Cũng như các lĩnh vực khoa học khác, người ta hầu như không thể hy vọng liệt kê ra được phần lớn các cơ sở dữ liệu liên quan đến công nghệ sinh học, thậm chí sẽ không có một giải pháp tối ưu nhất để tìm kiếm thông tin dù chỉ trong một lĩnh vực hẹp. Giải pháp tương đối đơn giản và thường áp dụng với những người khởi đầu tham gia khai thác thông tin qua internet là:
• Sử dụng các trang công cụ tìm kiếm phổ dụng trên tnternet như: www.yahoo.com; www.google.com; www.altavista.com; www.webferret.com...
16
* Vào một cơ sở dữ liệu lớn đã biết gần gũi với chuyên mục cần tìm kiếm. Sau đó sử dụng các đường dẫn siêu liên kết mặc định (các đường “links”, “hyperlink”, lệnh “go”...) để mở rộng khả năng tìm kiếm sang các cơ sở dữ liệu khác.
Cần chú ý rằng, với mỗi cơ sở dữ liệu đều chứa đựng khối lượng thông tin rất lớn, nguồn tin được cập nhật bổ sung và hoàn thiện liên tục, có thể có những thông tin lại được trình bày dưới các dạng chủ đề khác nhau và có thể tồn tại một vài khác biệt nhất định trong các chương trình xử lý dữ liệu thực nghiệm giữa các tổ chức sở hữu.
Bên cạnh việc tìm kiếm trên, một trong số các giải pháp cập nhật thông tin nhanh và hiệu quả là đăng ký tham gia dịch vụ trao đổi tin theo nhóm theo những chuyên đề hẹp quan tâm (dịch vụ usenet hoặc dạng tương tự). Ngoài ra, mỗi cá nhân có thể “sở hữu” kiểu tìm kiếm thông tin hữu hiệu hơn và việc tiếp thu thông tin bạn bè giới thiệu lại... trong nhiều trường hợp lại là cách tiếp cận nhanh chóng và hiệu quả đến nguồn dữ liệu mong muốn.
Bảng 2.1. Địa chỉ một số nhóm tin liên quan đến công nghệ sinh học (http://www.bioremediationgroup.org/BioLinks/links/news.htm)
Agriculture
news:sci.agriculture
Agroforestry Research
news:bionet.agroforestry
Biology Announcements
news:bionet.announce
Biology (Journals and Publications)
news:bionet.journals.contents
Biology of Grasses
news:bionet.biology.grasses
Biotechnology
news:sci.bio.technology
Botany
news:sci.bio.botany
17
Chemistry
news:sci.chem
Chemical Engineering
news:sci.engr.chem
Civil Engineering
news:sci.engr.civil
Ecological Research
news:sci.bio.ecology
Energy, Science, & Technology
news:sci.energy
Entomology
news:sci.bio.entomology.misc
Environment and Ecology
news:sci.environment
Fisheries Science
news:sci.bio.fisheries
General Biology & Science
news:bionet.general
General Engineering
news:sci.engr
Microbiology
news:sci.bio.microbiology
Microbiology (Bionet Newsgroup)
news:bionet.microbiology
Microscopy Techniques
news:sci.techniques.microscopy
Population Biology
news:bionet.population-bio
Scientific Research
news:sci.research
Toxicology
news:bionet.toxicology
Tropical Biology
news:bionet.biology.tropical
Energy and Renewable Resources
news:alt.energy.renewable
Environmentalist Causes
news:alt.save.the.earth
Technology Topics
news:alt.technology.misc
Symbiosis Discussion and Research
news:bionet.biology.symbiosis
Biosphere and Ecology
news:bit.listserv.biosph-1
Conservation
news:sci.bio.conservation
Environment
news:talk.environment
Waste Management
news:sci.environment.waste
Plant Science
news:bionet.plants
18
3.
CƠ SỞ DỮ LIỆU CÔNG NGHỆ SINH HỌC
3.1. Đại cương
Công nghệ sinh học là một lĩnh vực khoa học trẻ, đa ngành, phát triển rất năng động và hết sức mạnh mẽ trong nửa cuối thế kỷ XX. Nếu như công nghệ thông tin và internet được xem là công nghệ của thế kỷ XX, thì rất nhiều ý kiến dự báo đều cho rằng công nghệ sinh học sẽ trở thành công nghệ phát triển mạnh mẽ và năng động nhất của thế kỷ XXI. Rất nhiều quốc gia trên thế giới đã xác định công nghệ sinh học là một lĩnh vực khoa học công nghệ trọng điểm trong chiến lược phát triển đất nước. Nhờ vậy, trong thời gian qua công nghệ sinh học đã nhận được sự đầu tư đáng kể
của các chính phủ, đã huy động được tiềm lực khoa học và công nghệ không chỉ các cơ quan chuyên sâu, hoạt động trực tiếp trong lĩnh vực của mình, mà còn mở rộng sang cả nhiều công ty vốn không có truyền thống hoạt động về công nghệ sinh học.
Về tiềm lực khoa học và công nghệ sinh học, các cường quốc công nghiệp hàng đầu, do ưu tiên tập trung đầu tư từ rất sớm nên công nghệ sinh học của các quốc gia này phát triển hết sức mạnh mẽ, vượt trội toàn diện, triệt để và bỏ rất xa các quốc gia đang phát triển. Như một hệ quả tất yếu, năng lực lưu trữ, xử lý và khai thác cơ sở dữ liệu nói chung, và dữ liệu về công nghệ sinh học nói riêng, cũng tập trung cao độ trong các ngân hàng dữ liệu thuộc ba trung tâm khoa học và công nghệ hàng đầu thế giới là: Mỹ, Cộng đồng Châu Âu và Nhật Bản. Một số quốc gia đang phát triển, nhờ chiến lược đầu tư trọng điểm nên cũng đã thu được một số thành
19
công nhất định trong từng lĩnh vực (thí dụ thành tựu về lúa lai của Trung Quốc hay thành tựu về công nghệ sinh học trong sản xuất thuốc điều trị của Cuba...).
Tuy nhiên, trong kỷ nguyên công nghệ và hội nhập quốc tế hiện nay, để đẩy nhanh tốc độ phát triển công nghệ sinh học thì mỗi quốc gia, dù ở bất cứ trình độ công nghệ nào cũng phải xem hợp tác quốc tế là một thực tế tất yếu của thời đại. Hơn nữa, ưu thế về đa dạng sinh học lại tập trung cao ở vành đai xanh nhiệt đới, chứ không phải thuộc các nước công nghiệp phát triển. Nghĩa là, trong lĩnh vực công nghệ sinh học, mọi quốc gia trên thế giới đều rất cần sự “cộng tác và hỗ trợ” từ các quốc gia khác. Cũng nhờ đặc điểm này nên ngay các ngân hàng dữ liệu lớn của các quốc gia công nghiệp hàng đầu cũng rất “hào phóng” trong việc tiếp nhận thông tin mới và cung cấp những “trợ giúp cần thiết” cho các nhà khoa học sinh học trên toàn thế giới, thông qua dịch vụ internet. Thực tế này, đã tạo ra cơ hội thuận lợi cho các nhà khoa học và công nghệ ở nước đang phát triển trong việc tiếp thu thành tựu khoa học và công nghệ mới phục vụ cho mục tiêu nghiên cứu của mình. Trên nền tảng công nghệ thông tin và internet, cơ sở dữ liệu công nghệ sinh học và hợp tác trao đổi thông tin đã thực sự liên thông và liên kết quy mô toàn cầu. Từ hầu hết các cơ sở dữ liệu đều có thể tìm thấy các đường dẫn siêu liên kết đến các cơ sở dữ liệu khác. Đồng thời, các trung tâm dữ liệu lớn như NCBI, EBI, WFCC, ExPASy... thực hiện chế độ trao đổi dữ liệu và cập nhật thông tin trong ngày. Sau đây, cuốn sách cung cấp cho bạn đọc một vài địa chỉ của các ngân hàng dữ liệu lớn trên thế giới để tham khảo.
20
Hình 3.1. Địa chỉ và ảnh trang chủ của Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ (NCBI)
(National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, USA)
21
Hình 3.2. Địa chỉ và ảnh trang chủ của cơ sở dữ liệu thuộc Viện Tin-Sinh học Châu Âu
(European Bioinformatics Institute)
22
Hình 3.3. Địa chỉ và ảnh trang chủ của cơ sở dữ liệu thuộc Viện Gen Qquốc gia Nhật Bản
(National Institute of Genetics, Japan)
(www.nig.ac.jp/section/service.html)
23
Hình 3.4. Địa chỉ và ảnh trang chủ của cơ sở dữ liệu về hệ thống nghiên cứu phân tích cấu trúc protein của Thuỵ Sĩ
(ExPASy Proteomics Server, Swiss Institute of Bioinformatics) (http://www.expasy.ch/)
24
Hình 3.5. Địa chỉ và ảnh trang chủ của Viện Bảo tàng Giống Quốc gia Mỹ (American Type Culture
Collection)
25
(www.atcc.org)
Hình 3.6. Địa chỉ và ảnh trang chủ của Viện Bảo tàng Giống Quốc gia Cộng hoà Liên bang Đức
(Deutsche Sammlung von Mikroorganismen und Zellkulturen) (www.dsmz.de)
26
3.2. Đặc điểm của dữ liệu công nghệ sinh học
Nguồn cơ sở dữ liệu liên quan đến sinh học được truyền tải trên mạng vô cùng đa dạng, phong phú về chủng loại và đồ sộ về khối lượng, với tốc độ gia tăng mạnh mẽ theo thời gian. Về nội dung, cơ sở dữ liệu trải rộng trên tất cả các mặt khác nhau, từ các thông tin chung về tiềm lực khoa học và công nghệ của các cơ quan, đến các thông tin về các công trình khoa học đã công bố, các tạp chí chuyên ngành... Trong đó chiếm khối lượng lớn và đa dạng nhất là các kết quả nghiên cứu trên đối tượng sinh học. Đặc điểm chung nhất của các dữ liệu này là được biểu diễn dưới dạng số hay ký tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các chương trình thuật toán hoàn chỉnh rất thuận tiện để cất giữ hay trao đổi. Về đặc điểm cấu trúc, nguồn thông tin này có thể phân chia sơ bộ thành hai mảng lớn là mảng dữ liệu sơ cấp và mảng dữ liệu thứ cấp:
• Mảng dữ liệu sơ cấp bao gồm tất cả các dữ liệu thu được qua phân tích trực tiếp, bằng các trang thiết bị tương ứng, thí dụ cơ sở dữ liệu thực nghiệm phân tích cấu trúc DNA, cấu trúc chuỗi amino axit, cấu trúc và đặc tính enzym, về các hợp chất hữu cơ khác (hydratcarbon, vitamin, lipid...) hay các đặc tính phân loại sinh học, thông tin về đa dạng sinh học, về các đường hướng trao đổi chất trong cơ thể sống...
• Mảng dữ liệu thứ cấp bao gồm các dữ liệu và thông tin thu được trên cơ sở phân tích, khái quát hoá, hệ thống hoá hay thông tin mô phỏng cho từng đối tượng hay nhóm đối tượng sinh học trong thế giới tự nhiên. Mảng dữ liệu này được hình thành thông qua việc xử lý hàng loạt mảng dữ liệu thực nghiệm rời rạc, để từ đó có thể khái quát hoá thành quy luật biến đổi của nó hay mảng dữ liệu hình thành khi xử lý các kết quả nghiên cứu cụ thể, trên cơ sở các quy luật đã phát hiện được qua khai thác cơ sở dữ liệu công nghệ sinh học. Mảng dữ liệu
27
này bao gồm cả mảng thông tin mà qua đó nhà sinh học có thể khai thác phục vụ cho việc định hướng, hoạch định kế hoạch và tổ chức thực nghiệm khoa học tiếp theo sao cho hiệu quả hơn. Hoặc trên cơ sở phát hiện nắm bắt được quy luật vận động của tự nhiên kết hợp với nền tảng logic chính xác của thế giới sống, nhà sinh học có thể xây dựng ý tưởng, mô phỏng “thiết kế” ra các sản phẩm hoàn toàn mới, thậm chí có thể chưa xuất hiện trong thiên nhiên... Để xử lý phân tích cơ sở dữ liệu trên, đương nhiên không thể xem nhẹ vai trò của các chương trình hay các thuật toán xử lý dữ liệu sinh học ứng dụng. Các chương trình này được thiết kế độc lập hay, từng phần hoặc toàn bộ, dưới dạng tích hợp ngay trong các thiết bị phân tích hiện đại. Chính các yếu tố này cũng là mảng dữ liệu hết sức quan trọng, góp phần tạo ra ưu thế ứng dụng to lớn của tin-sinh học.
3.3. Một số cơ sở dữ liệu sinh học lớn trên thế giới
Cơ sở dữ liệu sinh học là cả một kho tàng dữ liệu khổng lồ, được lưu giữ trong hệ thống rộng lớn các cơ sở dữ liệu, dưới nhiều hình thức và định dạng khác nhau, trong đó chiếm khối lượng lớn và nội dung phong phú nhất là mảng dữ liệu sinh học phân tử và công nghệ sinh học. Quy mô và cấu trúc của từng cơ sở dữ liệu có những đặc điểm riêng, song nhìn chung có thể phân chia theo nội dung thành một số mảng dữ liệu chính lớn sau:
• Dữ liệu về thông tin thông thường (sách, tạp chí, tài liệu thông tin... dạng số hoá), thí dụ: cơ sở dữ liệu về các công trình khoa học đã công bố PUBMED (http://www.ncbi.nlm.nih.gov/PubMed/), cơ sở dữ liệu tập trung về mảng y - dược (http://www.embase.com), cơ sở dữ liệu về mảng nông nghiệp (http://www.nalusda.gov/general_info/agricola/
28
agricola.html), cơ sở dữ liệu tập trung về mảng thông tin về cổ sinh học và động vật hoang dã (http://www.biosis/org), cơ sở dữ liệu tập trung về mảng bệnh học trong nông nghiệp (http://www.cabi.org) ...
• Dữ liệu về phân loại học, thí dụ: cơ sở dữ liệu về phân loại sinh học của NCBI (http://www.ncbi.nlm.nih.gov/taxonomy/), cơ sở dữ liệu về hệ thống thông tin phân loại các giới (http://www.itis.usda.gov/itis/), cơ sở dữ liệu của tổ chức quốc tế về các thông tin chung về thực vật (http://www.iopi.csu.edu.au/iopi/) ... (mảng dữ liệu này rất phong phú về chủng loại, song trong chừng mực nhất định vẫn bị ràng buộc do sự khác biệt tương đối còn tồn tại giữa một vài hệ thống phân loại).
• Dữ liệu về cấu trúc và đặc tính của nucleotide và genom: Đây là một trong hai mảng lớn nhất, đa dạng và phong phú nhất trong kho tàng dữ liệu công nghệ sinh học. Về dữ liệu cấu trúc chuỗi nucleotide, trước hết phải kể đến cơ sở dữ liệu hợp tác liên kết chung giữa EBI, NCBI và DDBJ (khi cần khai thác có thể truy cập vào một trong ba địa chỉ: http://www.ncbi.nlm.nih.gov/Genbank/index.html, . http://www.ebi.ac.uk/embl/databases/, hay http://www.ddbj.nig.ac.jp.
Về dữ liệu genom có thể thí dụ một vài cơ sở dữ liệu lớn như: cơ sở dữ liệu về gen người (OMIM:
http://www3.ncbi.nlm.nih.gov/Omim/ và GDB: http://www.gdb.org), cơ sở dữ liệu về vi khuẩn E. coli
(http://cgsc.biology.yale.edu/top.html và http://www.susi.bio.uni giessen.de/ecdc/ecdc.html), cơ sở dữ liệu về nấm men
(http://www.mips.biochem.mpg.de/proj/yeast/ và http://genome www.stanford.edu/Saccharomyces/)
• Dữ liệu về cấu trúc và đặc tính chuỗi amino axit và protein được xem là một trong hai mảng dữ liệu lớn nhất về công nghệ sinh học. Trong nhóm này phải kể đến các cơ sở dữ liệu lớn như: Protein Information
29
Resources PIR (http://www.nbrf.georgetown.edu), SWISS-PROT (http://www.expasy.ch hay http://www.ebi.ac.uk/swissprot/) TrEMBL (http://www.ebi.ac.uk/trEMBL/),
PROSITE (http://www.expasy.ch/prosite/) , PRINTS
(http://www.bioinf.man.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html). . cơ sở dữ liệu proteomic trong (http://www.genom.ad.jp/kegg/, http://wit.mcs.anl.gov/WIT2/, http://www.ncbi.nlm.nih.gov/COG) ...
• Dữ liệu về enzyme và các đường hướng trao đổi chất, thí dụ ENZYME Databases (http://www.expasy.ch/enzyme/), về đặc tính enzyme BRENDA (http://www.brenda.uni-koeln.de/brenda/), về enzyme và phản ứng enzyme
(http://www.genome.ad.jp/dbget/ligand.html) ...
Mỗi cơ sở dữ liệu có thể định hướng tập trung vào những mảng thông tin riêng. Song tất cả mọi cơ sở dữ liệu đều được xây dựng với tiêu chí đảm bảo dễ dàng truy cập, quản lý, và khai thác cho người khai thác dữ liệu, nhằm hỗ trợ giúp họ dễ dàng tìm kiếm được thông tin mong muốn. Để thoả mãn yêu cầu trên, nhìn chung tất cả các cơ sở dữ liệu đều cung cấp cho khách hàng các chương trình tìm kiếm và kết nối liên thông dữ liệu rất hiệu quả, thí dụ Entrez trong NCBI, SRS trong EBI hay SRS trong DDBJ...
3.3.1. Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ
Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ (National Centre for Biotechnology Informatic - NCBI) được thành lập năm 1988. Đây là một trong số các cơ sở dữ liệu sinh học lớn nhất thế
30
giới hiện nay. Cơ sở NCBI quản lý nguồn thông tin sinh học khổng lồ, với khoảng 25.106 nhóm dữ liệu khác nhau, bao gồm từ thông tin về các công
trình đã công bố, đến dữ liệu về cấu trúc chuỗi DNA, cấu trúc chuỗi amino axit, cấu trúc gen các loài, cấu trúc không gian ba chiều của các cơ chất khác nhau... Nguồn thông tin dữ liệu trong ngân hàng được tổ chức và quản lý theo từng nhóm tin, với sự liên thông kết nối chặt chẽ giữa các nhóm với nhau (hình 3.7). Khi truy cập vào ngân hàng, sử dụng công cụ
tìm kiếm dữ liệu Entrez, người khai thác tin có thể dễ dàng truy cập khai thác các nhóm tin trong cơ sở dữ liệu của NCBI với các đường dẫn siêu liên kết để kết nối liên thông rất thuận tiện và hiệu quả. Sau đây là một số mảng dữ liệu lớn của trung tâm dữ liệu này:
• PubMed: NCBI là một trong số các địa chỉ tin cậy cho các nhà khoa học công bố kết quả nghiên cứu của mình. Mỗi công trình công bố này được định dạng phân loại bằng một giá trị số (MEDLINE Unique Identifier - MUID). NCBI sử dụng mã số này làm mã hiệu cơ sở để cung cấp hàng loạt dịch vụ thông tin kèm theo, thí dụ: thông tin về tác giả, điểm tóm tắt toàn bộ công trình, tóm tắt nội dung chính, đường dẫn đến các công bố khác có liên quan... Do nhu cầu công bố kết quả nghiên cứu nói chung, và khối lượng công trình công bố trong MEDLINE nói riêng, ngày càng tăng nên NCBI đã cung cấp loại hình dịch vụ PubMed. Dịch vụ PubMed sẽ cung cấp cho người khai thác tất cả các công trình khoa học đã công bố trong MEDLINE và các công trình liên quan của cùng tác giả hay các công trình của tác giả khác có cùng chủ đề. Thời gian gần đây, NCBI còn đưa ra dịch vụ PubMed Central, để cung cấp thêm cho người truy cập cả những công trình khoa học đã nằm trong kế hoạch sắp phát hành (do các nhà xuất bản cung cấp để giới thiệu trước, dưới dạng thông tin tóm tắt gửi cho PubMed).
31
• GenBank: Là mảng cơ sở dữ liệu về cấu trúc chuỗi DNA và chuỗi amino axit, với đơn vị cơ sở là các tệp dữ liệu của từng mạch đơn, kèm theo thông tin mô tả về đặc tính của chúng. Các tệp dữ liệu này được tổ chức theo nhóm (Division), rồi được tổ chức theo cấu trúc phân loại
Hình 3.7. Sơ đồ cấu trúc cơ sở dữ liệu NCBI
loài. Tất cả các thông tin liên quan đến chuỗi đều do chính tác giả cung cấp. Cơ sở dữ liệu GenBank đồng thời là sản phẩm hợp tác quốc tế giữa ba trung tâm dữ liệu gen lớn nhất thế giới là: GenBank of NCBI (USA), DNA Data Bank of Japan (DDBJ, Mishima, Japan) và European Molecular Biology Laboratory nucleotide database (EMBL, at EBI, Hinxton, England). Ba cơ sở này thực hiện chế độ kết nối trực
32
tiếp và trao đổi cập nhật thông tin hàng ngày, nên thực chất cả ba cơ sở đều sở hữu tất cả khối lượng thông tin của hai cơ sở kia, và ngược lại, để trở thành cơ sở dữ liệu gen tập trung và lớn nhất thế giới. Về bản chất cấu trúc, cơ sở dữ liệu này gồm hai mảng lớn riêng biệt là: mảng dữ liệu về protein và mảng dữ liệu về nucleotide, trong đó cơ sở dữ liệu về nucleotide được sử dụng làm đường dẫn để truy cập sang cả dữ liệu tương ứng về protein (song chú ý rằng việc thay đổi, sửa chữa hay bổ sung thêm thông tin vào từng tệp chỉ có thể thực hiện được tại cơ sở dữ liệu đăng ký đầu tiên).
• Entrez System: Thông thường, mỗi tệp dữ liệu đều truyền tải hàng loạt thông tin khác nhau, trên cơ sở tổ chức theo nhóm, từng thông tin này được sắp xếp tại các thư mục thích hợp trong kho tàng cơ sở dữ liệu của NCBI. Dịch vụ Entrez ra đời nhằm kết nối liên thông giữa các mảng dữ liệu này, giúp cho người truy cập tiếp cận nhanh và đầy đủ các thông tin tìm kiếm. Như vậy, tự Entrez không phải là một cơ sở dữ liệu, mà khi sử dụng dịch vụ này người khai thác có thể dễ dàng tiếp cận các thông tin liên quan từ nhiều mảng dữ liệu khác nhau, thí dụ: dữ liệu truyền thống từ PubMed, cấu trúc và các thông tin liên quan của chuỗi xoắn kép DNA và chuỗi nucleotide, cấu trúc không gian ba chiều của chuỗi protein... Dịch vụ Entrez bao gồm nhiều mảng dịch vụ nhỏ như: Neighboring (tìm kiếm thông tin có nội dung gần gũi nhau), BLAST (Basic Local Alignment Search Tool), VAST (Vector Alignment Search Tool), Hard Links...
3.3.2. Cơ sở dữ liệu EMBL
Phòng thí nghiệm Sinh học Phân tử Châu Âu (European Molecular Biology Laboratory - EMBL, 1974) là hệ thống liên kết các phòng thí nghiệm sinh học của 17 nước Tây Âu và Israel, trong đó tập trung vào năm trung tâm nghiên cứu lớn ở Heidelberg và Hamburg (CHLB Đức), Grenoble (Pháp), Hinxton (Anh) và Monterotondo (Italia). Với mục tiêu
33
xây dựng, lưu giữ, xử lý cơ sở dữ liệu và cung cấp các dịch vụ thông tin liên quan đến sinh học phân tử và tin-sinh học, Viện Tin-Sinh học Châu Âu (Europian Bioinformatics Institute, trực thuộc EMBL) được thành lập chính thức vào năm 1994. Qua quá trình xây dựng và phát triển cơ sở dữ
liệu của EBI (EBI Databases) hiện đã trở thành một trong ba ngân hàng dữ liệu sinh học lớn nhất trên thế giới.
Cơ sở dữ liệu này được tổ chức và quản lý theo khoảng tám mươi mảng khác nhau, trong đó lớn nhất tập trung vào các mảng: EMBL Nucleotide Sequence Databases, TrEMBL and SWISS-PROT protein sequence databases, Macromolecular Structure Database (EBI-MSD) of 3D co-ordinates of biological macromolecules và RHdb database of radiation hybrid maps. Đồng thời, EBI còn cung cấp hầu hết các chương trình phân tích và xử lý thông tin sinh học như: FASTA (Smith và Waterman, 1981), BLAST (Altschul và đồng nghiệp, 1990), CLUSTALW
(Thompson và đồng nghiệp, 1994) and Smith & Waterman (Smith và Waterman, 1981), DALI (Holm và Sander, 1997) ... Việc quản lý, tìm kiếm và khai thác cơ sở dữ liệu khổng lồ này được thực hiện dễ dàng qua chương trình SRS (Sequence Retrieval System). Sau đây điểm một vài thông tin chính về ba cơ sở dữ liệu lớn của EBI:
• Mảng dữ liệu cấu trúc DNA (EMBL Nucleotide Sequence Database, gọi tắt là EMBL - thành lập năm 1998) hiện đang lưu giữ thông tin về cấu trúc và đặc tính liên quan của khoảng trên hai triệu đoạn chuỗi DNA (với khoảng 2.3 tỉ cặp nucleotide). Đồng thời, như phần trên đã trình bày, EMBL kết nối liên thông chặt chẽ với hai trung tâm dữ liệu DNA lớn khác trên thế giới là GenBank (Mỹ) và DDBJ (Nhật Bản)...
• Mảng dữ liệu cấu trúc Protein (SWISS-PROT và TrEMBL protein sequence database): SWISS-PROT ra đời năm 1986 tại Trường Đại học Tổng hợp Giơnevơ (Thuỵ Sĩ) là một thành viên hợp tác thường xuyên với EBI (từ 1987). Đây là một sơ sở dữ liệu lớn về cấu trúc chuỗi protein và các đặc tính của chúng, cùng với các chương trình xử
34
lý, mô phỏng cấu trúc và đặc tính phân tử protein. Do nhu cầu cung cấp và xử lý thông tin liên quan đến mảng này rất lớn nên, sau đó, EBI đã thiết lập thêm cơ sở dữ liệu TrEMBL, cùng tồn tại song song và kết nối chặt chẽ với SWISS-PROT. TrEMBL cho phép tự động hoàn toàn các dịch vụ lưu giữ, bảo quản và phân tích xử lý thông tin, đảm bảo cung cấp dịch vụ khai thác trực tuyến 24/24 giờ cho người truy cập.
• Mảng dữ liệu cấu trúc các chất phân tử lượng lớn (Macromolecular Structure Database - EBI-MSD), là cơ sở dữ liệu liên quan đến các hợp chất sinh học có phân tử lượng lớn. EBI-MSD chính là sản phẩm của dự án “Macromolecular Structure Database Project” của EBI nhằm hợp tác cùng khai thác thông tin chung với US-RCSB (Research Collaboratory for Structural Bioinformatics, USA, nơi quản lý cơ sở dữ liệu lớn về protein - Protein Data Bank -PDB).
3.3.3. Cơ sở dữ liệu CIB - DDBJ
Cơ sở dữ liệu CIB - DDBJ (Center for Information Biology and DNA Data Bank of Japan) là cơ sở dữ liệu đặt dưới sự quản lý của Trung tâm Thông tin Sinh học, Viện Di truyền Quốc gia Nhật Bản (Japan National Institute of Genetics). CIB-DDBJ là cơ sở dữ liệu công nghệ sinh học quan trọng và là cơ sở dữ liệu DNA duy nhất ở Nhật Bản. Cơ sở dữ liệu này được xây dựng trước hết nhằm phục vụ cho hoạt động khoa học của các nhà sinh học Nhật Bản. Tuy nhiên, do hợp tác và liên kết thông tin với hai trung tâm dữ liệu hàng đầu thế giới NCBI và EBI, nên CIB-DDBJ đã trở thành là một trong ba trung tâm dữ liệu lớn nhất thế giới hiện nay. Cơ sở dữ liệu này cung cấp trực tuyến cho người sử dụng rất nhiều nhóm thông tin khác nhau, bao gồm cả thông tin thường hay truy cập và khai thác hay các chương trình xử lý thông tin, thí dụ: SRS, gententry, FASTA BLAST, S&W, Search SQmatch XML, TXSearch GIB, ClustalW, GTOP LIBRA...
35
Bên cạnh CIB-DDBJ, Viện Di truyền Quốc gia Nhật Bản còn quản lý nhiều mảng dữ liệu khác như: WFCC-MIRCEN (World Data Centre for Microorganisms, www.wdcm.nig.ac.jp), Genetic Resources Databaces SHIGEN (SHared Inform. of GENetic resources, www.shigen.nig.ac.jp) ...
4.
NGHIÊN CỨU CẤU TRÚC CHUỖI DNA VÀ AMINO AXIT
4.1. Cơ sở xây dựng chương trình xử lý dữ liệu
Sự phát triển của sinh học phân tử đã cho phép khẳng định rằng axit nucleic là đơn vị cơ sở vật chất của di truyền và protein là thành phần quan trọng bậc nhất trong mọi cơ thể sống và chúng được cấu thành từ 20 amino axit khác nhau. Trong mọi tế bào sống đều chỉ có năm loại nucleotide và giữa các nucleotide này chỉ khác nhau ở bản chất của các bazơ trong thành phần là Adenine, Guanine, Cytosine và Thymine (hay Uracil).
O
OH P O OH
O O
P O P O OH OH
B
O
H H
H H OH H
O
OH P O OH
O O
P O P O OH OH
B
O
H H
H H OH OH
DezoxyriboNucleotide Axit (DNA) RiboNucleotide Axit (RNA)
O
N
NH
N
NH2 N
Baz¬ purin
N N
NH2
N N
H H Guanine
NH2
N
Baz¬ pirimidin
Adenine H3C
O
O
NH
NH
N
O
N
O
N
O
H HCytosine
Thymine H Uracil
Hình 4.1. Đơn vị cơ sở của mã thông tin di truyền
36
Các nucleotide này liên kết và xắp xếp theo trật tự nhất định để hình thành các đoạn đơn vị DNA mang thông tin di truyền, được gọi là các gen .Sơ đồ nguyên lý cấu trúc DNA được mô tả trong hình 4.2.
Hình 4.2. Nguyên lý cấu trúc xoắn kép DNA
A: Sơ đồ cấu trúc liên kết các nucleotide
B: Liên kết cặp bazơ tương đồng đặc hiệu trên chuỗi
C và D: Mô hình cấu trúc xoắn kép DNA
37
Thành phần mang thông tin di truyền của mọi sinh giới đều có bản chất DNA (chỉ có một số loài virut là RNA). Sự khác biệt giữa các loài chính là do đặc trưng DNA của chúng, ở cấu trúc gen, ở số lượng, hoạt tính và sự tương tác giữa các gen trong quá trình sống. Cấu trúc DNA của sinh giới mang tính ổn định rất cao, do hình thành cấu trúc xoắn kép đặc trưng. Liên kết này là kết quả của sự kết cặp giữa hai bazơ nitơ tương ứng trên hai sợi luôn tuân thủ quy luật của hai cặp bazơ purin – pirimidin là A
T và G-C (hình 4.2).
Nhờ cấu trúc xoắn kép trên nên trong quá trình sinh sản, trật tự cấu trúc DNA được tái bản với độ chính xác cao. Quá trình tái bản DNA có thể mô tả tóm tắt gồm hai giai đoạn sau (xem sơ đồ hình 4.3):
• Giai đoạn khơi mào: Vào đầu giai đoạn sinh tổng hợp, một protein đặc hiệu B đảm nhiệm chức năng nhận biết điểm khởi đầu sao chép sẽ liên kết vào điểm khởi đầu sao chép ori (replication origine). Tiếp theo enzyme topoizomerase sẽ liên kết vào hai phía điểm khởi đầu và đảm nhiệm nhiệm vụ làm giãn xoắn. Trong khi đó, hai phân tử enzyme helicase liên kết vào hai sợi đơn DNA để tách mạch tạo ra chạc ba sao chép [chạc sao chép có trường hợp hình thành đồng thời về cả hai phía của điểm khởi đầu, song cũng có thể chỉ xảy ra theo một phía, và ở tế bào nhân hoàn thiện (eucariot), chuỗi xoắn kép DNA duỗi xoắn tại một số vị trí nhất định tạo thành cùng lúc nhiều chạc sao chép]. Đồng thời, các phân tử protein SSBP (Single Strand Binding Protein) liên kết vào hai sợi đơn để làm phân ly hoàn toàn hai sợi với nhau.
• Giai đoạn tổng hợp kéo dài mạch: Quá trình tổng hợp kéo dài mạch xảy có trình tự và kiểu xúc tác khác nhau trên hai sợi DNA, trong đó một sợi được tổng hợp kéo dài liên tục (sợi dẫn – Leading Strand), còn sợi kia (sợi chậm – Lagging Strand) được tổng hợp theo từng đoạn
38
Okazaki rồi mới nối lại với nhau. Quá trình kéo dài này được xúc tác bởi hệ enzyme DNA-polymerase. Trên sợi dẫn, đầu tiên enzyme primase sẽ gắn vào sợi có đầu tự do 3’ một đoạn mồi RNA. Tiếp theo, phức hợp enzyme DNA-polymerase III sẽ đọc trình tự mạch khuôn và kéo gắn tiếp các nucleotide tiếp lại thành mạch và vào đúng vị trí tương ứng với trình tự chuỗi khuôn theo hướng 5’–3’ (nếu lắp ghép sai, hoạt tính exonuclease sẽ cắt lùi nucleotide này và lắp ghép nucleotide khác tương ứng đúng trở lại). Các nucleotide trước khi tham gia phản ứng được phosphoryl hoá thành dạng hoạt động mang năng lượng.
Hình 4.3. Sơ đồ nguyên lý tái bản bảo toàn DNA
39
Trên sợi chậm, quá trình sao chép xảy ra gián đoạn từng đoạn và phức tạp hơn: đầu tiên, một enzyme primase sẽ gắn lên sợi khuôn, vào phía chạc sao chép, một đoạn mồi RNA (khoảng 10 nucleotide và đoạn mồi cấu trúc tương ứng với cấu trúc trên sợi khuôn). Enzyme DNA-polymerase III sẽ
gắn các nucleotide vào mồi và tổng hợp kéo dài theo hướng ngược lại với chạc sao chép thành từng đoạn DNA ngắn, được gọi tên là các đoạn Okazaki với khoảng 1000-2000 nucleotide, cho đến khi gặp đoạn mồi RNA trước thì dừng lại rồi enzyme này rời ra và tiếp tục tham gia vào tổng hợp đoạn mới. Tiếp theo, enzyme DNA-polymerase I sẽ cắt bỏ đoạn mồi RNA và gắn tiếp các nucleotide mới vào lấp đầy khoảng trống theo hướng 5’-3’. Đoạn DNA ngắn mới này sẽ được nối hai đầu vào đoạn Okazaki hai phía nhờ enzyme ligase để gắn liền mạch sợi sau.
Trong quá trình phiên mã tái bản DNA, trong một số trường hợp có thể xảy ra sự sao chép tổng hợp “nhầm lẫn” một nucleotide không tương thích vào mạch. Sau đó, nhờ enzyme exonuclease, việc sửa chữa sẽ xảy ra. Thông thường việc sửa chữa sẽ thay thế nucleotide lạ để tương thích với trật tự cũ trên sợi khuôn; song vẫn có thể xảy ra khả năng nucleotide trên sợi khuôn bị thay thế để tương ứng với nucleotide trên sợi mới tổng hợp (theo sơ đồ hình 4.4).
Ngoài ra, do nhiều nguyên nhân khác nhau, trong quá trình phiên mã hoặc ngay cả vào thời điểm không xảy ra quá trình sao chép, có thể xảy ra việc đứt đoạn mất một số nucleotide, hay bị chèn thêm vào chuỗi một đoạn nucleotide khác, hoặc xảy ra hiện tượng nối đảo đoạn DNA bị đứt gãy. Tất cả các trường hợp này đều làm thay đổi bản chất trình tự chuỗi xoắn kép DNA ban đầu, nghĩa là gây ra đột biến cấu trúc DNA. Sự biến đổi này, phụ thuộc vào bản chất và vị trí thay thế, có thể không làm thay đổi tính trạng của chúng (đột biến lặn) hoặc làm thay đổi tính trạng ban đầu, hoặc làm xuất hiện tính trạng hoàn toàn mới (đột biến trội).
40
Hình 4.4. Sơ đồ nguyên lý xuất hiện đột biến trong quá trình phiên mã
Protein là thành phần chính và quan trọng bậc nhất của mọi cơ thể sống. Các phân tử protein có cấu trúc phức tạp hơn nhiều so với axit nucleic. Ở dạng mang hoạt tính sinh học trong điều kiện tự nhiên chúng tồn tại dưới dạng cấu trúc không gian ba chiều phức tạp. Về bản chất, phân tử protein là một polymer cấu thành từ 20 amino axit khác nhau như trong hình 4.5.
41
O
O H2N CH C
OH
O
O
O
H2N CH C CH3
OH
CH2 CH2
H2N CH C CH2
OH
H2N CH C CH2
OH
H2N CH C H2C
H2C
OH
AlaninArginin
CH2 NH
C
NH2
O
C
OH
O
C
O
O
C
NH2
NH
Asparagin axit Asparaginic
OH
axit Glutamic O
H2N CH C CH2
OH
NH2
O
O
H2N CH C
OH
H2N CH C CH
OH
N
H2N C CH2 O
CH2
CH C
O
H2N CH2 C OH Glycin
CH2
CH3
CH2
NH
Glutamin
OH
SH
CH3
Phenylalanin Isoleucin Cistein
H3C
CH
CH3
CH2
NH2 CH
C
O
O
H2N CH C CH2
CH2
OH
O
H2N CH C CH2
CH2
OH
O
H2N CH C CH2
OH
O
C OH
Leucin
Lysin
OH
CH2 CH2
S
CH3
HN
O
NH2
Methionin Phenylalanin Prolin O
H2N CH C CH2
OH
H3C
CH
NH2 CH
H3C
CH
NH2 CH
O
H2N CH C
OH
H2N CH C CH2
OH
HN
OH O
C
OH
CH3 O
C
OH
CH2 OH
Tryptophan Threonin Serin Valin TyrosinOH
Hình 4.5. Cấu trúc hoá học của các amino axit
Cơ chế quá trình sinh tổng hợp protein có thể mô tả tóm tắt như sau: Thông tin di truyền mã hoá cho phân tử protein lưu giữ trong cấu trúc chuỗi DNA, đầu tiên trải qua quá trình phiên mã để tổng hợp ra phân tử RNA thông tin mRNA (ở các sinh vật nhân hoàn thiện, quá trình phiên mã không xảy ra liên tục mà đứt quãng do bỏ qua các đoạn không mang mã sinh tổng hợp intron nằm trên sợi DNA). Tiếp theo, phân tử mRNA này sẽ trở thành sợi khuôn cho quá trình dịch mã trên ribosom để tổng hợp nên
42
phân tử protein tương ứng. Song song với quá trình trên, các amino axit tham gia vào quá trình được hoạt hoá và sẽ liên kết với các phân tử RNA vận tải (tRNA) tương ứng. Tiếp theo, các phân tử tRNA sẽ vận chuyển chúng đến ribosom. Với sự nhận biết tương thích của cặp liên kết codon
anticodon (hình 4.6), phân tử tRNA sẽ vận chuyển amino axit này vào đúng vị trí liên kết, được quy định trên trình tự cấu trúc chuỗi mRNA.
Hình 4.6. Sơ đồ nguyên lý quá trình phiên mã và dịch mã tổng hợp protein
Theo cơ chế trên, trình tự cấu trúc chuỗi amino axit được tổng hợp ra tương đồng hoàn toàn với cấu trúc chuỗi khuôn mRNA. Điều đó cho phép rút ra kết luận là vị trí tương đối của các amino axit trên chuỗi được mã hoá trên chính cấu trúc chuỗi DNA đã được sử dụng làm khuôn trong quá trình phiên mã. Đồng thời, như đã trình bày ở phần trên, gen là một đơn vị
chức năng cơ sở của bộ máy di truyền và xác định một tính trạng nhất định. Như vậy, có thể nói thông tin di truyền đuợc mã hoá trong chính cấu trúc của các gen tương ứng. Sinh học hiện đại đã xác định được mỗi bộ ba
43
nucleotide là một đơn vị mã thông tin di truyền. Mối liên hệ giữa các đơn vị mã di truyền với các amino axit hay thông tin di truyền tương ứng được trình bày trong biểu đồ hình 4.7. Trong biểu đồ này, thứ tự bộ ba nucleotide mã hoá cho amino axit tương ứng được đọc từ vòng tròn trong ra vòng tròn bên ngoài và cụm ký tự UAA, UAG, UGA đảm nhiệm vai trò tín hiệu kết thúc chuỗi.
Hình 4.7. Biểu đồ xác định mã di truyền
44
Trình tự chuỗi polypeptide trên được gọi là cấu trúc bậc một của phân tử protein. Ở trạng thái tự nhiên, chuỗi polymer này liên kết với nhau theo kiểu nhất định để hình thành cấu trúc xoắn đặc trưng α và cấu trúc β (α helix và β-sheet – cấu trúc bậc hai). Các chuỗi α và β này cuộn xoắn lại trong không gian theo kiểu trật tự riêng của mỗi dạng protein tạo ra cấu trúc không gian bậc ba và phân tử protein bậc ba tiếp tục cuộn lại trong không gian hình thành cấu trúc bậc bốn. Cấu trúc bậc cao là dạng cấu trúc tự nhiên phổ biến của các phân tử protein và, với phần lớn protein tự
nhiên, khi cấu trúc này bị phá vỡ sẽ kéo theo sự thay đổi lớn hay bị mất hoàn toàn chức năng sinh học của chúng. Sơ đồ nguyên lý dạng cấu trúc cơ sở của phân tử protein được mô tả trong hình 4.8.
Hình 4.8: Mô hình cấu trúc xoắn protein
45
Như đã trình bày ở phần trên, cấu trúc chuỗi xoắn kép DNA, cơ quan mang thông tin di truyền, cấu trúc phân tử protein, quá trình tái bản DNA và quá trình sinh tổng hợp protein xảy ra theo cơ chế đặc thù và logic. Sử dụng các ký tự viết tắt tên các nucleotide và tên các amino axit người ta dễ dàng áp dụng công nghệ thông tin để mô phỏng và mô hình hoá các quá trình ấy, nghĩa là có thể dễ dàng số hoá để mô tả đặc tính tự nhiên của các vật liệu sinh học. Trên cơ sở này, việc nghiên cứu, so sánh, xử lý dữ liệu và thiết kế mô phỏng chương trình nghiên cứu thực nghiệm có thể tiến hành một cách thuận lợi và hiệu quả hơn so với cách thức đã thực hiện theo công nghệ cổ điển.
4.2. Nghiên cứu so sánh cấu trúc chuỗi
So sánh cấu trúc chuỗi là kỹ thuật hay thuật toán để so sánh cấu trúc hai chuỗi (pair-wise alignment) hay so sánh đồng thời nhiều chuỗi với nhau (multiple sequence alignment), bằng cách tìm kiếm xác định các đặc điểm hoặc các thuộc tính riêng giống nhau giữa các chuỗi. Việc so sánh có thể tiến hành theo từng vùng (local alignment) hay thực hiện trên toàn bộ
chuỗi (global alignment). Mô hình so sánh đơn giản nhất có thể mô tả qua sơ đồ hình 4.9.
So s¸nh tæng thÓ c¶ chuçi
L G P S S K Q T G K G S - S R I T D N
L N - Y T K S A G K G A I M R L G D N
So s¸nh côc bé mét ®o¹n chuçi
L G P S S K Q T G K G S - S R I T D N
M N - Y T P S A G K G A I M - L G T N
Hình 4.9. Mô hình hai dạng so sánh chuỗi giản đơn
46
Kỹ thuật so sánh cấu trúc chuỗi được ứng dụng để khám phá thông tin về chức năng, cấu trúc chuỗi và mối quan hệ tiến hoá thể hiện trong sự biến đổi cấu trúc giữa các chuỗi với nhau. Thí dụ: hai chuỗi ADN tương đồng cao với nhau về cấu trúc rất có khả năng cùng có nguồn gốc từ cùng một chuỗi, nghĩa là có quan hệ họ hàng gần gũi về mặt tiến hoá với nhau, và rất nhiều khả năng chúng sẽ có những chức năng tương đồng với nhau, hay hai chuỗi protein đồng nhất cao với nhau, nhiều khả năng sẽ có đặc tính hoá sinh và có cấu trúc không gian tương ứng giống nhau. Từ kết quả
so sánh này, cho phép nhà nghiên cứu có thể căn cứ vào đặc tính đã biết của chuỗi nọ để dự đoán đặc tính của chuỗi kia. Nhờ vậy, cho phép rút ngắn rất lớn khối lượng thực nghiệm kiểm tra các đặc tính trên và làm cơ sở để xây dựng các phương án tổ chức nghiên cứu tiếp theo...
Để tìm hiểu cơ sở thuật toán so sánh chúng ta hãy xem phương pháp phân tích so sánh sử dụng ma trận điểm đơn giản sau đây: Giả sử người phân tích cần so sánh độ tương đồng (hay phân ly) của hai chuỗi với nhau. Đầu tiên người ta thiết lập bảng ô vuông và chép trình tự một chuỗi theo hàng và một chuỗi theo cột dọc vuông góc với nhau. Sau đó, đánh dấu vào tất cả các ô vuông tương ứng cùng với một nucleotide, dùng thước kẻ nối các ô được đánh dấu liền kề nhau theo chiều đường chéo phía góc trên bên trái kẻ xuống để xác định đoạn chuỗi tương đồng theo sơ đồ hình 4.10.
Trong thí dụ so sánh này, có thể thấy dường như tồn tại một khả năng là hai chuỗi có cùng nguồn gốc, với sự sao chép “nhầm lẫn” giữa chúng ở đoạn GGC và một đột biến đứt đoạn tại C theo sơ đồ như sau:
A T C G A G G C T A A T C A C A C T
A T C G A C T AT A A T Ä A C A C T
47
A
T
C
G
A
G
G
C
T
A A
T
C
A
C
A
C
T
A
x
x
x
x
x
x
T
x
x
x
x
C
x
x
x
x
x
G
x
x
x
A
x
x
x
x
x
x
C
x
x
x
x
x
x
T
x
x
x
x
A
x
x
x
x
x
x
T
x
x
x
x
A
x
x
x
x
x
x
A
x
x
x
x
x
x
T
x
x
x
x
A
x
x
x
x
x
x
C
x
x
x
x
x
x
A
x
x
x
x
x
x
C
x
x
x
x
x
x
T
x
x
x
x
Hình 4.10. Sơ đồ ma trận điểm so sánh xác định cấu trúc chuỗi
Với phương án so sánh đồng thời ba chuỗi: ATGT, TGC và CT thì sơ đồ nguyên lý giản đơn nhất có thể mô tả qua hình 4.11.
Hình 4.11. Sơ đồ nguyên lý so sánh cấu trúc ba chuỗi
48
Tuy nhiên, để tìm hiểu và khám phá quy luật về sự tương đồng và/hay phân ly của các sinh giới trong tự nhiên, đòi hỏi phải nghiên cứu trên lượng rất lớn các chuỗi có đặc tính gần gũi nhau. Nghĩa là phải tiến hành phép so sánh đồng thời từng cặp với nhau và tất cả các cặp đối tượng nghiên cứu. Để thực hiện được mục tiêu trên, nhiều nhóm tác giả đã hoàn thiện các chương trình xử lý dữ liệu đa chuỗi (Dinamic Programing for Multiple Sequence Alignment - trên cơ sở ứng dụng nhiều thuật toán khác nhau, thí dụ các thuật toán ma trận PAM, ma trận BLOSUM, ma trận GONNET, thuật toán mô hình hộp đen Markov...). Sau đây là một số địa chỉ (hay đường dẫn siêu liên kết) và đặc điểm chính của một số chương trình phân tích cấu trúc hiện nay:
Diaglin 2.2.1 : http://bibiserv.techfak.uni-bielefeld.de/dialign/ AlignACE3.0 : http://atlas.med.harvard.edu/cgi-bin/alignace.pl Genome Vista : http://pipeline.lbl.gov/cgi-bin/GenomeVista MAVID multiple alignment: http://baboon.math.berkeley.edu/mavid/ Partial Order Alignment : http://www.bioinformatics.ucla.edu/poa/
multiple alignment of genomic sequences using CHAOS and DIALIGN : http://dialign.gobics.de/chaos-dialign-submission
Wavis Alignment visualization tools : http://wavis.img.cas.cz/
The Gibbs Motif Sampler (for DNA) :
http://bayesweb.wadsworth.org/cgi-bin/gibbs.9.pl?data_type=DNA Meta-MEME : http://metameme.sdsc.edu/submit-verify.html
GP Sequence Homology Search :
http://spock.genes.nig.ac.jp/~genome/adseqsch.html
MaliP / Multiple alignment for protein sequences :
http://www.softberry.com/berry.phtml?topic=mali&group=programs&sub group=mali
49
5. CHƯƠNG TRÌNH PHÂN TÍCH CẤU TRÚC CHUỖI CLUSTALW
5.1. Đại cương về chương trình CLUSTAL
Chương trình “CLUSTAL” là dãy các phiên bản phần mềm phân tích kết quả thí nghiệm về cấu trúc chuỗi DNA hay protein, bằng phương pháp so sánh đồng thời giữa tất cả các chuỗi mà người yêu cầu đã lựa chọn cung cấp cho chương trình (về khối lượng, vị trí các đoạn đứt hay đoạn chèn đặc hiệu...). để tìm kiếm phát hiện ra những đặc điểm đồng nhất, đặc điểm gần gũi hay phân ly giữa chúng. Qua đó, người phân tích xác định được quy luật vận động tương đối giữa các chuỗi kiểm tra (vùng bảo thủ, vùng phân ly về cấu trúc giữa chúng), để từ đó dự đoán khai thác đặc tính các vùng này trên chuỗi phân tích. Phiên bản CLUSTAL đầu tiên được viết bằng ngôn ngữ FORTRAN (1989), các phiên bản sau hoàn thiện dần và hai phiên bản cuối “CLUSTALV” và “CLUSTALW” được viết bằng ngôn ngữ TURBO C (hai phiên bản cuối này có thể chạy trên nhiều môi trường khác nhau: UNIX, MAC và PC). Người sử dụng có thể tải miễn phí tất cả các phiên bản chương trình “CLUSTAL” qua internet. Tuy nhiên, hiệu quả và tiện lợi hơn cả là gửi dữ liệu và yêu cầu phân tích đến các ngân hàng dữ liệu lớn để “phân tích và xử lý trực tuyến” (có thể truy cập qua các địa chỉ: http://www.ebi.ac.uk/Tools/clustalw2/; http://npsa pbil.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_clustalw.html hay http://www.ch.embnet.org/software/ClustalW.html; - phiên bản cuối “CLUSTALW” xem Thompson, J. D.; Higgins, D.G. and Gibson, T.J. (1994) - Nucleic acids research, 22(22):4673-4680).
50
Ngày nay, việc xử lý phân tích cấu trúc chuỗi đã trở thành công cụ hết sức quan trọng trong công nghệ sinh học. Thí dụ kết quả so sánh cấu trúc chuỗi nucleotide cho phép chỉ ra các vùng bảo toàn và vùng phân ly của chuỗi kiểm tra. Trên cơ sở đó, nhà sinh học có thể dự đoán được đặc tính chuỗi, hoạch định các thực nghiệm để kiểm tra lại các đặc tính của chuỗi, hoặc tìm kiếm phương án tác động nhằm làm biến đổi cấu trúc chuỗi, hay từ đó dự đoán được cấu trúc và đặc tính của các chuooix nucleotide mới (bao gồm cả các sản phẩm nhân tạo mới được tạo ra mang các đặc tính mong muốn). Việc so sánh có thể tiến hành theo phương án toàn bộ (global alignment) hay từng đoạn (local alignment), so sánh tổng hợp với tất cả các chuỗi đã lựa chọn hay so sánh từng cặp chuỗi riêng rẽ
với nhau... Giao diện trực tuyến chương trình ClustalW có dạng như trong hình 5.1.
Hình 5.1. Giao diện chương trình ClustalW trực tuyến
(http://www.ebi.ac.uk/Tools/clustalw2/)
51
5.2. . Sử dụng chương trình CLUSTALW trực tuyến
Để phân tích quy luật vận động tương đối giữa các chuỗi bằng chương trình CLUSTALW trực tuyến, đầu tiên người phân tích phải kết nối internet để hiển thị giao diện chương trình trực tuyến tại các cơ sở dữ liệu tương ứng (hoặc có thể tải chương trình về cài đặt và xử lý tại chỗ). Toàn bộ dữ liệu của các chuỗi này phải được viết theo cùng một trong các định dạng ngôn ngữ sau: FASTA (Pearson), NBRF/PIR, EMBL/UniProt/Swiss Prot, GDE, ALN/CLUSTALW, GCG/ MSF và GCG9/RSF (được liệt kê trong mục supported format trên giao diện chương trình - Thường các chương trình tích hợp sẵn trong thiết bị phân tích hiện đại hay dữ liệu lưu trữ trong các ngân hàng dữ liệu trực tuyến đều đã chuyển kết quả định dạng thành một trong các ngôn ngữ trên). Chương trình xử lý sẽ tự động nhận dạng các dạng tệp trên và phân biệt chuỗi DNA/RNA hay chuỗi amino axit.
Giả sử người phân tích muốn tìm kiếm quy luật vận động tương đối giữa 9 chuỗi, được lựa chọn theo nhóm đặc tính từ trong ngân hàng dữ liệu (xem kết quả tìm kiếm, chương 9), với các mã hiệu của chuỗi như sau:
BG147728 BE848
BF056441
719
AF186109 AF186110
BF022813 AF310
722
AF362886
BF452255 AF362887 AF087679
BG089808 BI817778
Các chuỗi này được tải về từ ngân hàng dữ liệu, được lựa chọn sau khi đã phân tích kỹ lưỡng về đặc tính tương đồng về mặt sinh học, rồi chép tuần tự vào thành một tệp chung (Yêu cầu bắt buộc của các chuỗi là phải cùng viết trên một ngôn ngữ và không cần phân biệt thứ tự các chuỗi được chép). Thí dụ, theo ngôn ngữ FASTA mỗi chuỗi gồm hai phần: dòng thông tin đầu (gồm 4 thông số, phân cách bằng dấu “;” là: ký hiệu khởi
52
đầu “>”, ký mã hiệu chuỗi, tên chuỗi và mô tả tóm tắt đặc tính chuỗi) và phần sau là thông tin trình tự chuỗi. Tệp dữ liệu chung có dạng như sau:
>embl:BF056441 BF056441; 7k05a04.x1 NCI_CGAP_GC6 Homo sapiens cDNA clone IMAGE:3443238 3' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE ;, mRNA sequence. acagttgcaagaatctaaagtgtggattttattccattgcacaatttgctagtgtatttc ctgggtagtgtggtgctgaataaataggaataaatgctacttaaggaaaaaataagagag ctgaaaaagctggtgccatttgaaaaaaaaaagggaaggaatgagatttaactggtgctc aaagcttctccgatacaaaatatttggtcatgtattcataatttgcttgacatttccagc aaagcgaagatggcaataacaaaaggaacttcttacaagagaagagaaagacccacggag ctccagagtttctgttggaacaagactcttctgttttgcttatatacagttaagttcgtt tagtgtctgatccagtgtctgatgtaagcccacgttctcttctttggcctgggcaagttt ctcttccaggtcatcaattgtcttttccagttttgcaaccgttctctctgcaaattcagc acgggtctcagcctctttcagtttgtcagacagaagtttaatttcttcttcatatttgtc ctccttttcagaatacttttcagatgcagcctccagagatttcagattgtagttacaatt ctgagttcttctccaggtcaccacattttattcagacacctccgcacgcttctctgccct ctcagctaacccttc
>embl:BE848719 BE848719; uw40c07.y1 Soares_thymus_2NbMT Mus musculus cDNA clone IMAGE:3419148 5' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE ;, mRNA sequence. tgttaccaatctgcttggcatttcctgcaaggtggaaacctggtaataagcggaacttct tacaaaagaggaagacagggcacactctctggagtggagttggtgttaaaacagtactct tctggtttagtttatatacagttaagttcgtttagtgtctggtccagtgtctgatgtaag cccacattctcttctttggcctgggcaagtttttcttccaggtcatcgattgtcttctcc agtttagaaactgtcctttctgcaaactcagctcgggtctcagcctccttcagcttgtca gacagaagcttgatttcttcttcatatttatcctccttttcagaatacttttcagaagca gcctccagtgatttcagattgttagttacattcttgagctcttcttccaggtcaccacac tttagttcagatacctccgccctctcctctgctctcttcagctcaccctccaggatgacc aacttacgagcaacctcctcatacttgcggtcggctacgtcagtgatgtgcttggctgct ttgagctgcatctccaggatctacatcttttgctcatctttcatggcttcgttctctatt accttcatgcctctctcactctcatcagcagccctctctgcctctttcagattctgcaag gctgtggccagctgcttctgaccctgtccaattccttc
>embl:BF022813 BF022813; uw40c07.x1 Soares_thymus_2NbMT Mus musculus cDNA clone IMAGE:3419148 3' similar to SW:TPM4_RAT P09495 TROPOMYOSIN 4, EMBRYONIC FIBROBLAST ISOFORM ;, mRNA sequence. ccggatcccagcagaacgattgagctatggccggcctcaactcactggaggcagtgaagc gcaagatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgcaaggcctgc agcgcgaactggatggcgagcgcgagcggcgcgagaaagctgaaggagatgcagccgctc tcaaccgccgcatccaactgctggaggaggaactggaccgggctcaggagcagctggcca cagccctgcagaatctggaagaggcagagaaggctgctgatgagagtgagagaggcatga aggtaatagagaaccgagccatgaaagatgaggaaaagatggagatcctggagatgcagc tcaaagaagccaagcacatcactgacgaagccgaccgcaagtttgaggaggttgctcgt >embl:BF452255 BF452255; uz86d11.y1 NCI_CGAP_Lu29 Mus musculus cDNA clone IMAGE:3675957 5' similar to SW:TPM4_RAT P09495 TROPOMYOSIN 4, EMBRYONIC FIBROBLAST ISOFORM ;, mRNA sequence. gagcccagcagaacgattgagctatggccggcctcaactcactggaggcagtgaagcgca agatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgcaaggcctgcagc gcgaactggatggcgagcgcgagcggcgcgagaaagctgaaggagatgcagccgctctca accgccgcatccaactgctggaggaggaactggaccgggctcaggagcagctggccacag ccctgcagaatctggaagaggcagagaaggctgctgatgagagtgagagaggcatgaagg
53
taatagagaaccgagccatgaaagatgaggaaaagatggagatcctggagatgcagctca aagaagccaagcacatcactgacgaagccgaccgcaagtantgagaggttgctcgtaagt tggtcatcctggagggtgagctgaagagagcagaggagagggcgaggtatctgaactaaa gttggtgacctggagaagagctcaagaatgtaactaac
>embl:BG089808 BG089808; mab82b11.x1 NCI_CGAP_BC3 Mus musculus cDNA clone IMAGE:3976676 3' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE ;, mRNA sequence. agctgtcgccggagcccagcagaacgagtgagctatggccggcctcaactcactggaggc agtgaagcgcaagatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgca aggcctgcagcgcgaactggatggcgagcgcgagcggcgcgagaaagctgaaggagatgc agccgctctcaaccgccgcatccaactgctggaggaggaactggaccgggctcaggagca gctggccacagccctgcagaatctggaagaggcagagaaggctgctgatgagagtgagag acgcatgaaggtaatagagaaccgagccatgaaagatgaggaaaagatggagatcctgga gatgcagctcagagaagccaagcacatcactgatgaagccgaccgcaagtatgatgaggt tgctcgtaagttggtcatcctggagggtgagctgaagagagcagatgagcgggcggaggt atctgaactaaagtgtggtgacctgtaataagagctcatgaatgtaactaacaatctgaa atgactggaggctgtatttgagaagtattctgaataggaggattagtatgaagaagaaga taagcttatgcctgataagctgaaggtaggtggaaaccagtctggatttgcagacaga >embl:BG147728 BG147728; mab53f06.x1 Soares_NMEBA_branchial_arch Mus musculus cDNA clone IMAGE:3974147 3' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE ;, mRNA sequence. caactcactggaggcagtgaagcgcaagatccaggccctgcagcagcaggcagacgacgc anaggatcgcgcgcaaggcctgcagcgcgaactggatggcgagctctagcggcgcgagaa agctgagggagaggggggcgctctcaaccgccgcatccaactgctggaggaggaactgga ccgggctcatgagcagctggccacagccctgcagaatctggaagaggcagagaaggctgc tgatgagagtgagagaggcatgaaggtaatagagaaccgagccatgaaagatgaggaaaa gatggagatcctggagatgcagctcaaagaagccaagcacatcactgatgaagccgaccg caagtatgaggaggttgctcgtaagttggtcatcctggagggtgagctgaagagagcata ggagcgggcggaggtatctgaactaaagtgtggtgaccctgaagaagagctcaagaatgt aactaacaatctgaaatcactggaggctgcttctgaaaagtattctgaaaaggag >embl:BI817778 BI817778; G3-F20 Axolotl Lambda Zap Library Ambystoma mexicanum cDNA similar to Homo sapiens
gb|AAG17014.1|AF186109_1 (2.0e-40), TPM4-ALK fusion oncoprotein type 2, mRNA sequence.
ccggggtaccctaagccttctcggatccgagactcttcttcccgttgaggcccccccccc gccccccagcagggaagatgtcgggtggcagttccatcgatgcggtgaagaagaagatcc agagccttcagcaggtggcggacgaggccgaagagcgggccgagatcctgcagagggagg tggacgccgagaggcagtgcagggagcgggccgaggcagacgtgggatcgctcaaccgcc gcatccagctggtagaggaggagctggaccgtgcccaggagcgccttgccactgccctgc tgaagttggaggaggcggagaaagctgcagacgagagtgaacgaggcatgaaggtcattg aaaaccgagccaccaaggacgaggagaagatggagatccaggagatgcagttgaaagagg ccaaacacatagcagaggaggccgaccgcaaa
>embl:AF186109 AF186109; Homo sapiens TPM4-ALK fusion oncoprotein type 2 (TPM4-ALK fusion) mRNA, partial cds.
gccatggccggcctcaactccctggaggcggtgaaacgcaagatccaggccctgcagcag caggcggacgaggcggaagaccgcgcgcagggcctgcagcgggagctggacggcgagcgc gagcggcgcgagaaagctgaaggtgatgtggccgccctcaaccgacgcatccagctcgtt gaggaggagttggacagggctcaggaacgactggccacggccctgcagaagctggaggag gcagaaaaagctgcagatgagagtgagagaggaatgaaggtgatagaaaaccgggccatg aaggatgaggagaagatggagattcaggagatgcagctcaaagaggccaagcacattgcg gaagaggctgaccgcaaatacgaggaggtagctcgtaagctggtcatcctggagggtgag ctggagagggcagaggagcgtgcggaggtgtctgaactaaaatgtggtgacctggaagaa gaactcaagaatgttactaacaatctgaaatctctggaggctgcatctgaaaagtattct
54
gaaaaggaggacaaatatgaagaagaaattaaacttctgtctgacaaactgaaagaggct gagacccgtgctgaatttgcagagagaacggttgcaaaactggaaaagacaattgatgac ctggaagtgtaccgccggaagcaccaggagctgcaagccatgcagatggagctgca >embl:AF186110 AF186110; Homo sapiens TPM4-ALK fusion oncoprotein type 1 (TPM4-ALK fusion) mRNA, partial cds.
ctctcagccaggcggattgaaggatggaattccaacgaggctcccccgcctcgtcccacc ttggctgaaggtgatgtggccgccctcaaccgacgcatccagctcgttgaggaggagttg gacagggctcaggaacgactggccacggccctgcagaagctggaggaggcagaaaaagct gcagatgagagtgagagaggaatgaaggtgatagaaaaccgggccatgaaggatgaggag aagatggagattcaggagatgcagctcaaagaggccaagcacattgcggaagaggctgac cgcaaatacgaggaggtagctcgtaagctggtcatcctggagggtgagctggagagggca gaggagcgtgcggaggtgtctgaactaaaatgtggtgacctggaagaagaactcaagaat gttactaacaatctgaaatctctggaggctgcatctgaaaagtattctgaaaaggaggac aaatatgaagaagaaattaaacttctgtctgacaaactgaaagaggctgagacccgtgct gaatttgcagagagaacggttgcaaaactggaaaagacaattgatgacctggaagtgtac cgccggaagcaccaggagctgcaagccatgcagatggagctgcagagccctgagtacaag ctgagcaagctccgcacctcgaccatcatgaccgactacaaccccaactactgctttgct ggcaagacctcctccatcagtgacctgaaggaggtgccgcggaaaaacatcaccctcatt cggggtctgggccatggcgcctttggggaggtgtatgaaggccaggtgtccggaatgccc aacgacccaagccccctgcaagtggctgtgaagacgctgcctg
>embl:AF310722 AF310722; Homo sapiens tropomyosin 4-anaplastic lymphoma kinase fusion protein (TPM4-ALK) mRNA, partial cds. cgcgccatggccggcctcaactccctggaggcggtgaaacgcaagatccaggccctgcag cagcaggcggacgaggcggaagaccgcgcgcagggcctgcagcgggagctggacggcgag cgcgagcggcgcgagaaagctgaaggtgatgtggccgccctcaaccgacgcatccagctc gttgaggaggagttggacagggctcaggaacgactggccacggccctgcagaagctggag gaggcagaaaaagctgcagatgagagtgagagaggaatgaaggtgatagaaaaccgggcc atgaaggatgaggagaagatggagattcaggagatgcagctcaaagaggccaagcacatt gcggaagaggctgaccgcaaatacgaggaggtagctcgtaagctggtcatcctggagggt gagctggagagggcagaggagcgtgcggaggtgtctgaactaaaatgtggtgacctggaa gaagaactcaagaatgttactaacaatctgaaatctctggaggctgcatctgaaaagtat tctgaaaaggaggacaaatatgaagaagaaattaaacttctgtctgacaaactgaaagag gctgagacccgtgctgaatttgcagagagaacggttgcaaaactggaaaagacaattgat gacctggaagtgtaccgccggaagcaccaggagctgcaagccatgcagatggagctgcag agccctgagtacaagctgagcaagctccgcacctcgaccatcatgaccgactacaacccc aactactgctttgctggcaagacctcctccatcagtgacctgaaggaggtgccgcggaaa aacatcaccctcattcggggtctgggccatggcgcctttggggaggtgtatgaaggccag gtgtccggaatgcccaacgacccaagccccctgcaagtggctgtgaagacgctgcctgaa gtgtgc
>embl:AF362886 AF362886; Homo sapiens tropomyosin 4-anaplastic lymphoma kinase fusion protein major isoform mRNA, partial cds. ctggcagagtcccgttgccgagagatggatgagcagattagactgatggaccagaacctg aagtgtctgagtgctgctgaagaaaagtactctcaaaaagaagataaatatgaggaagaa atcaagattcttactgataaactcaaggaggcagagacccgtgctgaatttgcagagaga acggttgcaaaactggaaaagacaattgatgacctggaagtgtaccgccggaagcaccag gagctgcaagccatgcagatggagctgcagagccctgagtacaagctgagcaagctccgc acctcgac
>embl:AF362887 AF362887; Homo sapiens tropomyosin 4-anaplastic lymphoma kinase fusion protein minor isoform mRNA, partial cds. cgagaagttgagggagaaaggcgggcccgggaacaggctgaggctgaggtggcctccttg aaccgtaggatccagctggttgaagaagagctggaccgtgctcaggagcgtgcggaggtg tctgaactaaaatgtggtgacctggaagaagaactcaagaatgttactaacaatctgaaa tctctggaggctgcatctgaaaagtattctgaaaaggaggacaaatatgaagaagaaatt
55
aaacttctgtctgacaaactgaaagaggctgagacccgtgctgaatttgcagagagaacg gttgcaaaactggaaaagacaattgatgacctggaagtgtacctccggaagcaccaagag ctgcaagccatgcagatggagctgcagagccctgagtacaagctgagcaagctccgcacc ctcgac
>embl:AF087679 AF087679; Sus scrofa tropomyosin 4 (TPM4) mRNA, complete cds.
atggccggcctcaactccctggaggcggtgaaacgcaagatccaggccctgcagcagcag gcggacgaggcagaggatcgcgcgcagggcctgcagcgggagctggacggcgagcgcgag cggcgggagaaagccgaaggggatgtagcagctctcaatcggcgcatccaactcgttgag gaggagttggacagggctcaggaacgactggccacagccctgcagaagcttgaggaggca gaaaaggctgcagatgagagcgagagaggaatgaaggtgatagaaaaccgggccatgaaa gatgaggagaagatggagattcaggagatgcagctcaaagaggccaagcacattgccgag gaggccgaccgcaaatacgaggaggtagctcgtaagttggtcatcctggagggcgagctg gagagggcagaggagcgtgccgaggtgtctgaactaaaatgtggtgacctggaagaagaa ctcaagaatgtcaccaacaacctgaagtcgctagaggctgcatctgaaaagtattctgaa aaggaggataaatatgaagaagagattaaacttctgtctgacaaactgaaagaggctgag acccgtgctgaatttgcagagagaacagttgcaaaactggaaaagaccatcgatgacctg gaagaaaaacttgcccaggccaaagaagagaacgtgggcttacatcagacactggatcag acactaaacgaactaaactgtatataaccaaaacagaagagtctcgttccatcagaaact ccagagctacgtgtttttctcttctcttgtaagaagtttcttttgttattgcctctttgc tttgctggaaatg
Sau khi chép xong, copy và chèn toàn bộ tệp dữ liệu chung trên vào ô nhập dữ liệu (Enter or Paste a set of sequences in any supported format). Các tệp trên cũng có thể được chép tuần tự trực itếp vào cửa sổ giao diện chương trình, hay chỉ đường dẫn đến tệp dữ liệu (sử dụng lệnh Uploade a file). Các bước tiếp theo là điền địa chỉ E-Mail và đặt các thông số cho chế
độ xử lý vào các cửa sổ tương ứng trên giao diện (hoặc cũng có thể sử dụng ngay chế độ mặc định của chương trình); rồi nhấn lệnh chuyển dữ liệu đi xử lý trực tuyến (run). Sau khoảng thời gian nhất định, chương trình xử lý dữ liệu trực tuyến sẽ phản hồi lại kết quả xử lý với dạng giao diện như hình 5.2.
Trong giao diện kết quả hiển thị, cần chú ý đến bốn tệp dữ liệu: *.input; *.output; *. aln và tệp *.dnd. Các tệp tin kết quả này chỉ được lưu trong đệm máy chủ sau một khoảng thời gian nhất định rồi sẽ bị xoá đi, phụ thuộc vào khả năng cung cấp của ngân hàng dữ liệu đó. Vì vậy, khi nhận được thông báo kết quả xử lý, thường người ta phải tải các tệp này về
máy mình để lưu giữ. Trong ba tệp dữ liệu kết quả trên, tệp dữ liệu kết quả so sánh dạng ký tự được biểu diễn dưới dạng đuôi ‘*.aln’ và có cấu
56
trúc như trong các trang tiếp theo (cùng với dòng kết quả tổng hợp dưới cùng, gồm các ký tự: “*” biểu diễn vị trí đồng nhất hoàn toàn giữa tất cả các chuỗi, ký hiệu “:” biểu diễn vị trí có sự sai lệch nhất định và ký hiệu “.” biểu diễn vị trí có sự sai lệch lớn hơn giữa các chuỗi với nhau).
Hình 5.2. Giao diện thông báo kết quả phân tích của ClustalW
Để nhận diện nhanh đặc điểm vận động của các vùng cấu trúc trên nhóm chuỗi xử lý, có thể nhấn vào ô cửa sổ JAVAVIEW trên giao diện thông báo kết quả (hình 5.2). Sau lệnh trên, giao diện chương trình sẽ hiển thị đặc tính quy luật vận động tương đối trong nhóm chuỗi so sánh bằng ô cái với 4 màu sắc khác nhau (với các dấu * về mức độ tương đồng phía dưới cột chuỗi), theo mức độ tương đồng. trong đó vùng bảo thủ cấu trúc sẽ hiển thị bằng ký tự màu đậm và vùng phân ly cấu trúc sẽ gồm chủ yếu các đoạn chuỗi với nét gạch đứt đoạn trống hay không có màu; vị trí tương ứng của các vùng trên từng chuỗi được xác định qua vị trí tương ứng của nucleotide cuối dòng phía bên phải.
57
CLUSTAL W (1.82) multiple sequence alignment
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
----------------------------------------------
embl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
----------------------------------------------
embl_AF186110
CGCGCCATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGAembl_AF310722
---GCCATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGAembl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
----------------------------------------------
embl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
----------------------------------------------
embl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
---------------CTCTCAGCCAGGCGGATTGAAGGATGGAATTembl_AF186110
CAGCAGGCGGACGAGGCGGAAGACCGCGCGCAGGGCCTGCAGCGGGembl_AF310722
CAGCAGGCGGACGAGGCGGAAGACCGCGCGCAGGGCCTGCAGCGGGembl_AF186109
----------------------------------------------
embl_BI817778
-----------------------------ACAGTTGCAAGAATCTAembl_BF056441
----------------------------------------------
embl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
----------------------------------------------
embl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
CCGCCTCGTCCCACCTTGGCTGAAGGTGATGTGGCCGCCCTCAACCembl_AF186110
CGCGAGCGGCGCGAGAAAGCTGAAGGTGATGTGGCCGCCCTCAACCembl_AF310722
CGCGAGCGGCGCGAGAAAGCTGAAGGTGATGTGGCCGCCCTCAACCembl_AF186109
----------------------------------------------
embl_BI817778
TTCCATTGCACAATTTGCTAGTGTATTTCCTGGGTAGTGTGGTGCTembl_BF056441
----------------------------------------------
embl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
----------------------------------------------
embl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCembl_AF186110
GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCembl_AF310722
GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCembl_AF186109
-------------------------------------------CCGembl_BI817778
AAATGCTACTTAAGGAAAAAATAAGAGAGCTGAAAAAGCTGGTGCCembl_BF056441
----------------------------------------------
embl_BE848719
----------------------------------CCGGATCCCAGCembl_BF022813
-------------------------------------GAGCCCAGCembl_BF452255
--------------------------AGCTGTCGCCGGAGCCCAGCembl_BG089808
----------------------------------------------
embl_BG147728
----------------------------------------------
embl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGAembl_AF186110
GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGAembl_AF310722
GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGAembl_AF186109
TTCTCGGATCCGAGACTCTTCTTCCCGTTGAGGCCCCCCCCCCGCCembl_BI817778
AGGGAAGGAATGAGATTTAACTGGTGCTCAAAGCTTCTCCGATACAembl_BF056441
----------------------------------------------
embl_BE848719
ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGembl_BF022813
ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGembl_BF452255
ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGembl_BG089808
-----------CAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGembl_BG147728
ATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGATCCAGGembl_AF087679
----------------------------------------------
embl_AF362886
---------------------------------CGAGAAGTTGAGGembl_AF362887
ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGembl_AF186110
ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGembl_AF310722
ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGembl_AF186109
ATGTCGGGTGGCAGTTCCATCGATGCGGTGAAGAAGAAGATCCAGAembl_BI817778
GTATTCATAATTTGCTTGACATTTCCAGCAAAGCGAAGATGGCAATembl_BF056441
-TGTTACCAATCTGCTTGGCATTTCCTGCAAGGTGGAAACC-TGGTembl_BE848719
GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGembl_BF022813
GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGembl_BF452255
GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGembl_BG089808
GCAGACGACGCANAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGembl_BG147728
GCGGACGAGGCAGAGGATCGCGCGCAGGGCCTGCAGCGGGAGCTGGembl_AF087679
----------------------------------------------
embl_AF362886
CGGGAACAGGCTGAGGCTGAGGTGGCCTCCTTGAACCGTAGGATCCembl_AF362887
GCGGAAGAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGembl_AF186110
GCGGAAGAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGembl_AF310722
GCGGAAGAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGembl_AF186109
GCGGACGAGGCCGAAGAGCGGGCCGAGATCCTGCAGAGGGAGGTGGembl_BI817778
CTTACAAGAGAAGAGAAAGACCCACGGAGCTC----CA-GAGTTTCembl_BF056441
CTTACAAAAGAGGAAGACAGGGCACACTCTCTGGAGTG-GAGTTGGembl_BE848719
CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCAembl_BF022813
CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCAembl_BF452255
CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCAembl_BG089808
CGGCGCGAGAAAGCTGAGGGAGAGGGGGGCGCTCTCAACCGCCGCAembl_BG147728
CGGCGGGAGAAAGCCGAAGGGGATGTAGCAGCTCTCAATCGGCGCAembl_AF087679
------------------------------CTGGCAGAGTCCCGTTembl_AF362886
GAGCTGGACCGTGCTCAGGAGCGTGCGGAGGTGTCTGAACTAAAATembl_AF362887
GAGCTGGAGAGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATembl_AF186110
GAGCTGGAGAGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATembl_AF310722
GAGCTGGAGAGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATembl_AF186109
TGCAGGGAGCGGGCCGAGGCAGACGTGGGATCGCTCAACCGCCGCAembl_BI817778
TCTTCTGTTTT-GCTTATATACAGTTAAGTTCGTTTAGTGTCTG-Aembl_BF056441
TCTTCTGGTTTAGTTTATATACAGTTAAGTTCGTTTAGTGTCTG-Gembl_BE848719
GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCCACAGCCCTGCAGA
embl_BF022813
GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCCACAGCCCTGCAGAembl_BF452255
GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCCACAGCCCTGCAGAembl_BG089808
GAGGAACTGGACCGGGCTCATGAGCAGCTGGCCACAGCCCTGCAGAembl_BG147728
GAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACAGCCCTGCAGAembl_AF087679
GAGCAGATTAG-----------ACTGATGGACCAGAACC-TGAAGTembl_AF362886
GAAGAACTCAA-----------GAATGTTACTAACAATC-TGAAATembl_AF362887
GAAGAACTCAA-----------GAATGTTACTAACAATC-TGAAATembl_AF186110
GAAGAACTCAA-----------GAATGTTACTAACAATC-TGAAATembl_AF310722
GAAGAACTCAA-----------GAATGTTACTAACAATC-TGAAATembl_AF186109
GAGGAGCTGGACCGTGCCCAGGAGCGCCTTGCCACTGCCCTGCTGAembl_BI817778
TAAGCCCACGTTCTCTTCTTTGGCCTGGGCAAGTTTCTCTTCCAGGembl_BF056441
TAAGCCCACATTCTCTTCTTTGGCCTGGGCAAGTTTTTCTTCCAGGembl_BE848719
* *
*
GA-GAAGGCTGCTGATGAGAGTGAGAGAGGCATGAAGGTAATAGAGembl_BF022813
GA-GAAGGCTGCTGATGAGAGTGAGAGAGGCATGAAGGTAATAGAGembl_BF452255
GA-GAAGGCTGCTGATGAGAGTGAGAGACGCATGAAGGTAATAGAGembl_BG089808
GA-GAAGGCTGCTGATGAGAGTGAGAGAGGCATGAAGGTAATAGAGembl_BG147728
GA-AAAGGCTGCAGATGAGAGCGAGAGAGGAATGAAGGTGATAGAAembl_AF087679
GAAGAAAAGTACTCTCAAAAAGAAGATAAATATGAGGAAGAAATCAembl_AF362886
TCTGAAAAGTATTCTGAAAAGGAGGACAAATATGAAGAAGAAATTAembl_AF362887
TCTGAAAAGTATTCTGAAAAGGAGGACAAATATGAAGAAGAAATTAembl_AF186110
TCTGAAAAGTATTCTGAAAAGGAGGACAAATATGAAGAAGAAATTAembl_AF310722
TCTGAAAAGTATTCTGAAAAGGAGGACAAATATGAAGAAGAAATTAembl_AF186109
GA-GAAAGCTGCAGACGAGAGTGAACGAGGCATGAAGGTCATTGAAembl_BI817778
TTCCAGTTTTGCAACCGTTCTCTCTGCAAAT-TCAGCACGGGTCTCembl_BF056441
CTCCAGTTTAGAAACTGTCCTTTCTGCAAAC-TCAGCTCGGGTCTCembl_BE848719
* * *
*
AGATGAGGAAAAGATGGAGATCCTGGAGATGCAGCT-CAAAGAAGCembl_BF022813
AGATGAGGAAAAGATGGAGATCCTGGAGATGCAGCT-CAAAGAAGCembl_BF452255
AGATGAGGAAAAGATGGAGATCCTGGAGATGCAGCT-CAGAGAAGCembl_BG089808
AGATGAGGAAAAGATGGAGATCCTGGAGATGCAGCT-CAAAGAAGCembl_BG147728
AGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCT-CAAAGAGGCembl_AF087679
AAACT-CAAGGAGGCAGAGACCC--GTGCTGAATTTGCAGAGAGAAembl_AF362886
AAACT-GAAAGAGGCTGAGACCC--GTGCTGAATTTGCAGAGAGAAembl_AF362887
AAACT-GAAAGAGGCTGAGACCC--GTGCTGAATTTGCAGAGAGAAembl_AF186110
AAACT-GAAAGAGGCTGAGACCC--GTGCTGAATTTGCAGAGAGAAembl_AF310722
AAACT-GAAAGAGGCTGAGACCC--GTGCTGAATTTGCAGAGAGAAembl_AF186109
GGACGAGGAGAAGATGGAGATCCAGGAGATGCAGTT-GAAAGAGGCembl_BI817778
TGTCAGACAGAAGTTTAATTTCTTCTTCATATTTGTCCTCCTTTTCembl_BF056441
TGTCAGACAGAAGCTTGATTTCTTCTTCATATTTATCCTCCTTTTCembl_BE848719
* *
*
** *
ACGAAGCCGACCGCAAGTTTGAGGAGGTTGCTCGT-----------embl_BF022813
ACGAAGCCGACCGCAAGTANTGAGAGGTTGCTCGTAAGTTGGTCATembl_BF452255
ATGAAGCCGACCGCAAGTATGATGAGGTTGCTCGTAAGTTGGTCATembl_BG089808
ATGAAGCCGACCGCAAGTATGAGGAGGTTGCTCGTAAGTTGGTCATembl_BG147728
AGGAGGCCGACCGCAAATACGAGGAGGTAGCTCGTAAGTTGGTCATembl_AF087679
GAAAAGACAATTGATGACCTGGAAGTGTACCGCCGGAAGCACCAGGembl_AF362886
GAAAAGACAATTGATGACCTGGAAGTGTACCTCCGGAAGCACCAAGembl_AF362887
GAAAAGACAATTGATGACCTGGAAGTGTACCGCCGGAAGCACCAGGembl_AF186110
GAAAAGACAATTGATGACCTGGAAGTGTACCGCCGGAAGCACCAGGembl_AF310722
GAAAAGACAATTGATGACCTGGAAGTGTACCGCCGGAAGCACCAGGembl_AF186109
AGGAGGCCGACCGCAAA-----------------------------embl_BI817778
ATGCAGCCTCCAGAGATTTCAGATTGT-AGTTACAATTCTGAGTTCembl_BF056441
AAGCAGCCTCCAGTGATTTCAGATTGTTAGTTACATTCTTGAGCTCembl_BE848719
* * *
----------------------------------------------
embl_BF022813
TGAAGAGAGCAGAGGAGAGGGCG-AGGTATCTGAACTAAAGT-TGGembl_BF452255
TGAAGAGAGCAGATGAGCGGGCGGAGGTATCTGAACTAAAGTGTGGembl_BG089808
TGAAGAGAGCATAGGAGCGGGCGGAGGTATCTGAACTAAAGTGTGGembl_BG147728
TGGAGAGGGCAGAGGAGCGTGCCGAGGTGTCTGAACTAAAATGTGGembl_AF087679
CAGATGGAGCTGCAGAGCCCTGAGTACAAGCTGAGC--AAGCTCCGembl_AF362886
CAGATGGAGCTGCAGAGCCCTGAGTACAAGCTGAGC--AAGCTCCGembl_AF362887
CAGATGGAGCTGCAGAGCCCTGAGTACAAGCTGAGC--AAGCTCCGembl_AF186110
CAGATGGAGCTGCAGAGCCCTGAGTACAAGCTGAGC--AAGCTCCGembl_AF310722
CAGATGGAGCTGCA--------------------------------embl_AF186109
----------------------------------------------
embl_BI817778
CACATTTTA-TTCAGACACCTCCGCACGCTTCTCTGCCCTCT-CAGembl_BF056441
CACACTTTAGTTCAGATACCTCCGCCCTCTCCTCTGCTCTCTTCAGembl_BE848719
----------------------------------------------
embl_BF022813
AGCTCAAGAATGTAACTAAC--------------------------embl_BF452255
AGCTCATGAATGTAACTAACAATCTGAAATGACTGGAGGCTGTATTembl_BG089808
AGCTCAAGAATGTAACTAACAATCTGAAATCACTGGAGGCTGCTTCembl_BG147728
AACTCAAGAATGTCACCAACAACCTGAAGTCGCTAGAGGCTGCATCembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
ATGACCGACTACAACCCCAACTACTGCTTTGCTGGCAAGACCTCCTembl_AF186110
ATGACCGACTACAACCCCAACTACTGCTTTGCTGGCAAGACCTCCTembl_AF310722
----------------------------------------------
embl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
TGACCAACTTACGAGCAACCTCCTCATACTTGCGGTCGGCTACGTCembl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
AATAGGAGGATTAGTATGAAGAAGAAGATAAGCTTATGCCTGATAAembl_BG089808
AAAAGGAG--------------------------------------embl_BG147728
AAAAGGAGGATAAATATGAAGAAGAGATTAAACTTCTGTCTGACAAembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
AAGGAGGTGCCGCGGAAAAACATCACCCTCATTCGGGGTCTGGGCCembl_AF186110
AAGGAGGTGCCGCGGAAAAACATCACCCTCATTCGGGGTCTGGGCCembl_AF310722
----------------------------------------------
embl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
CTGCTTTGAGCTGCATCTCCAGGATCTACATCTTTTGCTCATCTTTembl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
GAAACCAGTCTGGATTTGCAGACAGA--------------------embl_BG089808
----------------------------------------------
embl_BG147728
AGACCCGTGCTGAATTTGCAGAGAGAACAGTTGCAAAACTGGAAAAembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
GAGGTGTATGAAGGCCAGGTGTCCGGAATGCCCAACGACCCAAGCCembl_AF186110
GAGGTGTATGAAGGCCAGGTGTCCGGAATGCCCAACGACCCAAGCCembl_AF310722
----------------------------------------------
embl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
CTATTACCTTCATGCCTCTCTCACTCTCATCAGCAGCCCTCTCTGCembl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
TGGAAGAAAAACTTGCCCAGGCCAAAGAAGAGAACGTGGGCTTACAembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
GTGAAGACGCTGCCTG------------------------------embl_AF186110
GTGAAGACGCTGCCTGAAGTGTGC----------------------embl_AF310722
----------------------------------------------
embl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
GCAAGGCTGTGGCCAGCTGCTTCTGACCCTGTCCAATTCCTTC---embl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
AGACACTAAACGAACTAAACTGTATATAACCAAAACAGAAGAGTCTembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
----------------------------------------------
embl_AF186110
----------------------------------------------
embl_AF310722
----------------------------------------------
embl_AF186109
----------------------------------------------
embl_BI817778
----------------------------------------------
embl_BF056441
----------------------------------------------
embl_BE848719
----------------------------------------------
embl_BF022813
----------------------------------------------
embl_BF452255
----------------------------------------------
embl_BG089808
----------------------------------------------
embl_BG147728
CTCCAGAGCTACGTGTTTTTCTCTTCTCTTGTAAGAAGTTTCTTTTembl_AF087679
----------------------------------------------
embl_AF362886
----------------------------------------------
embl_AF362887
----------------------------------------------
embl_AF186110
----------------------------------------------
embl_AF310722
----------------------------------------------
embl_AF186109
Hình 5.4. Các dạng giao diện hiển thị kiểu tệp kết quả dạng *.dnd
Việc lựa chọn thay đổi chế độ xử lý trước khi gửi tệp tin đi cho phép người sử dụng đặt ra các yêu cầu cụ thể hơn cho chế độ xử lý (thường áp dụng với các chuyên gia có kinh nghiệm), thí dụ bao gồm:
• Đặt chế độ cho kiểu tệp dữ liệu lấy ra, với phương án lựa chọn dưới một trong các định dạng sau: ALN, GCG, PIR, PHYLIP và GDE. Chế độ này do người yêu cầu tự lựa chọn trên cửa sổ “Output format” trước khi gửi thông tin đi xử lý.
• Yêu cầu về trật tự sắp xếp các chuỗi trong tệp kết quả, với phương án theo trình tự gửi dữ liệu đi hay theo quan hệ tương quan về khoảng cách phân ly giữa các chuỗi khi xử lý (output order).
67
• Đặt thêm các thông số phụ, khi lựa chọn chế độ so sánh nhanh từng cặp (Alignment fast pairwise) như:
- KTUP để lựa chọn số ký tự khi xử lý so sánh.
- WINDOWS để lựa chọn kích thước mảng xử lý.
- SCORE để đặt chế độ tỉ lệ khi tính kết quả.
- TOPDIAG đặt chế độ so sánh chéo.
- PAIRGAP đặt chế độ khoảng đứt (hay chèn) giới hạn...
• Lựa chọn kiểu thuật toán xử lý:
- BLOSUM là kiểu ma trận thích hợp nhất để xác định độ tương đồng của chuỗi. Kích thước ma trận sử dụng trong chương trình là: Blosum80, 62, 40 và 30.
- PAM được sử dụng rộng rãi từ cuối thập kỷ bảy mươi của thế kỷ XX. Kích thước ma trận được sử dụng là: 120, 160, 250 và 350.
- GONNET tương tự như PAM, nhưng cập nhật nâng cấp thường xuyên hơn nên độ nhạy cao hơn. Kích thước mảng được sử dụng là: 40, 80, 120, 160, 250 và 350.
• Lựa chọn khoảng trống ký tự giới hạn GAP cho thuật toán, với các tham số: Gapopen, Endgap, Gapext, Gapdist...
*** Trong trường hợp không sử dụng dịch vụ xử lý trực tuyến, có thể tải chương trình CluatalW miễn phí về máy cá nhân từ nhiều ngân hàng dữ liệu khác nhau, thí dụ NCBI, EBI hay DDBJ. Tuy nhiên, với tốc độ đường truyền phù hợp, việc lựa chọn chế độ xử lý trực tuyến cho phép khai thác sử dụng chương trình xử lý dữ liệu cập nhật nhất về chất lượng xử lý.
68
6.
CHƯƠNG TRÌNH THIẾT KẾ VÀ LỰA CHỌN ĐOẠN MỒI PRIMER3
6.1. Đại cương
Chương trình thiết kế và lựa chọn đoạn mồi (Primer Design) là chương trình tìm kiếm và lựa chọn xác định đoạn nucleotide tương đồng với cấu trúc chuỗi phân tích, phục vụ cho kỹ thuật nhân gen PCR hay sử dụng cho nhiều kỹ thuật lai ứng dụng khác nhau. Để giải quyết nhiệm vụ trên, nhiều phần mềm đã được xây dựng và cung cấp cho người sử dụng (bao gồm cả phần mềm miễn phí và loại phải trả tiền), thí dụ: OLIGO Primer Analysis Software (http://www.oligo.net/ - Molecular Biology Insights, Inc.), OLIGO→ (http://www.medprobe.com/no/oligo.html - Molecular Biology Insights, Inc.), Oligo PerfectTM Designer (http://www.invitrogen.com - Invitrogen Corp.), Primer3 (http://frodo.wi.mit.edu/cgi-bin/primer3/ primer3_www.cgi - Whitehead Institute for Biomedical Research)...
Primer3 là một trong số các chương trình ứng dụng để thiết kế đoạn mồi (định hướng vào việc thiết kế mồi phục vụ cho kỹ thuật nhân gen PCR và LA-PCR) của Rozen và Skeletsky, viết cho môi trường Sun, OS, Unix và Linux (chương trình này không chạy trên môi trường Windows). Whitehead Institute for Biomedical Research đã cung cấp miễn phí chương trình xử lý trực tuyến trên cho người sử dụng, qua địa chỉ truy cập: http://fokker.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi. Cơ sở tính
69
toán lập trình cho chương trình này dựa vào các thông số chính là: nhiệt độ gắn mồi, kích thước mồi, hàm lượng GC trong thành phần, khả năng bắt cặp dimer, trị số nhiệt động và cấu trúc không gian bậc hai của đoạn mồi, kích thước sản phẩm PCR..., trên cơ sở dữ liệu phân tích của các đoạn mồi tương ứng đã biết trong các ngân hàng dữ liệu. Giao diện trực tuyến của chương trình Primer3 có dạng như sau:
Hình 6.1. Giao diện trực tuyến của chương trình Primer3 (còn tiếp)
70
Tiếp hình 6.2.
71
6.2. Thao tác sử dụng chương trình
Việc thao tác sử dụng chương trình trên có thể tóm tắt qua các bước chính sau: kết nối mạng internet, hiển thị giao diện trang chủ Primer3, nhập dữ liệu, đặt chế độ xử lý (được xác định qua việc lựa chọn giá trị khi đặt các chế độ xử lý tương ứng), sau đó nhấn cửa sổ “Pick primers” để
gửi dữ liệu đi xử lý trực tuyến. Sau khoảng thời gian chờ, phụ thuộc vào tốc độ đường truyền của mạng kết nối, người xử lý sẽ nhận lại được kết quả xử lý của chương trình Primer3 (xem phần thí dụ phía dưới).
• Trong tệp dữ liệu kết quả, có thể xảy ra hai khả năng: chương trình không lựa chọn được đoạn mồi thoả mãn với các các thông số đã chọn. Trong trường hợp này, người xử lý quay ngược trở lại giao diện nhập dữ liệu để thay đổi các thông số đầu vào rồi gửi đi xử lý tiếp, các bước lặp lại như quy trình ban đầu, cho đến khi xác định được các đoạn mồi mong muốn.
• Chương trình Primer3 lựa chọn được đoạn mồi phù hợp nhất cho yêu cầu người gửi tin (thường là sau một số lần gửi và chỉnh sửa lại thông tin đầu vào. Đương nhiên, người ta vẫn có thể nhận được kết quả mong muốn ngay sau lần yêu cầu đầu tiên).
Các thao tác chính và thông số lựa chọn ban đầu bao gồm:
A/ Nhập dữ liệu: Chuỗi dữ liệu phân tích được chèn vào trong ô nhập dữ liệu ở đầu giao diện. Chương trình xử lý chỉ chấp nhận chuỗi ký tự viết theo định dạng FASTA hay chuỗi ký tự tên các cặp bazơ nitơ và ký tự “N”, thế chỗ cho các ký tự khác; chữ số hay ký tự trống sẽ bị bỏ qua,
72
dưới dạng như sau “...ACTGNacgtn...”. Vì vậy, trước khi chèn vào cửa sổ nhập, chuỗi dữ liệu thường được kiểm tra nhằm xoá ký tự N hay đánh dấu loại bỏ các đoạn “kém chất lượng”, hoặc dùng chuột đánh dấu lựa chọn chế độ lọc nhờ “Mispriming Library” để cải thiện chất lượng lựa chọn mồi của chương trình.
B/ Đặt chế độ xử lý: Trong mục này, người phân tích phải lựa chọn xác định hàng loạt thông số khác nhau bao gồm:
+ Sequence Id: Đặt tên chuỗi nhận dạng đầu ra để lựa chọn đoạn mồi hay đoạn lai ghép.
+ Targets: Là thông số xác định vị trí đoạn mồi, được viết dưới dạng hai cụm số hay khung ký tự. Thí dụ: “Targets: 50,2” có nghĩa đoạn mồi phải nằm sát vị trí 50 hay 51; hoặc đánh dấu ngoặc vuông trên chuỗi “ATAC[CCCC]TACT...” nghĩa là đoạn mồi phải nằm sát một vị trí trong đoạn được đánh dấu khung. Vị trí đích của đoạn mồi thường là trong các vùng bảo thủ cấu trúc của chuỗi (theo kết quả trên chương trình phân tích quy luật vận động ccủa nhóm chuỗi cùng nguồn, thí dụ CLUSTALW).
+ Excluded Regions: Là vùng không được lựa chọn đoạn mồi, đánh dấu bằng hai giá trị: khởi đầu và độ dài. Thí dụ “Excluded Regions: 120,42” nghĩa là đoạn mồi lựa chọn không được chứa các cặp nucleotide tương ứng với 42 ký tự, tính từ vị trí thứ 120. Vùng loại trừ
không thiết kế mồi thường là các vùng phân ly cấu trúc của chuỗi (theo kết quả trên chương trình phân tích quy luật vận động ccủa nhóm chuỗi cùng nguồn, thí dụ CLUSTALW).
+ Product Size Range: Trong ô cửa sổ này người thiết kế có thể điền vào một hay nhiều khoảng số khác nhau, thí dụ người thiết kế đặt chế độ:
73
“Product Size Range: 100-300 301-400 401-500 501-600”, Khi đó, đầu tiên Primer3 chỉ lựa chọn mồi trong đoạn từ vị trí 100 đến 300; Nếu trong khoảng này không tìm được mồi thì Primer3 tiếp tục lặp lại quy trình chọn mồi trên đoạn 300-400, ... và cứ thế tiếp tục cho đến khi Primer3 chọn được mồi, hoặc lặp lại việc tìm kiếm cho đến hết khoảng đặt cuối cùng.
Trong trường hợp người thiết kế lựa chọn đặt thêm các thông số “Minimum, Optimum and Maximum lengths” thì chương trình Primer3 sẽ không chọn các đoạn mồi tương ứng với sản phẩm PCR ngắn hơn Minimum hay dài hơn Maximum, mà sẽ ưu tiên lựa chọn các đoạn mồi tương ứng với sản phẩm kích thước lân cận giá trị Optimum.
+ Number to Return: Xác định số cặp mồi lựa chọn và sắp xếp theo thứ tự “chất lượng” từ thấp đến cao. Thí dụ: đặt chế độ “Number to Return: 5” thì chương trình Primer3 sẽ lựa chọn và sắp xếp 5 đoạn mồi theo mức chất lượng từ dòng 1 đến dòng 5.
+ Max 3’ Stability: Chỉ số lựa chọn độ ổn định của chuỗi mồi, được tính theo ΔG của octamers, với giá trị lựa chọn cao nhất là 9.00.
+ Max Mispriming: Là đặt số lượng (theo trị số hiệu quả) phương án gắn mồi có độ ổn định cao nhất với chuỗi bất kỳ trong “Mispriming Library”; giá trị mặc định của chương trình là 12.00.
+ Pair Max Mispriming: Là trị cực đại của tổng số cặp mồi tương đồng so với một chuỗi bất kỳ trong “Mispriming Library”; giá trị mặc định của chương trình là 24.00.
+ Primer Size: Là kích thước giới hạn của đoạn mồi được chọn: Min, Max và Opt; với Min ≥1, Max ≤ 36, với Min ≤ Max và 1< Opt<36.
74
Khi đó, Primer3 sẽ chỉ chọn các đoạn mồi với Min ≤ kích thước mồi ≤ Max và ưu tiên lựa chọn các đoạn kích thước gần giá trị Opt.
+ Primer Tm: Nhiệt độ phân ly cặp mồi (hay còn gọi là nhiệt độ tan mồi), tính theo đơn vị oC; với ba mức Min, Opt và Max. Đây là điều kiện biên thông báo cho chương trình xử lý chỉ tìm kiếm các đoạn mồi có nhiệt độ phân ly mồi trong khoảng Min - Max và ưu tiên các đoạn có nhiệt độ phân ly mồi lân cận giá trị Opt.
+ Maximum Tm Difference: Là chênh lệch nhiệt độ phân ly mồi cao nhất có thể chấp nhận được giữa đoạn mồi bên phải và đoạn mồi về phía trái.
+ Product Tm: Với ba giá trị là Minimum, Optimum và Maximum. Khi đặt các chế độ này, chương trình Primer3 chỉ lựa chọn các đoạn mồi tương ứng với sản phẩm có Tm trong khoảng: Tmmin ≤ nhiệt độ phân ly chuỗi sản phẩm ≤ Tm max và với ưu tiên chọn các đoạn có Tm lân cận giá trị Tmopt .
+ Primer GC%: Là điều kiện đặt trước về tỉ lệ % tổng số của hai bazơ Guanine và Cytosine, với ba giá trị là Minimum, Optimum và Maximum; Primer3 sẽ ưu tiên lựa chọn tương tự như với thông số Tm đã đặt trước (thường tỉ lệ cặp G-C càng lớn thì Tm càng cao).
+ Max Self Complementaty: Là tổng trị số lớn nhất đánh giá khả năng tự bắt cặp của đoạn mồi với đoạn mồi khác. Chương trình Primer3 có bốn mức là:
1.00 mức tương hợp -0.25 mức nhầm lẫn thay thế bằng N -1.00 mức sai lệch -2.00 mức đứt trống GAP
75
* Tổng trị số trên trong sơ đồ là 1.75 (trái) và 0.00 (phải: -0.25).
** Trường hợp tổng trị số bằng 0.0 có nghĩa là đoạn mồi không tự kết cặp với đoạn mồi khác được.
+ Max 3’ Self Complementary: Là tổng trị số đánh giá khả năng tự kết cặp của đoạn mồi trái với đoạn mồi bên phải, phía đầu 3’ theo sơ đồ:
+ Max #N’s: Là chỉ số các vị trí bazơ không xác định N cực đại cho phép trong đoạn mồi; Giá trị mặc định của chương trình là 0.
+ Max Poly-X: Là chỉ số lặp liên tiếp của mội loại nucleotide cực đại cho phép.
+ Inside Target Penalty: Trị số xác định số lần đoạn mồi trùm lên vị trí đích; Trị số này không cần xác định nếu trong chuỗi chỉ đặt một điểm đích.
+ Outside Target Penalty: Trị số xác định khoảng cách đoạn mồi đến vị trí đích, trong trường hợp mồi tương ứng với đoạn nucleotide bên cạnh đích, nhưng không trùm lên đích này.
+ First Base Index: Chỉ số của bazơ đầu tiên trong chuỗi nhập vào. Trên giao diện xử lý trực tuyến trị số này mặc định là 1.
+ CG Clamp: Trị số xác định số bazơ G và C liên tục nhau từ phía đầu 3’ của cả hai đoạn mồi.
+ Salt Concentration: Nồng độ muối trong phản ứng PCR, tính theo milimol (thường dùng là muối KCl).
76
+ Annealing Oligo Concentration: Nồng độ mồi trong phản ứng PCR, tính bằng nanomol. Primer3 sử dụng nồng độ này để tính nhiệt độ phân ly mồi. Giá trị mặc định của chương trình Primer3 là 50 nM.
+ Liberal Base: Phương án lựa chọn chế độ mã IUB/IUPAC cho các bazơ không xác định. Nếu không chấp nhận tồn tại dạng này trong đoạn mồi, phải đặt chế độ “Max Ns Accepted: 0”.
+ Show Debuging Info: Phương án lựa chọn chế độ thông báo sửa lỗi đầu vào trong kết quả ra.
+ Included Region: Đặt khoảng giới hạn chọn mồi, dạng số “x, y” hoặc dạng cụm ký tự : ...{TGA and ATT}.... Khi đó chương trình chỉ lựa chọn mồi phù hợp với đoạn chuỗi trong khoảng giới hạn trên.
+ Start Codong Position: Vị trí xác định trong thực nghiệm.
+ Objective Function Penalty Weights for Primers: Trong mục này yêu cầu người xử lý chọn các chế độ đặt tương ứng cho các giá trị:
- Tm
- Size
- GC%
- Self Complementary
- 3’ Self Complementary
- #N’s
- Mispriming
- Sequence Quality
- End Sequence Quality
77
- Position Penalty và
- End Stability
Trong đó, tại ba tham số đầu đều có hai ô cửa để đặt chế độ, với “Lt” để đặt cận trên (Less than) và “Gt” để đặt cận dưới (Greater than). Mục đích thay đổi các tham số này cho phép người sử dụng công cụ để xử lý chọn ra đoạn mồi tốt nhất.
Các thông số yêu cầu trong mục “Objective Function Penalty Weights for Primer Pair” cũng tương tự như phần trên. Việc lựa chọn đặt chế độ cho các phần tiếp sau có thể xem trong http://frodo.wi.mit.edu/cgi
bin/primer3/primer3_www_help.cgi#generic_penalty_weights
Thí dụ, khi sử dụng chương trình trực tuyến Primer3 để lựa chọn mồi cho chuỗi sau:
ctcagctgtgtcaaagtttcacagatcctcgtcttctattccggctacactcagtctcct ccagcttagatctttgtccttctcctgggtactctccgactccttcttccagctaatgtccggtc attagaaaagttttaaagtttgaattgtcnntccctgtcaaagtttccagacctcgtcgtcctt ctcttctccgtcagctctcagtcttcattggaacagatctgtctttattccgcctgctacactc agtctcctccttcagtctcttaaaagtttgttcagtcttagatgaatttctctgggtactttgtcct ccgactccgtccagctaatcggtcttgtcgtcattagatttccttcttctagatgattcatgtct acctattgtcnntcgtcttcccgtgtnnnccaggtccgtttcgtccgcctgtcgtctattctat ctcggtccttacacaaagttgtccttaaagtttttttgtgtccctagtccaaggtccaattttttc catctgtttcgtcctgtcttttttgnggtcgcgtccgtttcccgttctctatgcctccctcctcttat c
Với một số thông số đặt trước, bao gồm:
- Sequen ID : H_A_N
- Targets: 300,250
- Excluded Region: 30,15
78
- Number To Return: 5 Max 3’ Stability: 9.0 - Max Mispriming: 12.00 Pair Max Mispriming: 24.00 - Primer Size: Min: 15 Opt: 20 Max: 25 - Primer Tm: Min: 55 Opt: 60 Max: 65 - Product Tm Min: Opt: 50 Max: - Các tham số khác giữ nguyên giá trị mặc định của chương trình.
Sau khi nhấn “Pick Primer” để gửi thông tin đi xử lý, người phân tích sẽ nhận lại được kết quả lựa chọn đoạn mồi, với giao diện tương ứng như sau:
79
Primer3 Output
PRIMER PICKING RESULTS FOR H_A_N
No mispriming library specified
Using 1-based sequence positions
seq 3' any gc%
tm
start len OLIGO
0.00 cagacctcgtcgtc4.00 60.00 59.99 20 173
LEFT PRIMER
0.00 gaggcatagagaac2.00 50.00 59.27 20 572
RIGHT PRIMER
SEQUENCE SIZE: 584
INCLUDED REGION SIZE: 584
PRODUCT SIZE: 400, PAIR ANY COMPL: 5.00, PAIR 3' COMPL: 3.00
TARGETS (start, len)*: 300,250
EXCLUDED REGIONS (start, len)*: 30,15
1 ctcagctgtgtcaaagtttcacagatcctcgtcttctattccggctacactcagtctcct
XXXXXXXXXXXXXXX
61 ccagcttagatctttgtccttctcctgggtactctccgactccttcttccagctaatgtc
121 cggtcattagaaaagttttaaagtttgaattgtcnntccctgtcaaagtttccagacctc
>>>>>>>>
181 gtcgtccttctcttctccgtcagctctcagtcttcattggaacagatctgtctttattcc
>>>>>>>>>>>>
241 gcctgctacactcagtctcctccttcagtctcttaaaagtttgttcagtcttagatgaat
*
301 ttctctgggtactttgtcctccgactccgtccagctaatcggtcttgtcgtcattagatt