🔙 Quay lại trang tải sách pdf ebook Tin - Sinh học
Ebooks
Nhóm Zalo
I MI NỌC
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
5 0 NĂM XÂY DỰNG VÀ PHÁT TRlỂN
J E1 BẤG HKHOẦ
1956-2006 TS. NGUYỄN VĂN CÁCH
TIN-SINH HOC
U NGUYÊN HỌC LIỆU
G ICGSI
G ĨC G Sị
ìGIGGSỈ
,;GICGS-ạ
"^DGTL: f>d
NHÀ XUẤT BẢN KHOA HỌCVÀ KỸ THUẬT
TS. NGUYỄN VÃN CÁCH
TIN-SINH HỌC■
Ểô
NHÀ XUẤT BẢN KHOA HỌC VÀ KỸ THUẬT HÀ NỘI
Lời nói đầu
Trong nửa cuối thế kỷ XX, nền khoa học công nghê thế giới đã tạo ra bước phát triển mang tính đột phá ngoạn mục trên rất nhiều lĩnh vực khác nhau, trong đó đặc biệt'-nhất là ba lĩnh vực tin học, công nghệ thông tin trẽn nền tang internet và công nghệ sinh học. Thành công trong lĩnh vực công nghệ sịnh học phải kể đến bước phát triển đột phá của công nghệ lên men hiện đại, của sinh học phân tử và kỹ thuật gen, của công nghệ enzym và động học phản ứng... Chính trong thời khắc lịch sử ấy, một lĩnh vực khoa học mới đã ra đời là tin-sinh học.
Tin-sinh học chính là sự hội tụ, hợp tác hữu cơ và đặc biệt hiệu quả của cả ba lĩnh vực công nghệ hàng đầu: tin học- công nghệ thông tìn-công nghệ sinh học, cùng cộng tác với nhau khám phá thế^iới sống. Thực tế đã cho thấy, ngay từ khi ra đời tin-sinh học đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đắc lực và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học; chắp cánh cho công nghệ sinh học nói riêng và sinh học nói chung, bay lên tầm cao mới.
Việc biên soạn cuốn ‘Tin-sinh học" này nhằm cung cấp cho cán bộ và sinh viên ngành công nghệ sinh học và cho các đối tượng khác có liên quan, những kiến thức cơ bản về tin-sinh học và điểm qua một vài ứng dụng của lĩnh vực khoa học này.
Tác giả rất mong nhận được sự đóng góp của độc giả để hiệu chinh cho lần in sau được hoàn chỉnh hơn. Xin chán thành cám ơn sự khích lệ và ủng hộ của đồng nghiệp và của bạn đọc.
Xin chán thành cám ơn bạn đọc.
TS. Nguyền Văn Cách
Hà Nội, 2005
3
MỤC LỤC
1. Mở đầu 7
2. Đại cương về internet 11 2.1. Khái niệm về internet và địa chỉ trên mạng 11 2.2. Thông tin trên internet 13 2.3. Một số dịch vụ trên internet 14 2.4. Truy cập tìm kiếm dữ liệu thông tin qua internet 18
3. Cơ sở dữ liệu công nghệ sinh học 21 3.1. Đại cương 21 3.2. Đặc điểm của dữ liệu công nghệ sinh học 29 3.3. Một số cơ sở dữ liệu sinh học lớn trên thế giới 30
3.3.1. Cơ sở dữ liệu Trung tâm Thông tin 32 Quốc gia về Công nghệ Sinh học Mỹ
3.3.2. Cơ sở dữ liệu EMBL 35 3.3.3. Cơ sở dữ liệu CIB-DDBJ 37
4. Nghiên cứu câu trúc chuỗi DNA và amino axit 39 4.1. Cơ sở xây dựng chương trình xử lý dữ liệu 39 4.2. Nghiên cứu so sánh cấu trúc chuỗi 49
5. Chương trình phân tích cấu trúc chuỗi ClustalW 53 5.1. Đại cương về chương trình Clustal 53 5.2. Sử dụng chương trình 55
6. Chương trình thiết kê và lựa chọn đoạn mồi Primer3 76 6.1. Đại cương 76 6.2. Thao tác sử dụng chương trình 79
7. Chương trình phân tich cấu trúc tương đồng BLAST 90 7.1. Đại cương 90 7.2. Sư dụng chương trình BLAST 91
8. Chương trình hiển thị phân tích cấu trúc không gian Cn3D 104 8.1. Đại cương 1CK 8.2. Sư dụng chương trình 105
5
8.2.1. Sử dụng công cụ tìm kiếm cấu trúc chuỗi qua Entrez 106 8.2.2. Từ dịch vụ entrez sequence neighbor 108 8.2.3. Từ dịch vụ phân tích cấu trúc chuỗi BLAST 110 8.2.4. Sử dụng mã hiệu chuỗi PDB Identifier 111
9. Tra cứu dữ liệu qua Internet 112 9.1. Dịch vụ PubMed 112 9.2. Dịch vụ thư viện qua mạng ScienceDire'ct®)
9.3. Dịch vụ Entrez của NCBI và SRS của EBI 116
10. Khai thác thông tin cơ sở dữ liệu cấu trúc để thiết kế gen 123 10.1. Cơ sở dữ liệu RFLP (Restriction Fragment Length 123 Polymorphism) và cơ sở dữ liệu ESTs (Expressed
Sequence Tags) #
10.1.1. Cơ sở dữ liệu RFLP (Restriction 123 Fragment Length Polymorphism)
10.1.2. Cơ sở dữ liệu ESTs (Expresed 126 Sequence Tags)
10.2. Khai thác thông tin cơ sở dữ liệu chuỗi 134 trong thiết kế và tách dòng gen
10.2.1. Tách dòng gen trên các loài đã biết cấu trúc di 135 . truyền
10.2.2. Thiết kế tách dòng gen từ chủng mang hoạt tính 138 gen
10.2.3. Thiết kế tách dòng gen từ các chủng mới 139 Tài liệu tham khảo 142
6
M ỏ ĐẦU
Sụ phát triển như vũ bão của khoa học và công nghệ trong thế kỷ XX đã tạo ra cơ sờ lý luận, vật chất và sự liên kết hỗ trợ lần nhau, tác động thúc đẩy sự phát triển cùa mọi lĩnh vực hoạt động của đời sống xã hội. Trong lĩnh vực công nghệ sinh học, nhờ những thành tựu vô cùng to lớn của sinh học và sinh học ứng dụng (đặc biệt là trong các lĩnh vực: di truyền học, sinh học phân tử, kỹ thuật gen, công nghệ lên men hiện đại...), cùng với việc hoàn thiện và hiện đại hoá các trang thiết bị phục vụ nghiên cứu khoa học đã cho phép con người trong khoảng thời gian ngắn thu được khối lượng dữ liệu khoa học khổng lồ về công nghệ sinh học, nói riêng và về khoa học sự sống nói chung. Sự phát triển vô cùng mạnh mẽ của sinh học phân tử và kỹ thuật gen trong nửa cuối thế kỷ XX đã cho phép con người khám phá bản chất sinh học, ở cấp độ phân tử, các đơn vị cơ sở nhỏ nhất cấu thành nôn từng bộ phận cơ thể và các quá trình vận động biến đổi xảy ra trong các cơ thể sống. Chính các yếu tố trên đã cấu thành nên cơ sở vật chất ban đầu cho các ngân hàng dữ liệu công nghệ sinh học.
Nguồn dữ liệu cơ sở này, thực tế là các dữ liệu kết quả nghiên cứu thu được của từng cá nhân hay của các cơ sở nghiên cứu rải rác khắp nơi trên thế giới. Với đặc thù là ngành khoa học thực nghiệm, đây chính là sản phẩm kết tinh của khối lượng rất lớn lao dộng trí tuệ, hao phí vật chất, tiền bạc và tiêu tốn thời gian, công sức. Việc bảo quản tại chỗ kết quả nghiên cứu này là không hiệu quả và không thể tránh khỏi mất mát hay thất lạc, do nhiều nguyên nhân khác nhau, thí dụ: do cơ sở hạ tầng vật chất kỹ thuật lạc
7
hậu, năng lực tài chính hạn chế, điều kiện địa lý, khí hậu không thuận lợi hay các yếu tô' chính trị liên quan... Trong khi đó, việc sử dụng các trang thiết bị phân tích hiện đại đã cho phép thu được khối lượng thông tin rất lớn, cho mỗi nghiên cứu riêng biệt. Kết quả là trong hầu hết các trường hợp, bằng các phương tiện thông tin truyền thống (tạp chí, sách, hội nghị, hội thảo khoa học...) nhìn chung không đủ dung lượng và môi trường để truyền tải hết ý tưởng và đữ liệu kết quả nghiên cứu của các tác giả. Đây cũng là một nguyên nhân dẫn tới khả năng thất thoát tài nguyên trực tiếp hay gián tiếp, do lạc hậu về thông tin nên có thể tiêu tốn tiền bạc vào các mục tiêu nghiên cứu đã được giải quyết thành công ở nơi khác. Trong khi đòi hỏi thực tiễn đặt ra cho sự phát triển toàn diện và sâu rộng công nghệ sinh học ngày càng trở nên cấp bách. Như một hộ quả tất yếu để giải quyết các vấn đề trên, các trung tâm dữ liệu công nghệ sinh học đã ra đời và phát triển hết sức nhanh chóng, trên cả hai mặt quy mô và số lượng các đơn vị thành viên.
Về mật bản chất, sinh học hiện đại đã chỉ rõ rằng: đặc tính riêng biệt của mỗi loài trong sự đa dạng của thể giới sinh học được quyết định chính trong kích thước và cấu trúc gen của từng cá thể, với đơn vị cấu trúc cơ sở là bốn loại nucleotide: Adenine, Guanine, Cytosine và Thymine (Ưracil thay thế Thymine trong RNA). Đồng thời, protein (thành phần quan trọng nhất của mọi cơ thể sống) được tạo thành trên cơ sở kết nối của 20 amino axit khác nhau. Logic chính xác trong quy luật của thế giới sống trong môi trường tin học đã cho phép con người “số hoá và ký tự hoá ” trong việc mô tả bản chất và sự vận động của thế giới sinh hoc. Kết hợp với khả năng kết nối trao đổi thông tin “vô hạn ” của công nghệ thông tin và internet đã mở ra điều kiện lý tưởng cho các nhà sinh học để cất giữ, liên kết, xử lý và trao đổi kho tàng dữ liệu giữa các thành viên vói nhau. Nhờ sự hợp tác và liên kết rộng rãi này, một mặt mở ra khả năng tư vấn, trao đổi và hỗ trợ cho nhà nghiên cứu hay các tổ chức thành viên tham gia. Nhưng mặt khác, chính sự liên kết này đã tạo ra công cụ mới để nghiên cứu sự biến đổi trong các cơ
8
thể sống hay các hiện tượng sống, trên cơ sở phân tích phát hiện tính quy luật từ vô sô' các dữ liệu thực nghiệm trong kho tàng dữ liệu khổng lồ này... Nghĩa là, thông qua xử lý hàng loạt mảng dữ liệu thực nghiệm rời rạc, người ta thu được các mảng dữ liệu thứ cấp, để từ đó có thể khái quát hoá thành quy luật biến đổi của nó; hoặc trên cơ sở xử lý cơ sở dữ liệu đã có để định hướng, hoạch định kế hoạch và tổ chức thực nghiệm khoa học của mình sao cho hiệu quả hơn, hay trên cơ sở nắm bắt được quy luật vận động của tự nhiên để “thiết kế ” ra các sản phẩm hoàn toàn mới, thậm chí có thể chưa xuất hiện trong thiên nhiên... Chính từ các cơ sở lý luận và thực tiễn nêu trên, một lĩnh vực khoa học mới đã ra đời, đó chính là tin-sinh học.
Tin-sinh học (Bioinformatic) có thể hiểu là khoa học bao gồm việc xây dựng, quản lý. và lưu giữ nguồn dữ liệu thông tin quy mô toàn cầu liên quan đến sinh học làm môi trường dữ liệu cơ sở, trên đó xây dựng và hoàn thiện các chương trình xử lý dữ liệu ứng dụng làm công cụ hỗ trợ hiệu quả cho việc nghiên cứu khám phá bản chất sinh học của giới tự nhiên, để thu nhận các sản phẩm sinh học quý, để “thiết kế ” và sản xuất ra các sản phẩm sinh học mong muốn khác nhau phục vụ đời sống con người...
Sự ra đời của tin-sinh học không chỉ mở ra khả năng khai thác cơ sở dữ liệu thực nghiệm thu được, mà trong thực tế chính tin-sinh học đã thực sự trở thành công cụ nghiên cứu mới, trợ giúp đắc lực và hiệu quả để đẩy nhanh tốc độ nghiên cứu và ứng dụng công nghệ sinh học; chắp cánh cho công nghệ sinh học nói riêng và sinh học nói chung, bay lên tầm cao mới. Cơ sở dữ liệu công nghệ sinh học không chỉ dừng lại ở tập hợp các kết quả nghiên cứu thực nghiệm đơn thuần, mà nó còn bao gồm khả năng khái quát hoá, mô phỏng hoá thành những “đối tượng số ” của thế giói sinh học sống động. Thí dụ, với công cụ tin-sinh học đã cho phép con người tìm hiểu và khám phá các quá trình vận động nội tại trong bản thân mình, nhờ nghiên cứu dữ liệu thực nghiệm trên các đối tượng sinh vật khác, hay cho phép con người chế tạo ra cả những sinh giới mới vượt ra khỏi quy luật tiến hoá và chọn lọc tự nhiên...
9
Tin-sinh học có thể khái quát hoá thành ba nhiệm vụ cơ bản là:
• Xây dựng, bổ sung, tổ chức quản lý và khai thác cơ sở dữ liệu đa dạng và toàn diện trên quy mô toàn cầu liên quan đến sinh học và các ngành hay lĩnh vực khoa học liên quan. Vấn đề này đã và sẽ chì phát huy được lợi thế khổng lồ của nó khi huy động được sự tham gia thực sự của đông đảo các thành viên sở hữu thông tin sinh học trên toàn thế giới.
• Xây dựng và phát triển các chương trình xử lý dữ liệu ứng dụng, dưới dạng các chương trình xử lý dữ liệu độc lập hay được tích hợp ngay trong các thiết bị phân tích hiện-đại, nhằm cung cấp cho các nhà sinh học phương tiện xây dựng phương án nghiên cứu hay phân tích xử lý kết quả thu được với sự “tư vấn và trao đổi của các chuyên gia ” trên toàn thế giới.
• Đào tạo và cập nhạt thường xuyên cho các nhà sinh học kỹ năng tư duy và năng lực khai thác hai nội dung trên vào hoạt động khoa học và cõng nghệ nhằm tạo ra bước chuyển biến đột phá trong phương cách tiếp cận và nghiên cứu khám phá thế giới sống, tạo ra cuộc cách mạng thực sự trong hoạt động sáng tạo của con người vì phồn vinh và hạnh phúc nhân loại.
10
2 ĐẠI CƯƠNG VỂ INTERNET
2.1. Khái niệm về internet và địa chỉ trên mạng
Internet là hệ thống gồm rất nhiều mạng máy tính cục bộ hay khu vực được kết nối lại với nhau thành mạng chung trên phạm vi toàn cầu {Networks of the Networks). Như vậy, internet kết nối nhiều triệu máy tính riêng lẻ đã hoà mạng vào hệ thống chung, trong đó giữa các máy đã nối mạng đều bình đẳng và có thể liên hệ trao đổi thông tin qua lại với nhau. Trên internet, người truy cập vào mạng từ khắp nơi trên hành tinh, nếu được phép của chủ sở hữu, có thể tìm kiếm và khai thác tất cả mọi thông tin và dữ liệu trong từng máy con với tốc độ “ánh sáng” vượt qua mọi trở ngại về không gian và lãnh thổ.
Điểm khởi đầu của internet lả dự án nối mạng các máy tính của bốn đơn vị thành viên là Viện Nghiên cứu Stanford, Trường Đại học Tổng hợp California, Trường Đại học Tổng hợp UC-Santa Barbara và Trường Đại học Tổng hợp Utah do cơ quan quản lý dự án nghiên cứu phát triển của bộ quốc phòng Mỹ (U.S. Defense Advance Research Projects Agency — DARPA) tài trợ (tháng 7/1968). Việc kết nối thành công các máy tính tham gia của bốn thành viên trên (năm 1969) đã đánh dấu sự ra đời của mạng máy tính khu vực - viết tắt là ARPANET. Lịch sử phát triển của internet là quá trình phát triển và hoàn thiện không ngừng từ ARPANET, qua
11
MILNET và NSFNET (National Science Foundation Network), đến internet với khả năng khổng lồ và quy mô toàn cầu hiện nay (internet với đầy đủ ý nghĩa và thực sự bùng nổ mạnh mẽ chì từ 1995, sau thời điểm chính phủ Mỹ cho phép công khai và thương mại hoá công nghệ này trên phạm vi toàn cầu).
Internet là sự kết nối đa chiều các mạng diện rộng (Wide Area Network - WAN) của các quốc gia hay khu vực. Mỗi mạng WAN được hình thành do sự kết nối cùa nhiều mạng khu vực hẹp hơn (Local Area Network - LAN); trong đó, mỗi mạng LAN lại là mạng kết nối các máy tính riêng lẻ (hay mạng của cụm các máy tính riêng lẻ) lại với nhau. Việc kết nối giữa các mạng trên được thực hiện nhờ các cổng chuyển thông tin - thường là các cầu nối (Bridges) hoặc các bộ định tuyến {Router).
Từng máy tính con thưòng được kết nối vào internet qua một máy chù (Host). Để các máy tính nối mạng có thể nhận biết và thông tin qua lại với nhau, mỗi máy chủ đều được nhận một miền gồm một số địa chì IP (,Identification Protocol) nhất định và không trùng nhau với các máy chù khác. Trung tâm thông tin điều phối internet quốc tế (Network Information
Center - NIC) chủ trì phân phối các địa ch! mạng (Net ID) cho mỗi quốc gia. Tiếp theo, tổ chức quản lý internet từng quốc gia sẽ phân phối miền địa chỉ cho các máy chủ trên mạng đó (Host ID). Theo hệ địa chỉ đang được sử dụng hiện tại IPv4 mỗi địa chỉ mạng gồm bốn cụm số phân cách nhau bằng dấu chấm dạng A.B.C.D, với A, B, c , và D là một số nguyên có giá trị trong dải (0 - 255), thí dụ: 192 .168 .127.16; 172.16.1.3 (mạng WAN một vài nước đã sử dụng hệ địa chỉ IPv6). Để thuận tiện cho người sử dụng trong giao tiếp, các địa chỉ IP kiểu số trên thường được máy chù (do các nhà cung cấp dịch vụ internet quản lý) phiên mã thành dạng địa chỉ các cụm từ, thí dụ: http://www.vnn.vn: http://www.hut.edu.vn; http://www.atcc.org; http://merlin.bcm.tmc.edu...
12
Để truy cập vào mạng, người sử dụng internet (thường được gọi chung là khách hàng) phải đăng ký vói các nhà cung cấp dịch vụ và sẽ được cấp một tên truy cập (Account) và với mật khẩu riêng tương ứng (Password). Với tên và mật khẩu đã đăng ký, thường khách hàng có thể truy cập vào mạng internet từ bất kỳ máy tính nào trong mạng LAN của nhà cung cấp dịch vụ đó hay thông qua kết nối trực tiếp một máy tính ngoài mạng với máy chủ bằng đưòng điện thoại (sử dụng Modem thường hay Modem ADSL). Việc kết nối giữa một máy tính con với máy chủ còn phụ thuộc vào chế độ kết nối. Có nhiều kiểu kết nối khác nhau, phụ thuộc vào kiểu dữ liệu sử đụng, phần mềm cài đặt trên máy chủ, phần mềm của khách hàng. Các kiểu kết nối này thường mang đặc trưng riêng với từng trường hợp cụ thể ( “service by service", “user by user") và thường được xác định qua cổng kết nối (Port) đi kèm như một địa chỉ phụ, thí dụ
“192 .168.127.16: 8080” (port 8080); hay
“merlin.bcm.tmc.edu:23” (port 23)...
2.2. Thông tin trên internet
Internet chứa khối lượng thông tin khổng lồ, bao gồm dữ liệu của hầu như tất cả mọi lĩnh vực khác nhau trong đời sống xã hội hiện đại, từ khoa học, kinh tế, văn hoá, chính trị, xã hội đến cả vô số các thông tin quảng cáo sản phẩm hay các thông tin về dịch vụ thương mại điện tử... Các dữ liệu thông tin này được lưu giữ trong các máy chủ của hàng trăm ngàn mạng con (LAN và WAN) và trong các máy tính đang hoà mạng trên khắp thế giới. Khả năng khai thác các dữ liệu thông tin này, đương nhiên còn phụ thuộc vào việc cung cấp của chủ sở hữu và giới hạn khai thác của khách hàng được chủ sở hữu dữ liệu cấp phép. Ở góc độ khai thác, có thể chia cơ sở dữ liệu khổng lồ trên thành hai nhóm lớn là:
13
* Loại các thông tin công cộng: Bao gồm tất cả các loại dữ liệu thông tin mà bất kỳ khách hàng nào, từ mọi nơi trên khắp thế giới, khi đã vào internet đều có thể tự do truy cập và khai thác phục vụ cho mục đích riêng, điển hình cho kiểu dịch vụ thông tin công cộng là WWW (World Wide Web), thí dụ: http://www.vnn.vn ; http://www.sonv.com.■ ■
* Loại các thông tin giới hạn truy cập: Bao gồm tất cả các dữ liệu hay các hệ thống dữ liệu trên mạng, nhưng việc truy cập và khai thác chì có thể được thực hiện nếu được phép của chủ sở hữu chúng. Thí dụ các thông tin phải trả tiền khi sừ dụng, các thông tin chỉ dành cho các đối tượng đã được cấp quyền truy cập, các thông tin chỉ sử dụng nội bộ.... Thông thường, nguồn dữ liệu này được lưu giữ trên mạng nhưng với độ bảo mật rất cao; chì có nhũng người đã được cấp phép (với tên và mật khẩu truy cập đã đăng ký) mới có thể truy cập và khai thác.
2.3. Một số dịch vụ trên internet
Các dịch vụ trên mạng rất đa dạng và được cải tiến, hoàn thiện và mờ rộng không ngừng. Một số dịch vụ phổ dụng hiện nay của internet là:
* Truy cập khai thác thông tin từ xa (Telnet): Được xem là dịch vụ cơ sở và đầu tiên của việc kết nối mạng. Dịch vụ này cho phép từ một máy tính ở bất kỳ vị trí nào trên thế giới có thể truy cập vào một máy tính xác định khác trong mạng thông qua giao thức TCP/IP (Transfer
Control ProtocoỉlInternet Protocol). Khi dịch vụ đã được thiết lập, người sử dụng dịch vụ có thể thực hiện các thao tác đầy đủ trên máy tính kia cũng như trên máy đang sử dụng, thí dụ: gọi các chương trình hiện có, ghi hay xoá các tệp tin... Trong thực tế, việc khai thác dịch vụ
14
truy cập từ xa được thực hiện với sự trợ giúp của các chương trình hỗ trợ và giám sát mà các nhà quản lý hệ thống máy chủ phía sở hữu dữ liệu sử dụng. Nghĩa là người muốn truy cập vẫn phải được "cấp phép" dưới dạng được cấp tên đăng ký và mật khẩu riêng {public login name
and password).
• Dịch vụ trao đổi các tệp dữ liệu (files transfer - ftp)-. Dịch vụ ftp cũng là dịch vụ cơ sở đầu tiên của việc kết nối mạng, nhưng được xây dựng dành riêng cho những người sử dụng chỉ trao đổi một hay một số tệp dữ liệu nhất định, song không mong muốn truy cập (hay không được thẩm quyền truy çâp) vào toàn bộ ngân hàng dữ liệu của máy chủ đó. Thao tác để sử dụng dịch vụ ftp nguyên thuỷ cũng hoạt động trên cơ sở tương tự như sử dụng dịch vụ telnet. Khi sử dụng địch vụ ftp, thông thường khách hàng phải thực hiện hàng loạt dòng lệnh khác nhau mới có thể gửi (put files) hoặc nhận (get files) và phải phân biệt hai dạng dữ liệu là kiểu ký tự (text mode) và kiểu nhị phân (binary mode). Dịch vụ ftp với kiểu ký tự đã lưu ý đến sự khác biệt giữa các hệ điều hành (môi trường Unix sử dụng hệ ASCII 10, môi trường Macintosh sử dụng hệ ASCII 13 và môi trường MSDOS được thiết kế cho sử dụng một trong hai hệ trên, trong đó với kiểu nhị phân sẽ được trao đổi đúng nguyên bản gốc).
Nhằm giảm bớt trục trặc và để thuận tiện hơn cho khách hàng, người cung cấp tin có thể chuẩn bị sẵn các tệp dữ liệu hay một một số thư mục tệp dữ liệu liên quan thành các nhóm riêng, sao cho khi khách hàng cần trao đổi có thể thực hiện được dễ dàng mà không cần phải sử dụng đến mật khẩu. Khi xây dựng các trang www (World Wide Web)
người ta sử dụng phổ biến kỹ thuật này giúp khách hàng đang ở trong trang Web vẫn có thể trao đổi thuận tiện các tệp dữ liệu mong muốn, qua truy cập các đường dẫn siêu liên kết dưới dạng dòng lệnh
15
“Download', “Download now" hay đường dẫn “ftp://..." (thông tbường các tệp dữ liệu dạng này không có sẩn trong các trang WWW), thí dụ:
“The file is available by anonymous ftp. ftp to ftp.bcm.tmc.edu
and retrieve mbcr/pub/file.txt”
Để trao đổi tệp trên có thể thực hiện nhờ sử dụng lệnh:
ftp://ftp.bcm.tciii.edu/bnicr/pub/file.txt
• Dịch vụ thư điện tử (E-Mail): Dịch vụ thư điện tử là dịch vụ đơn giản nhất nhưng lại rất hiệu quả và được nhiều người sử dụng nhất. Dịch vụ này dành cho cả những người không đãng ký quyền truy cập mạng hay thường xuyên được chọn với các khách hàng chỉ đăng ký sử dụng hạn chế các dịch vụ trên internet. Người gửi thư chỉ cần "gọi ra" một khung mẫu thư từ một máy chủ nhất định (các mailserver), sau đó sử dụng bàn phím để viết thư, điền địa chỉ điện tử của người nhận và nhấn lệnh gửi đi. Khi đó thư sẽ được chuyển ngay đến máy chủ rồi chuyển tiếp sang máy chủ của người nhặn đăng ký địa chì và được lưu giữ ờ đó. Người nhận thư, vào lúc thời gian thuận tiện, có thể truy cập vào "thùng thư" của mình trẽn máy chủ để xem các thư gửi đến. Ngày nay, kết hợp với các dịch vụ đi kèm khác, người gửi thư có thể gửi đồng thời một bức thư đến nhiều người nhận khác nhau (dịch vụ C.c. qua listserver), có thể chuyển cả "thư" dưới dạng âm thanh, hình ảnh hay tiếng nói đến người nhận và thường kết hợp kèm thêm dịch vụ chuyển tệp đơn giản để mở rộng năng lực phục vụ khách hàng (chế độ attachment). Nhìn chung, việc sử dụng dịch vụ thư điện từ rất đơn giản về thao tác, thuận tiện về thời gian và hết sức nhanh chóng. Vì vậy, để thu hút khách hàng truy cập, rất nhiều công ty kinh doanh trên internet thường có thêm mailserver phục vụ miễn phí cho mọi đối tượng được tự do đăng ký "thùng thư" cá nhãn.
16
• Dịch vụ thông tin theõ nhóm (Usenet): Dịch vụ này cho phép người sử dụng mạng có thể tham gia “sinh hoạt” theo các nhóm thông tin (Newsgroup), trong đó họ có thể gửi hay nhận các thông tin cho các thành viên khác cùng tham gia trong chủ đề này. Các nhóm thồng tin được trình bày theo chủ đề, không phân biệt thời gian cập nhật, tách biệt độc lập giữa các nhóm với nhau và độc lập với dịch vụ thư điện tử. Đồng thời, việc đăng ký tham gia vào nhóm tin, xoá tên đã đãng ký, gửi và nhận tin thao tác rất đơn giản và thuận tiện. Do dịch vụ này rất thuận lợi nên từ thời kỳ đầu internet chỉ có 7 nhóm tin (sã- khoa học, soc-xã hội, comp-computer...), song đến nay có thể tới hàng chục ngàn nhóm tin khác nhau trên mạng. Tuy nhiên, do những lý do nhất định, nhiều nhóm tin không tham gia vào hệ thống dịch vụ “Usenet” chung, mà chúng tồn tại theo nhóm độc lập riêng hay các nhóm chỉ “trao đổi nội bộ” trong diện đối tượng hẹp trên mạng.
• Dịch vụ tìm kiếm thông tin gopher, WAIS (Wide Area Information Server) và dịch vụ truyền siêu văn bản HTTP (Hyper Text Transport Protocol) hoặc WWW (World Wide Web): Với mục đích phối hợp với dịch vụ trao đổi tệp dữ liệu, gopher cho phép người sử dụng mạng có thể tìm kiếm và hiển thị thuận tiện các tệp dữ liệu có trên mạng, thường với các tên theo từ khoá và các đường đẫn từ trang gopher đến các trang khác. Cũng hoạt động tương tự, dịch vụ WAIS (Wide Area Information Server) tìm kiếm theo các cụm dữ liệu dưới dạng ký tự ựree-text databases). Nhờ vậy, dịch vụ này có công năng rất mạnh để tìm kiếm, thu thập và cung ứng thông tin. Song song với hai dạng trên, phương án liên kết các tệp dữ liệu trong từng máy chủ để tạo ra dạng cung cấp thông tin hiệu quả hơn đã xuất hiện dịch vụ truyền thông tin siêu văn bản HTTP (Hyper Text Transport Protocol) và Web (www, W3 hoặc Web). Với dịch vụ thông tin mới này, khá năng trình bày, nội dung hiển
17
thị, đường dẫn đến các cơ sờ dữ liệu hay các dạng dịch vụ khác rất đa dạng. Nhờ vậy, dã tạo ra phương án cung cấp thông tin nhanh chóng và hiệu quả, môi trường giao tiếp thân thiện và hết súc thuận lợi cho khách hàng. Với ưu thế to lớn của mình, ngày nay hầu như dịch vụ WWW đã thế chỗ hoàn toàn cho dạng dịch vụ gopher và WAIS (các Web server
đều có khả năng giao tiếp kết nối với các gopher server và ftp server). Để giao tiếp với các Web server khách hàng thường sử dụng các chương trình trình duyệt Web, trong đó ba chương trình trình duyệt mạnh nhất hiện nay là: Microsoft Internet Explorer (của Microsoft
Corp.), Netscape Explorer (cùa Netscape Communication Corp.) và AOL Browser (của American On Line Corp.).
2.4. Truy cập tìm kiếm dữ liệu thông tin qua internet
Cũng như các lĩnh vực khoa học khác, người ta hầu như không thể hy vọng liệt kê ra được phần lớn các cơ sở dữ liệu liên quan đến công nghệ sinh học, thậm chí sẽ không có một giải pháp tối ưu nhất để tìm kiếm thông tin dù chỉ trong một lĩnh vực hẹp. Giải pháp tương đối đơn giản và thường áp dụng với những người khởi đầu tham gia khai thác thông tin qua internet là:
• Sử dụng các trang công cụ tìm kiếm phổ dụng trên tntemet như: www.vahoo.com: www.google.com; www.altavista.com; www.webferret.com...
* Vào một cơ sở dữ liệu lớn đã biết gần gũi với chuyên mục cần tìm kiếm. Sau đó sử dụng các đường dẫn siêu liên kết mặc định (các đường “links”, “hyperlink”, lệnh “go”...) để mờ rộng khả năng tìm kiếm sang các cơ sở dữ liệu khác.
18
Cần chú ý rằng, với mỗi cơ sở dữ liệu đều chứa đựng khối lượng thông tin rất lớn, nguồn tin được cập nhật bổ sung và hoàn thiện liên tục, có thể có những thông tin lại được trình bày dưới các dạng chủ đề khác nhau và có thể tồn tại một vài khác biệt nhất định trong các chương trình xử lý dữ liệu thực nghiệm giữa các tổ chức sở hữu.
Bên cạnh việc tìm kiếm trên, một trong số các giải pháp cập nhật thông tin nhanh và hiệu quả là đăng ký tham gia dịch vụ trao đổi tin theo nhóm theo những chuyên đề hẹp quan tâm (dịch vụ Usenet hoặc dạng tương tự). Ngoài ra, mỗi cá nhân có thể “sở hữu” kiểu tìm kiếm thông tin hữu hiệu hơn và việc tiếp thu thông tin bạn bè giới thiệu lại... trong nhiều trường hợp lại là cách tiếp cận nhanh chóng và hiệu quả đến nguồn dữ liệu mong muốn.
Bảng 2.1. Địa chỉ một số nhóm tin liên quan đến công nghệ sinh học (http://www.bioremediationgroup.org/BioLinks/links/news.htm)
Agriculture news:sci.agriculture Agroforestry Research news: bionet.aeroforestrv Biology Announcements news:bionet.announce Audubon Society news:alt.org.audubon Biology (Journals and Publications) news:bionet. journals, contents Biology of Grasses news:bionet.biolo2V. grasses Biotechnology news:sci.bio. technology Botany news:sci.bio.botanv Chemistry news:sci.chem
Chemical Engineering news:sci.engr.chem Civil Engineering news:sci.ener.dvil Ecological Research news-.sci.bio.ecology Energy, Science, & Technology newsisci. energy
Entomology news:sci.bio.entomoloev.misc Environment and Ecology news:sci.environment Fisheries Science news:sci.bio.fisheries General Biology & Science news:bionet. general
19
General Engineering news:sci.ener
Geology news: sci.eeo.eeoloev Hydrology news:sci.eeo.hvdroloev Microbiology news: sci .bio.microbioloev Microbiology (Bionet Newsgroup) news:bionet.microbioIoev Microscopy Techniques news:sci.techniaues.microscoDV Petroleum Geology news:sci.eeo.De troleum Population Biology ne ws: bionet. populat ion-bio Scientific Research news:sci.research Toxicology news:bionet.toxicoloev Tropical Biology news:bionet.bioloev.troDica! Energy and Renewable Resources news:alt.enerev.renewable Environmentalist Causes news:alt.save.the.eanh Technology Topics news:alt.technoloev.misc Symbiosis Discussion and Research news:bionet.bioloev.svmbiosis Biosphere and Ecology news:bit.listserv.biosph-l Conservation ne ws: sci. bio. conservation Meteorology news:sci.geo.meteorology
Chaotic and other Nonlinear Systems
news:sci.nonlinear
Computational Fluid Dynamics news:sci.Dhvsics.comDutational.fl uid-dvnamics
Polymer Science ne w s: sci. polymers Systems Science news:sci.systems Magnetic Resonance Imaging and news:sci.techniques.mae Spectroscopy resonance
Mass Spectrum Techniques news:sci.techniaues.mass-sDec Spectrum Analysis ne w s: sc i. techniq ues. SDectroscoov
Miscellaneous Research Testing Techniques
news:sci.techniques.testine.misc
Nondestructive Testing Techniques news:sci.techniaues.testine.nonde structive
Crystallography news:sci.techniques.xtalloeraDhv Environment news:talk.environment Waste Management news:sci.environment.waste Plant Science ne ws: bionet. d1 ants
20
3Cơ sở DỮ LIỆU
CÔNG NGHỆ SINH HỌC
3.1. Đại cương
Công nghệ sinh học là một lĩnh vực khoa học trẻ, đa ngành, phát triển rất năng động và hết sức mạnh mẽ trong nửa cuối thế kỷ XX. Nếu như công nghệ thông tin và internet được xem là công nghệ của thế kỷ XX, thì rất nhiều ý kiến dự báo đều cho rằng công nghệ sinh học sẽ trở thành công nghệ phát triển mạnh mẽ và năng động nhất của thế kỷ XXI. Rất nhiều quốc gia trên thế giới đã xác định công nghệ sinh học là một lĩnh vực khoa học công nghệ trọng điểm trong chiến lược phát triển đất nưốc. Nhờ vậy, trong thời gian qua công nghệ sinh học đã nhận được sự đầu tư đáng kể của các chính phủ, đã huy động được tiềm lực khoa học và công nghệ không chỉ các cơ quan chuyên sâu, hoạt động trực tiếp trong lĩnh vực của mình, mà còn mở rộng sang cả nhiều công ty vốn không có truyền thống hoạt động về công nghệ sinh học.
Về tiềm lực khoa học và công nghệ sinh học, các cường quốc công nghiệp hàng đầu, do ưu tiên tập trung đầu tư từ rất sớm nền công nghệ sinh học của các quốc gia này phát triển hết sức mạnh mẽ, vượt trội toàn diện, triệt để và bỏ rất xa các quốc gia đang phát triển. Như một hệ quả tất yếu, nãng lực lưu trữ, xử lý và khai thác cơ sở dữ liệu nói chung, và dữ liệu về
21
công nghệ sinh học nói riêng, cũng tập trung cao độ trong các ngân hàng dữ liệu thuộc ba trung tâm khoa học và công nghệ hàng đầu thế giới là: Mỹ, Cộng đồng Châu Âu và Nhật Bản. Một số quốc gia đang phát triển, nhờ chiến lược đầu tư trọng điểm nên cũng đã thu được một số thành cộpg nhất định trong từng lĩnh vực (thí dụ, thành tựu về lúa lai của Trung hay thành tựu về công nghệ sinh học trong sản xuất thuốc điều trị của Cùtìể..).
Tuy nhiên, trong kỷ nguyên công nghệ và hội nhập quốc tế hiện nay, để. đẩy nhanh tốc độ phát triển công nghệ sinh học thì mỗi quốc gia, dù ở bất cứ trình độ công nghệ nào cũng phải xem hợp tác quốc tế là một thực tế tất yếu của thời đại. Hcm nữa, ưu thế về đa dạng sinh học lại tập trang cao &
vành đai xanh nhiệt đới, chứ không phải thuộc các nước công nghiệp phát triển. Nghĩa là, trong lĩnh vực công nghệ sinh học, mọi quốc gia. trên thế giới đều rất cần sự “cộng tác và hỗ trợ” từ các quốc gia khác. Cũng nhờ đặc điểm này nên ngay các ngân hàng dữ liệu lớn của các quốc gia công nghiệp hàng đẩu cũng rất “hào phóng” trong việc tiếp nhận thông tin mói và cung cấp những “trợ giúp cần thiết” cho các nhà khoa học sinh học trên toàn thế giới, thông qua dịch vụ internet. Thực tế này, đã tạo ra cơ hội thuận lợi cho các nhà khoa học và công nghệ ở nưốc đang phát triển trong việc tiếp thu thành tựu khoa học và công nghệ mới phục vụ cho mục tiêu nghiên cứu của mình. Trên nền tảng công nghệ thông tin và internet, cơ sờ dữ liệu công nghệ sinh học và hợp tác trao đổi thông tin đã thực sự liên thông và liên kết quy mô toàn cầu. Từ hầu hết các cơ sở dữ liệu đều có thể tìm thấy các đường dẫn siêu liên kết đến các cơ sở dữ liệu khác. Đồng thời, các trung tám dữ liệu lớn như NCBI, EBI, WFCC-MIRCEN và ExPASy thực hiện chế độ trao đổi dữ liệu và cập nhặt thông tin trong ngày. Sau đây, cuốn sách cung cấp cho bạn đọc một vài địa chỉ của các ngân hàng dữ liệu lớn trẽn thế giới để tham khảo.
22
% NCBI National Center for Biotechnology Information
Naiiocnl Iibtarv or Mcdidnc National In&iiuu* of Health
r . z : . ’?z Entr
1 Search 1 Enfrez i s jf a r )
» What does NCBI do?
püDilC
GenEank
Sequence
subm ission support and SGÏÏ are
Literature
databases
Pub Med. OMIM, Boo*'?, and
PubMed Central
Molecular
databases
Sequences,
structures, and ta /o n o rv .
Genomic
biology
The human
genome, v/hoie genom es, and
related resources
Tools
Data mining
Established in 1988 as a national resource for molecular biology information, NCBI creates public databases, conducts research in computational biology, develops software tools for analyzing genome data, and disseminates biomedical information - all for the better understanding of molecular processes affecting human health and disease. More...
rJ ^ £ ß jT h e n e w My NCBI has replaced the lN V ^ D l Cubby and indudes automatic e-m ailing of search updates and filtering search results. A tab form at is used fo r features such as Lim its and displaying filtered search results.
Entrez Gene
You can now use Entrez to search fo r in fo rm a tio n centered on th e concept of a gene, and connect to m any sources of related in fo rm a tio n both w ith in and outside NCBI.
Ị Ẽ P u b M e d C e n tra l
An archive of life sciences journals
0 Fieefulltext
0 Over 300,000 articles from over 150 journals 0 Linked to PubMed and fully searchable Use of PubMed Central requires no registration or fee. Access it from any computer *ith an Internet connection.
► Assembly Archive
► Clusters of
orthologous groups
^ Coffee Break.
Genes & Disease. NCBI Handbook
► Electronic PCR ► Entrez Home
► Entrez Tools
► Gene expression omnibus (GEO)
► Human genome resources
► LocusLink
► Malaria genetics & np.nnmirs
► Map Viewer
► dbMHC
► Mouse genome resources
► ORF finder
Hình 3.1. Đ ịa chỉ và ảnh trang chủ của Trung tám Thông tin Quốc gia về Công nghệ Sinh học Mỹ
{National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, USA)
( http://www.ncbi.nlm.nih.govA)
23
• Databases Home • Datacase 8rơ*smg &
ErfryRetoeval
• NudeoMe Databases
• Sfrudwe Databases • MkroarTay Database • merafcjre Databases • View ai Databases
at the EBI
The mam mrssjons of the EiffDpean BwMrüonwabcs
Instame (EBl) centre on buk&ng. maírtañng and
prtMdng bioto^cai databases and rdorrnaüon serwce
to support data đeposầion and exploration
■ a a j B H B g j ; a - Europe's pnmary coSectnn of nucleotide sequences ts maintained m colaboration with Genbanfc (USA) and DOflJ (Japan)
> IMPrat K—wtei t t a i c - a comp*ete annotated protest sequence ..................................................- ......... - European Project for the management and dislrtwtion of data on macromoteciiar structures • O n a b t r e a - lor gene e*p»ess«n data
• Etrsettm - Pim ktng up to dale completed meuaoic genomes and the best possiiie automatic a m U m
We ha«« many other databases avaiabte odudng Kerature ctation databases such as Medre You can browse the databases we have avarfable by choosing the appropriate category on the lei naxgatnn column
ijnrf^ 3 4 Released
JniProt Dec 21st 2004 - The UrâProl Release 3 4 consists at
Swtss-Prot Protew Kno*4edgebase Release 45 4 and
TrEfc®L Protem Database Release 30 4 more
GOA Released
The new release of GOA cortare UñProt GO v24 0.
GOA. Human v2B 0. GOA Mouse *12 0. GOA Rat ¥12.0
arid GOA P 06 »150 KW
Dec 1 » 2 W -Release 81 of the EKBL Nucleotide
Sequence Database contaris 46.105.397 sequence
entnes compns^q 79.271 ,300jB4C nucleotides .of wrfvch
5.406558 ertnes 34.986.04' .399 nucleotides) are
WGS (who*e genome shotgwt) data See M Retease
notes arid user manual for more del ads
WerPro »8 1 Released
3 2 D129-0133.
InterProj
NDV2MI2M4 - HerProBI »s out wdh 11330 erfries. ewer 1 6 mdbon to UntfVot and new inks to SVKSS
MOOEL. PAWDiT and MSOsite See Release Motes for detai-s
ỊUniProtỊ
Hình 3.2. Địa chỉ và ảnh trang chủ của cơ sở dũ liệu thuộc Viện Tin Sinh học Cháu Âu
(European Bioinfomiatics Institute. England)
(www .ebi ■ ac ■ uk/databases)
24
it Graduate Program
mm * lÉniiini má W
léanme «t€»*eties
J h i . > Wi . . ^ » i>M |6 .« i» « » « jO an S K n — |. DMA D ata Bank, o? Jacan
yypÇÇ-MiffÇ£N
} - S w e p t Res o lte s P a te a s e (SHIG EN)
Nem atode Gene Expression D atabase E.coü Ge n o u x D atabase (PEC)
, » Local Information
D evelopm ent and m aintaina nce o f g e ne tic sto cks
-E coN - Mouse - Hydra - Rice - Drosophila 1
- Nem atode cDNA Library
D istrib u tio n o f Libraies. V e cto rs C lones and A n tibo di
- Cloning Vectors - Drcsgphila Segmentas op Antibodies
C om pu te r S ystem
- NIG Supercomputer System
Hinh 3:3. Dia chi và dnh trang chù cua ca so dû lieu thuôc Viên Gen Quóc gia Nhât Ban
(National Institute of Genetics, Japan)
(www.nig.ac.jp/section/service.htmI)
25
Search |Sw»s9-ftmfl"fEfcBL 3 fee I
ExPASy Proteomics Server
• T W E afA g rF T P « .
• - 7K±otB2txJh ot*aB (by ami) a
triersI« to TOV fiddfs) of e x n pst
> M aste r's ể t g w ■ f t n w M t i j
> f t u i iM Ír» em unet - two C0WSC5 o w t i n s
M iS i spectrometry fo i ProCcoBMcs
■ S\MSS-2D s m V IC E - get your 2-D Gets p a io tn c d accordng to Swiss standards
■ A— 1* W W W h b - TW EzPASy k a ofB to n o ie cifa servers . S a H l - Search ứ>e gẩgnet for molectfar bxatogy «Ểonaacoo . W O R LD -2D PAG E - Lafcs to 2-D PACT database s e m i x>d 2-1» r AGE rdated servers aod scrvKes
« 2D H i - j- D dedrc^borcsB fbder
» CMS-SDSC - H it CMS-SDSC M oJeoiar £*oJogr Resowte > BiatogT fa k i - £r«a Harvard Unwersiy
. Yafc— - ScinHTeiBiaUgT
• P n te B S p tE riht
■ S w tt-O m
• Smi%% ĩmsãtme aíBimmímn ■ TW HgaằA Oa «w Net f—
. Sw ĩĩt-J«kes > G f t P m
> P r t r » r r a la «U ie »
Hình 3.4. Địa chỉ và ảnh trang chủ của cơ sở dư liệu vé hệ thống nghiên cứu phán tích cấu trúc protein của Thuy S ĩ
(E.xPASy Proteomics Server, Swiss Institute of Bioinformatics) (www .expasy.org)
26
The Global Biaresource Center ATCC TOUT U I K O V c il c s ■ I tv
i JP BSeginvtfthJJS.
" ■ J . l l f .I.M .I.' .I B M I
:» iiia i g e tjon»fc o t i*»e irto o tl •
The genome of f f a n r f ln rpnrngrpy/ show* unique adaptations to
Searci: |--- Choose' Opbon -■
Its marine aMw d w n qnt (Natupa 432: 910-913, 2004). We have the
culture and the DNA from this organism, the first mem ber of a
m ajor heterotrophic d ade to be sequenced. (Photo court. i y of
UnivarsRat GStUng.n.)
I I:.
we've illustrated the intrinsic and extrinsic aoootosis pathways to
show the genes associated with each step. You can follow links tc
NCBI gene data and learn about done availability m ATCC's
catalog. Apoptosis detection kits and related cell lines are also
noted when appropriate.
Finding the done you need is easier than ever. Our new done sea
allows you to search specifically by GenBank accession number,
I.M.A.G.e. done ID, or ATCC number. Look for a single d one or submit
your entire list. We also offer a full range of j ‘ * '
Join our mailing list to request a copy of our cell biology printed catalog.
You can also receive our ATCC Connection newsletter and product
announcements.
There's no mistaking the d e ar glow of caspase activity with our
fluorescence-based apoptosis detection kits. Choose from a variety of
fluorescent labels that offer both poly- or specific caspase detection. Or
see our complete line of products for apoptosis for identifying other
steps in the apoptobc process.
products for stem cell research. These indude fully characterized
nonhuman embryonic slem (6S) cells and lineage- or tissue-specific
neonatally derived stem cells from several species. In addition, we offei
ES-qualrfied support products like feeder layer cells, media, sera, and
reagents.■0
ATCC has added three new competent cells to our line of molecular
tools. Choose from two high-efficiency, phage-resistant cells or our
cells for subdoning in M13 or phagemid system s. We also offer
ready-to-use SOC Medium to make transformabon a snap.
Cell Resource
Hình 3.5. Địa chỉ và ảnh trang chủ của Viện Bảo tàng Giống Quốc gia Mỹ (American Type Culture Collection)
(www.atcc.org~)
27
About DSMZ
Catalogues
Search
Ordering/Prices
Patent- and Safe D e p o s i t
Deposit in the
Geneial Collection
Identification and Characterization
Research/Projects Publications
Download
Links
Bacterial
Nomenclature
News/Events/Jobs
NEW POSTAL
REGULATIONS im p r ih t/ i m p r e s s u m
Deutsche Sarmtfung von
Mikroorganãnien und
ZeU ojfturen GflnbH
German Collectian
of Microorganisms and Cell Cultures
Visit our New Website!
Please note: Some sites are still under construction
{Collections (click link below for more information)
Microorganisms Plant Cell Lines Plant Viruses
DSMZ - Deutsche Sammlung von Mikroorgamsmen und Zellkulturen GmbH (Gennpn Collection of Microorganisms and Cell Cultures) is an independent, non-profit organization dedicated to the acquisition, charactenzation and identification, preservation and distribution of Bactena. Archaea. fungi, plasmids, phages, human and animal cell lines, plant cell cultures and plant viruses.
Research and Training at a Culture Collection financed fay the EC As a Large Scale Facility recognized by European Commission withm the Framework of the 'Human Potential Programme - Access to Infrastructures' the DSMZ ofiers facilities for research and/or training Grants are available to scientists from member states of the European Union (excluding Germany) and Associated States. More information here
New: The most comprehensive mvxobacteria iMvxococcales) collection world-wide.
Please send questions and comments to DSMZ email
Hìnlĩ 3.6. Đia chỉ và ảnh trang chủ của Viện Bảo tàng Giống Quốc gia Cộng hoà Lién bang Đức
(Deutsche Sammlung von Mikroorganismen und Zellkulturen) (www .dsm z.de)
28
3.2. Đặc điểm của dữ liệu công, nghệ sinh học
Nguồn cơ sở dữ liệu liên quan đến sinh học được truyền tải trên mạng vô cùng đa dạng, phong phú về chủng loại và đồ sộ về khối lượng, với tốc độ gia tăng mạnh mẽ theo thời gian, về nội dung, cơ sở dữ liệu trải rộng trên tất cả các mặt khác nhau, từ các thông tin chung về tiềm lực khoa học và công nghệ của các cơ quan, đến các thõng tin về các công trình khoa học đã công bố, các tạp chí chuyên ngành... Trong đó chiếm khối lượng lớn và đa dạng nhất là các kết quả nghiên cứu trên đối tượng sinh học. Đặc điểm chung nhất của các dữ liệu này là được biểu diễn dưới dạng sô' hay ký tự trong các tệp dữ liệu đơn lẻ hay dưới dạng các chương trình thuật toán hoàn chỉnh rất thuận tiện để cất giữ hay trao đổi. về đặc điểm cấu trúc, nguồn thông tin này có thể phân chia sơ bộ thành hai mảng lớn là mảng dữ liệu sơ cấp và mảng dữ liệu thứ cấp:
/
• Mảng dữ liệu sơ cấp bao gồm tất cả các dữ liệu thu được qua phân tích trực tiếp, bằng các trang thiết bị tưcmg ứng, thí dụ cơ sở dữ liệu thực nghiệm phân tích cấu trúc DNA, cấu trúc chuỗi amino axit, cấu trúc và đặc tính enzym, về các hợp chất hữu cơ khác (hydratcarbon, vitamin, lipid...) hay các đặc tính phân loại sinh học, thông tin về đa dạng sinh học, về các đường hướng trao đổi chất trong cơ thể sống...
• Mảng dữ liệu thứ cấp bao gồm các dữ liệu và thông tin thu được trên cơ sở phân tích, khái quát hoá, hệ thống hoá hay thông tin mô phỏng cho từng đối tượng hay nhóm đối tượng sinh học trong thế giới tự nhiên. Mảng dữ liệu này được hình thành thông qua việc xử lý hàng loạt mảng dữ liệu thực nghiệm rời rạc, để từ đó có thể khái quát hoá thành quy luật biến đổi của nó hay mảng dữ liệu hình thành khi xử lý các kết quả nghiên cứu cụ thể, trên cơ sở các quy luật đã phát hiện được qua khai
29
thác cơ sở dữ liệu công nghệ sinh học. Màng dữ liệu này bao .gồm cả mảng thông tin mà qua đó nhà sinh học có thể khai thác phục vụ cho việc định hướng, hoạcli định kế hoạch và tổ chức thực nghiệm khoa bọc tiếp theo sao cho hiệu quả hơn. Hoặc trên cơ sờ phát hiên nắm bắt đuợc quy luật vận động của tự nhiên kết hợp với nền tảng Iogic chính xác của thế giới sống, nhà sinh học có thể xây dụng ý tường, mô phỏng “thiết kế” ra các sản phẩm hoàn toàn mới, thậm chí có thể chua xuất hiện trong thiên nhiên... Để xử lý phân tích cơ sở dữ liệu trên, dương nhiên không thể xem nhẹ vai trò cùa các chương trình hay các thuật toán xử lý dữ liệu sinh học ứng dụng. Các chương trình này được thiết kế độc lập, hoặc từng phần hoặc toàn bộ, dưđi dạng tích hợp ngay trong các thiết bị phân tích hiện đại. Chính các yếu tố này cũng là mảng dữ liệu hết sức quan trọng, góp phần tạo ra ưu thế ứng dụng to lớn của tin-sinh học.
3.3. Một số cơ sở dữ liệu sinh học lớn trên thế giới
Cơ sờ dữ liệu sinh học là cả một kho tàng dữ liệu khổng lồ, được lưu giữ trong hệ thống rộng lớn các cơ sờ dữ liệu, dưới nhiều hình thức và đinh dạng khác nhau, trong đó chiếm khối lượng lớn và nội dung phong phú nhất là mảng dữ liệu sinh học phân tử và công nghệ sinh học. Quy mô và cấu trúc của từng cơ sờ dữ liệu có những đặc điểm riêng, song nhìn chung có thể phán chia theo nội dung thành một số mảng dữ liệu chính lớn sau:
• Dữ liệu về thóng tin thõng thường (sách, tạp chí, tài liệu thông tin... dạng sô hoá), thí dụ: cơ sờ dữ liệu về các công trình khoa học đã công bố PUBMED (http://www.ncbi.nlm.nih.gov/PubMed/). cơ sở dữ liệu tập trung về mảng y - dược (http://www.embase.com). cơ sờ dữ liệu về mảng nông nghiệp (http://www.nalusda.gov/general info/agricola/
30
agricola-html). cơ sở dữ liệu tập trung về mảng thông tin về cổ sinh học và động vật hoang dã (http://www.biosis/org). cơ sở dữ liệu tập trung về mảng bệnh học trong nông nghiệp (http://www.cabi.org)
• Dữ liệu về phàn loại học, thí dụ: cơ sở dữ liệu về phân loại sinh học của NCBI (http://wvyw.ncbi.nlm.nih.gov/taxonom vA. cơ sờ dữ liệu về hệ thống thông tin phân loại các giới (http://www.itis.usda.gov/itis/). cơ sở dữ liệu của tổ chức quốc tế về các thông tin chung về thực vật (http://www.iopi.csu.edu.au/iopi/) ... (mảng dữ liệu này rất phong phú về chủng loại, song trong chừng mực nhất định vẫn bị ràng buộc do sự khác biệt tương đối còn tồn tại giữa một vài hệ thống phân loại).
• Dữ liệu về cấu trúc và đặc tính của nucleotide và genom: Đây là một trong hai mảng lớn nhất, đa dạng và phong phú nhất trong kho tàng dữ liệu công nghệ sinh học. về dữ liệu cấu trúc chuỗi nucleotide, trước hết phải kể đến cơ sở dữ liệu hợp tác liên kết chung giữa EBI, NCBI và DDBJ (khi cần khai thác có thể truy cập vào một trong ba địa chỉ: http://www.ncbi.nlm.nih.gov/Genbank/index.html.
http://www.ebi.ac.uk/embl/databases/. hay http://www.ddbi.nig.ac.ip.
Về dữ liệu genom có thể thí dụ một vài cơ sở dữ liệu lớn như: cơ sở dữ liệu về gen người (OMIM: http://www3.ncbi.nlm.nih.gov/Omim/ và GDB: http://www.gdb.org). cơ sờ dữ liệu về vi khuẩn E. coli (http://cgsc.biology.vale.edu/top.html và http://www.susi.bio.uni giessen.de/ecdc/ecdc.html~). cơ sở dữ liệu về nấm men
(http://www.mips.biochem.mpg.de/proi/veast/ và http://genome WWW.stanford.edu/Saccharomvces/)
• Dữ liệu về cấu trúc và đặc tính chuỗi amino axit và protein được xem là một trong hai mảng dữ liệu lớn nhất về công nghệ sinh học. Trong nhóm này phải kể đến các cơ sở dữ liệu lớn như: Protein Information
31
Resources PTR (http://www.nbrf.georgetown.edu). SWISS-PROT (http://www.expasv.ch hay http://www.cbi.ac.uk/swisspmrA TrEMBL (http://www.ebi.ac.uk/trEMBL/>.
PROSITE (http://www.expasv.ch/prosite/>, PRINTS
(http://www.bioinf.man.ac.ulc/bsni/dbbrowser/PRINTS/FRINTS.htnil).. cơ sờ dữ liệu proteomic trong (http://www.genom.ad.ip/kegg/. http://wiLincs.anl.gov/Wrr2/. http://www.ncbi.nlm.nih-gov/COG) ...
• Dữ liệu về enzyme và các dường hướng trao đổi chất, thí dụ ENZYME Databases (http://www.expasv.ch/enzvme/). về đặc tính enzyme BRENDA (http://www.brenda.uni-lcoeln.de/brenda/). về enzyme và phản ứng enzyme (http://www.genome.ad.ip/dbget/ligand.htinl) ...
Mỗi cơ sờ dữ liệu' có thể định hướng tập trung vào những mảng thông tin riêng. Song tất cả mọi cơ sờ dữ liệu đều được xây dựng với tiêu chí đảm bào dễ dàng truy cập, quản lý, và khai thác cho người khai thác dữ liệu, nhằm hỗ trợ giúp họ dễ dàng tìm kiếm được thông tin mong muốn. Để thoả mãn yêu cầu trên, nhìn chung tất cả các cơ sờ dữ liệu đều cung cấp cho khách hàng các chương trình tìm kiếm và kết nối Liên thông dữ liệu rất hiệu quả, thí dụ Entrez trong NCBI, SRS trong EBI hay SRS trong DDBJ...
3.3.1. Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ Sinh học Mỹ
Cơ sờ dữ liệu Trung tâm Thông tin Quốc gia vé Công nghệ Sinh học Mỹ (National Centre for Biotechnology Informatic - NCBI) được thành lập nãm 1988. Đãy là một trong số các cơ sờ dữ liệu sinh học lớn uhất thế giới hiện nay. Cơ sờ NCBI quản lý nguồn thông tin sinh học khổng lổ, với khoảng 25.106 nhóm dữ liệu khác nhau, bao gồm từ thông tin về các công
32
trình đã công bố, đến dữ liệu về cấu trúc chuỗi DNA, cấu trúc chuỗi amino axit, cấu trúc gen các loài, cấu trúc không gian ba chiều của các cơ chất khác nhau... Nguồn thông tin dữ liệu trong ngân hàng được tổ chức và quản lý theo từng nhóm tin, với sự liên thông kết nối chặt chẽ giữa các nhóm với nhau (hình 3.7). Khi truy cập vào ngân hàng, sử dụng công cụ tìm kiếm dữ liệu Entrez, người khai thác tin có thể dễ dàng truy cập khai thác các nhóm tin trong cơ sở dữ liệu của*NCBI với các đường dẫn siêu liên kết để kết nối liên thông rất thuận tiện và hiệu quả. Sau đây là một số mảng dữ liệu lớn của trung tâm dữ liệu này:
• PubMed: NCBI là một trong sô' ít các địa chỉ tin cậy cho các nhà khoa học công bô' kết quả nghiên cứu của mình. Mỗi công trình công bố này được định dạng phân loại bằng một giá trị số (MEDLINE Unique Identifier - MUID). NCBI sử dụng mã số này làm mã hiệu cơ sở để cung cấp hàng loạt dịch vụ thông tin kèm theo, thí dụ: thông tin về tác giả, điểm tóm tắt toàn bộ công trình, tóm tắt nội dung chính, đường dẫn đến các công bố khác có liên quan... Do nhu cầu công bố kết quả nghiên cứu nói chung, và khối lượng công trình công bô' trong MEDLINE nói riêng, ngày càng tăng nên NCBI đã cung cấp loại hình dịch vụ mới PubMed.
Dịch vụ PubMed sẽ cung cấp cho người khai thác tất cả các công trình khoa học đã công bố trong MEDLINE và các cóng trình liên quan của cùng tác giả hay các công trình của tác giả khác có cùng chủ đề. Thời gian gần đây, NCBI còn đưa ra dịch vụ PubMed Central, để cung cấp thêm cho người truy cập cả những công trình khoa học đã nằm trong kế hoạch sắp phát hành (do các nhà xuất bản cung cấp để giới thiệu trước, dưới dạng thông tin tóm tắt gửi cho PubMed).
• GenBank: Là mảng cơ sở dữ liệu về cấu trúc chuỗi DNA và chuỗi amino axit, với đơn vị cơ sở là các tệp dữ liệu của từng mạch đơn, kèm theo thông tin mô tả về đặc tính của chúng. Các tệp dữ liệu này được tổ chức theo nhóm (Division ), các nhóm được tổ chức theo cấu trúc phân
33
r I> NCB1 Site Map I I s m m I
•:• PeSeq (Pefer» ences)
s dbcST (E*p*«ss«>S Sequence Tscs)
5 dbGSS (Genome Swvey Sequences)
dfc**-t 'Major Vfe»oc«r*sttjdiy Camptei)
« Ertrez Dscafcase o Eflfeez Osubase subset (Äerea »*«>)
« dbSJff1 (Sf»gle Muciectfie Paymapte m s) __ V Ã S TS (SequMce Tagged S i es) -j "^PA (Thrt Party A rr« a t« o Database) Trace Arcnfce
« LtaSTS íSỉqMBnce Tiaẹet Sites)
• P o p s « (Ễ vckixrsrỊ P etafeäress) ‘JrWvec (VeclM Seqasnces)
- VWGS (Wvote Gefionw SJ>C«3LT1 Seqoences) p « a *3 I
" U
Pro« 6*1 Sequences Stndues
Ge*es
Gene E*presaon « E rim Gen«*r»e
:- PeSaq Rafefence Seạuere&S) H « COO ilor.s-s-'-ed CcrnOT Daucase) I « VMD6 ■VoECOar V ooeurc D ataesset • 30 Domarts
« r*&l+er> BcAssarT
• P-utCflem c « r 4KXTXỈ
• PubC^en Substance
r
Gẹae Eic^eĩs-or. Onnbus)
« E-X.-SZ G eo ^Tũétes
• &*rez GEO DataSets
• GEKSAT
Til Browse»
« Erfr*zTã»5WTVỴ
■I—
dbfEST ỊE rpttseti Seọíierce Tags)
I Er*rez Genome Project N n i
Cor*aa
% Research
NCH Software Ẽnpneenng
s*e Search u
1
* jeflBanfc (general subrr*ss*jn loots)
G erS arii (!
Gene E>aressxm
¿tGSS (Gengtae Scrte s e q u e n ce ahgn m en t p ro g ra m fo r D N A o r p ro te cts *
pro d u ce s b to lo g K a ly m ea iw tg A J m u kifite s e q u e n ce Jfc g n m e rts o f (fenergen* se q u e n ce s, t
ca lc u la te s th e b e st m a tc h fa r th e s e le c te d se q u e n ce s, and lr»es th e m u p s o tha* th e < d e n « « s .
s tfn d a rtie s and A S ete nce s can be see n E vo lutio na ry re+al*oos*wps ca n be s e e n «ta mewwnq
c ta d o g ra m s o r P h yto g ra m s Ị
• CniSlaJW-FAij ■ JaNiew» Help • S cores T a t» t • Ahgr.mefsJ
■ G u id e Tree ■ C olo urs
Y O U R EM W L lMTTTTLE R ESU LTS ß i j o t m m u r C P U M O O e 1 ịsequence Ịr te ra c tm c »1 1 « Ml KTUP «T N & e vv SC O R E 7YPẼ TOPDVSG P W O f *
(W OR D SIZE) LEN GTH
\ ở e í j ^ 1 p e rc e ^ í y | R 3 |ae< j - j
HATPTX GAP OPEN EN D w GAP
GAPS E X T ẽM S K X EXST*MCES
[đ e í ^ \ứ e f ^ I« « * j d |de# r j o ự T P V T P1 -rm >G E N E T K TP E E
CAJTPXJT F O R U *T
OOTP'JT TR EE T /P E CO R R EC TC rfS T
1 aln W n ^ n b e rs H 1 s ig n e d j f J jn o o e fcl M id i ° * ± J
E f*e r o r Pas»e .a se t o f S e qu en ces X» any s upported fo rm a t r“-sn
u p lo a d a fee. 1 & ö » ö 1
Hìnli 5.1. Giao diện chương trinh ClustalW trục tuyến íhttp://ww\Y.ebi.ac.uk/clustalw/)
54
5.2. sử dụng chương trình
Dữ liệu của chuỗi cần phân tích cấu trúc phải được lưu toàn bộ trong một tệp dưới một trong các định dạng ngôn ngữ sau: FASTA (Pearson), NBRF/PIR, EMBLIUniProtlSwiss Prot, GDE, ALN/ClustalW, GCG/ MSF và GCG9/RSF (Thường các chương trình tích hợp sẵn trong thiết bị phân tích hiện đại hay dữ liệu lưu trữ trong các ngân hàng dữ liệu trực tuyến đều đã chuyển kết quả định dạng thành một trong các ngôn ngữ trên). Chương trình xử lý sẽ tự động nhận dạng cấc dạng tệp trên và phân biệt chuỗi DNA/RNA hay chuỗi amino axit.
Giả sử người phân tích muốn so sánh dữ liệu chuỗi của mình (giả định là chuỗi ký hiệu BF056441) vói các chuỗi đã lựa chọn lấy từ trong các ngân hàng dữ liệu (xem kết quả tìm kiếm, chương 9) hay so sánh nghiên cứu đặc điểm cấu trúc giữa các chuỗi trong ngân hàng có đặc tính gần gũi nhau, với các mã hiệu của chuỗi như sau:
BF056441 BE848719 BF022813 BF452255 BG089808 BG147728 AF186109 AF310722 AF362887 BI817778 AF186110 AF362886 AF087679
Để phàn tích, người sử dụng tải về từ ngân hàng dữ liệu các tệp có mã hiệu nêu trên và chép tuần tự vào cùng với tệp dữ liệu của mình thành một tệp chung (không cần phân biệt thứ tự các chuỗi được chép). Mỗi chuỗi gồm hai phần: dòng thông tin đầu (gồm 4 thông số, phân cách bằng dấu
lả: ký hiệu khởi đầu ký mã hiệu chuỗi, tên chuỗi và mô tả tóm tắt đặc tính chuỗi) và phần sau là thông tin trình tự chuỗi. Tệp dữ liệu chung có dạng như sau:
>embl:BF0564 41 BF056441; 7k05a04.xl NCI_CGAP_GC6 Homo sapiens CDNA clone IMAGE:3443238 3' similar to sw:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE mRNA sequence.
55
acagttgcaagaatctaaagtgtggattttattccattgcacaatttgctagtgtatttc ctgggtagtgtggtgctgaataaataggaataaatgctacttaaggaaaaaataagagag ctgaaaaagctggtgccatttgaaaaaaaaaagggaaggaatgagatttaactggtgctc aaagcttctccgatacaaaatatttggtcatgtattcataatttgcttgacatttccagc aaagcgaagatggcaataacaaaaggaacttcttacaagagaagagaaagacccacggag ctccagagtttctgttggaacaagactcttctgttttgcttatatacagttaagttcgtt tagtgtctgatccagtgtctgatgtaagcccacgttctcttctttggcctgggcaagttt ctcttccaggtcatcaattgtcttttccagttttgcaaccgttctctctgcaaattcagc acgggtctcagcctctttcagtttgtcagacagaagtttaatttcttcttcatatttgtc ctccttttcagaatacttttcagatgcagcctccagagatttcagattgtagttacaatt ctgagttcttctccaggtcaccacattttattcagacacctccgcacgcttctctgccct ctcagctaacccttc
>embl:BE848719 BE848719; uw40c07.yl Soares_thymus_2NbMT Mus musculus cDNA clone IMAGE:3419148 5' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE mRNA sequence. tgttaccaatctgcttggcatttcctgcaaggtggaaacctggtaataagcggaacttct tacaaaagaggaagacagggcacactctctggagtggagttggtgttaaaacagtactct tctggtttagtttatatacagttaagttcgtttagtgtctggtccagtgtctgatgtaag cccacattctcttctttggcctgggcaagtttttcttccaggtcatcgattgtcttctcc agtttagaaactgtcctttctgcaaactcagctcgggtctcagcctccttcagcttgtca gacagaagcttgatttcttcttcatatttatcctccttttcagaatacttttcagaagca gcctccagtgatttcagattgttagttacattcttgagctcttcttccaggtcaccacac tttagttcagatacctccgccctctcctctgctctcttcagctcaccctccaggatgacc aacttacgagcaacctcctcatacttgcggtcggctacgtcagtgatgtgcttggctgct ttgagctgearctccaggatctacatcttttgctcatctttcatggcttcgttctctatt accttcatgcctctctcactctcatcagcagccctctctgcctctttcagattctgcaag gctgtggccagctgcttctgaccctgtccaattccttc
>emfcl: BF022613 3F022813; uw4Cc07.xl Soares_thyir.us_2NbMT Mus ir.us cuius cCNA clone IMAGE: 3419148 3' similar to SW:TPM4_RAT P09495 TROPOMYOSIN 4, EMBRYONIC FIBROBLAST ISOFORM mRNA sequence. ccggatcccagcagaacgattgagctatggccggcctcaactcactggaggcagtgaagc gcaagatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgcaaggcctgc agcgcgaactggatggcgagcgcgagcggcgcgagaaagctgaaggagatgcagccgctc tcaaccgccgcatccaactgcrggaggaggaactggaccgggctcaggagcagctggcca cagccctgcagaatctggaagaggcagagaaggctgctgatgagagLgagagaggcatga aggtaaiagagaaccgagccatgaaagatgaggaaaagatggagatcctggagatgcagc tcaaagaagccaagcacaicactgacgaagccgaccgcaagtttgaggaggttgctcgt >e.-jDl:3F452255 3F452255; uzB€dll.yi NCI_CGAP_Lu29 Mus musculus cDNA clsr.s IMAGE:3S'7595” 5’ similar to SW:TPM4_RAT P09495 TROPOMYOSIN 4,
agatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgcaaggcctgcagc gcgaacrggatggcgagcgcgagcggcgcgagaaagctgaaggagatgcagccgetctca
56
ccctgcagaatctggaagaggcagagaaggctgctgatgagagtgagagaggcatgaagg taatagagaaccgagccatgaaagatgaggaaaagatggagatcctggagatgcagctca aagaagccaagcacatcactgacgaagccgaccgcaagtantgagaggttgctcgtaagt tggtcatcctggagggtgagctgaagagagcagaggagagggcgaggtatctgaactaaa gttggtgacctggagaagagctcaagaatgtaactaac
>embl:BG089808 BG089808; mab82bll.xl NCI_CGAP_BC3 Mus musculus cDNA clone IMAGE:3976676 3' similar to SW:TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE mRNA sequence.
agctgtcgccggagcccagcagaaCgagtgagctatggccggcctcaactcactggaggc agtgaagcgcaagatccaggccctgcagcagcaggcagacgacgcagaggatcgcgcgca aggcctgcagcgcgaactggatggcgagcgcgagcggcgcgagaaagctgaaggagatgc agccgctctcaaccgccgcatccaactgctggaggaggaactggaccgggctcaggagca gctggccacagccctgcagaatctggaagaggcagagaaggctgctgatgagagtgagag acgcatgaaggtaatagagaaccgagccatgaaagatgaggaaaagatggagatcctgga gatgcagctcagagaagccaagcacatcactgatgaagccgaccgcaagtatgatgaggt tgctcgtaagttggtcatcctggagggtgagctgaagagagcagatgagcgggcggaggt atctgaactaaagtgtggtgacctgtaataagagctcatgaatgtaactaacaatctgaa atgactggaggctgtatttgagaagtattctgaataggaggattagtatgaagaagaaga taagcttatgcctgataagctgaaggtaggtggaaaccagtctggatttgcagacaga
>embl:BG147728 BG147728; mab53f06.xl Soares_NMEBA_branchial_arch Mus musculus cDNA clone IMAGE : 3974147 3' similar to SW :TPM4_HUMAN P07226 TROPOMYOSIN, FIBROBLAST NON-MUSCLE TYPE mRNA sequence.
caactcactggaggcagtgaagcgcaagatccaggccctgcagcagcaggcagacgacgc anaggatcgcgcgcaaggcctgcagcgcgaactggatggcgagctctagcggcgcgagaa agctgagggagaggggggcgctctcaaccgccgcatccaactgctggaggaggaactgga ccgggctcatgagcagctggccacagccctgcagaatctggaagaggcagagaaggctgc tgatgagagtgagagaggcatgaaggtaatagagaaccgagccatgaaagatgaggaaaa gatggagatcctggagatgcagctcaaagaagccaagcacatcactgatgaagccgaccg caagtatgaggaggttgctcgtaagttggtcatcctggagggtgagctgaagagagcata ggagcgggcggaggtatctgaactaaagtgtggtgaccctgaagaagagctcaagaatgt aactaacaatctgaaatcactggaggctgcttctgaaaagtattctgaaaaggag
>embl:BI817778 BI817778; G3-F20 Axolotl Lambda Zap Library Ambystoma mexicanum cDNA similar to Homo sapiens
gbIAAG17014.1 IAF186109_1 (2.06-40), TPM4-ALK fusion oncoprotein type 2, mRNA sequence.
ccggggtaccctaagccttctcggatccgagactcttcttcccgttgaggcccccccccc gccccccagcagggaagatgtcgggtggcagttccatcgatgcggtgaagaagaagatcc agagccttcagcaggtggcggacgaggccgaagagcgggccgagatcctgcagagggagg tggacgccgagaggcagtgcagggagcgggccgaggcagacgtgggatcgctcaaccgcc gcatccagctggtagaggaggagctggaccgtgcccaggagcgccttgccactgccctgc tgaagttggaggaggcggagaaagctgcagacgagagtgaacgaggcatgaaggtcattg aaaaccgagccaccaaggacgaggagaagatggagatccaggagatgcagttgaaagagg ccaaacacatagcagaggaggccgaccgcaaa
57
>embl:AF186109 AF186109; Homo sapiens T P M 4-A L K fusion oncoprotein type 2 (TPM4-ALK fusion) mRNA, partial cds.
gccatggccggcctcaactccctggaggcggtgaaacgcaagatccaggccctgcagcag caggcggacgaggcggaagaccgcgcgcagggcctgcagcgggagctggacggcgagcgc gagcggcgcgagaaagctgaaggtgatgtggccgccctcaaccgacgcatccagctcgtt gaggaggagttggacagggctcaggaacgactggccacggccctgcagaagctggaggag gcagaaaaagctgcagatgagagtgagagaggaatgaaggtgatagaaaaccgggccatg aaggatgaggagaagatggagattcaggagatgcagctcaaagaggccaagcacattgcg gaagaggctgaccgcaaatacgaggaggtagctcgtaagctggtcatcctggagggtgag ctggagagggcagaggagcgtgcggaggtgtctgaactaaaatgtggtgacctggaagaa gaactcaagaatgttactaacaatctgaaatctctggaggctgcatctgaaaagtattct gaaaaggaggacaaatatgaagaagaaattaaacttctgtctgacaaactgaaagaggct gagacccgtgctgaatttgcagagagaacggttgcaaaactggaaaagacaattgatgac ctggaagtgtaccgccggaagcaccaggagctgcaagccatgcagatggagctgca
>embl:AF186110 AF186110; Homo sapiens TPM4-ALK fusion oncoprotein type 1 (TPM4-ALK fusion) mRNA, partial cds.
ctctcagccaggcggattgaaggatggaattccaacgaggctcccccgcctcgtcccacc ttggctgaaggtgatgtggccgccctcaaccgacgcatccagctcgttgaggaggagttg gacagggctcaggaacgactggccacggccctgcagaagctggaggaggcagaaaaagct gcagatgagagtgagagaggaatgaaggtgatagaaaaccgggccatgaaggatgaggag aagatggagattcaggagatgcagctcaaagaggccaagcacattgcggaagaggctgac cgcaaatacgaggaggtagctcgtaagctggtcatcctggagggtgagctggagagggca gaggagcgtgcggaggtgtctgaactaaaatgtggtgacctggaagaagaactcaagaat gttactaacaatctgaaatctctggaggctgcatctgaaaagtattctgaaaaggaggac aaatatgaagaagaaattaaacttctgtctgacaaactgaaagaggctgagacccgtgct gaatttgcagagagaacggttgcaaaactggaaaagacaattgatgacctggaagtgtac cgccggaagcaccaggagctgcaagccatgcagatggagctgcagagccctgagtacaag ctgagcaagctccgcacctcgaccatcatgaccgactacaaccccaactactgctttgct ggcaagacctcctccatcagtgacctgaaggaggtgccgcggaaaaacatcaccctcatt cggggtctgggccatggcgcctttggggaggtgtatgaaggccaggtgtccggaatgccc aacgacccaagccccctgcaagtggctgtgaagacgctgcctg
>enbl:AF310722 AF310'722; Hcno sapiens tropomyosin 4-anaplastic lymphoma kinase fusion prorein (TPM4-ALK) mRNA, partial cds. cgcgccatggccggcctcaactccctggaggcggtgaaacgcaagaticcaggcccrgcag cagcaggcggacgaggcggaagaccgcgcgcagggccrgcagcgggagctggacggcgag
g-tgaggaggagttggacagggctcaggaacgactggccacggccctgcagaagctggag gaggcagaaaaagctgcagatgagagtgagagaggaatgaaggrgatagaaaaccgggcc atgaaggargaggagaagatggagarrcaggagatgcagctcaaagaggccaagcacaT:' gcggaagaggctgaccgcaaatacgaggaggtagctcgtaagcrggrcarccrggaggg'c gagcnggagagggcagaggagcgtgcggaggrgtcigaac-aaaatgcggrgaccrggaa gaagaactcaagaatgttactaacaatctgaaarcrctggaggcrgcarcrgaaaag'a' ici:gaaaaggaggacaa5~a‘:gaagaagaaa'"aaact“c-rgrcrgacaaactgaaagag gctgagacccg-gc~gaa.--gcagagagaacggrT:gca2aac-ggaaaagacaa-rgat
58
gacctggaagtgtaccgccggaagaaoaaggagctgcaagccatgcagatggagctgcag agccctgagtacaagctgagcaagctccgcacctcgaccatcatgaccgactacaacccc aactactgctttgctggcaagacctcctccatcagtgacctgaaggaggtgccgcggaaa aacatcaccctcattcggggtctgggccatggcgcctttggggaggtgtatgaaggccag gtgtccggaatgcccaacgacccaagccccctgcaagtggctgtgaagacgctgcctgaa gtgtgc
>embl:AF36288 6 AF362886; Homo sapiens tropomyosin 4-anaplastic lymphoma kinase fusion protein major isoform mRNA, partial cds. ctggcagagtcccgttgccgagagatggatgagcagattagactgatggaccagaacctg aagtgtctgagtgctgctgaagaaaagtactctcaaaaagaagataaatatgaggaagaa ^t-caaga£.tcttalptgataaactc3^.ggaggcagagacccgtgctgaatttgcagagaga a©ggt tgcaaaaetggaaaagacdS^t gatgacctggaagtgtaccgccggaagcaccag ga»gctgcaagccatgcagatggagctgcagagccctgagtacaagctgagcaagctccgc tr y ' - - •• "
>embi:AF362887 AF362887; Homo sapiens tropomyosin 4-anaplastic lymphoma kinase fusion protein minor isoform mRNA, partial cds. cgagaagttgagggagaaaggcgggcccgggaacaggctgaggctgaggtggcctccttg aaccgtaggatccagctggttgaagaagagctggaccgtgctcaggagcgtgcggaggtg tctgaactaaaatgtggtgacctggaagaagaactcaagaatgttactaacaatctgaaa tctctggaggctgcatctgaaaagtattctgaaaaggaggacaaatatgaagaagaaatt aaacttctgtctgacaaactgaaagaggctgagacccgtgctgaatttgcagagagaacg gttgcaaaactggaaaagacaattgatgacctggaagtgtacctccggaagcaccaagag ctgcaagccatgcagatggagctgcagagccctgagtacaagctgagcaagctccgcacc ctcgac
>embl:AF087679 AF087679; Sus scrofa tropomyosin 4 (TPM4) mRNA/ complete cds.
atggccggcctcaactccctggaggcggtgaaacgcaagatccaggccctgcagcagcag gcggacgaggcagaggatcgcgcgcagggcctgcagcgggagctggacggcgagcgcgag cggcgggagaaagccgaaggggatgtagcagctctcaatcggcgcatccaactcgttgag gaggagttggacagggctcaggaacgactggccacagccctgcagaagcttgaggaggca gaaaaggctgcagatgagagcgagagaggaatgaaggtgatagaaaaccgggccatgaaa gatgaggagaagatggagattcaggagatgcagctcaaagaggccaagcacattgccgag gaggccgaccgcaaatacgaggaggtagctcgtaagttggtcatcctggagggcgagctg gagagggcagaggagcgtgccgaggtgtctgaactaaaatgtggtgacctggaagaagaa ctcaagaatgtcaccaacaacctgaagtcgctagaggctgcatctgaaaagtattctgaa aaggaggataaatatgaagaagagattaaacttctgtctgacaaactgaaagaggctgag acccgtgctgaatttgcagagagaacagttgcaaaactggaaaagaccatcgatgacctg gaagaaaaacttgcccaggccaaagaagagaacgtgggcttacatcagacactggatcag acactaaacgaactaaactgtatataaccaaaacagaagagtctcgttccatcagaaact ccagagctacgtgtttttctcttctcttgtaagaagtttcttttgttattgcctctttgc tttgctggaaatg
59
Sau khi chép xong, copy và chèn toàn bộ tệp dữ liệu chung trên vào ô nhập dữ liệu (Enter or paste a set of sequences in any supported format) hay chì đường dần đến tệp dữ liệu (Uploade a file) lồi nhifn lệnh chuyển dữ liệu đi xử lý trực tuyến (run). Sau khoảng thời gian nhất định, chuơng trình xử lý dữ Liệu trục tuyến sẽ phản bổi lại kết quả xử lý với dạng giao diện nhu hình 5.2.
- - - - -
• Formate 13
■ Gaps M o m M scare 107115
- Uatra ■ c ư Pearson
• References r p p n r r rt
• OusiaWVHeap 1 82
■ JalwewHedp s a w n
- Scores TaUte C*JSĨ#~-7W5Q' 02-14302555 ou»**
■ Afcjrwnert C*tfSW »2Q 0S Q iQ 2 -i4X )2 «iS ^
• OmOe Tr&e û A f e t c e f e
• Cotours Ymmmmtrne c*ựS»-»-20P501 (32-14302555 *««M
|J
To a rem » file nợ tt-chc* t%e fife Im t m Ote above ts tá í aad ctooae “S a te Target AX’
Hình 5.2. Giao diện thóng báo kết quà phân tích của Clustaiw
Trong giao diện kết quả hiển thị, cần chú ý đến bốn tệp dữ liệu: *.input: *.output; *. aln và tệp *.dnd. Các tệp tin kết quả này chi được lưu ưong đệm máy chủ sau một khoảng thời gian nhất định rồi sẽ bị xoá di, phụ thuộc vào khả nãng cung cấp của ngân hàng dữ liệu đó. Vì vặy, khi nhận được thõng báo kết quả xử lý, thường người ta phải tải về máy mình dể lưu giữ. Trong ba tệp dữ liệu kết quà trên, tệp kết quả dữ liệu so sánh kiểu ký tự được biểu diễn dưới dạng “*.aln” và có cấu trúc như trong các trang sau.
60
CLUSTAL W (1.82) multiple sequence alignment
e m b l_ B F 0 2 2 8 1 3
e m b l_ B F 4 5 2 2 5 5
e m b l_ B G 0 8 9 8 0 8
e m b l_ B G 1 4 7 7 2 8
e m b l_ A F 0 8 7 6 79
e m b l_ A F 3 6 2 8 8 6
e m b l_ A F 3 6 2 8 8 7
e m b l_ A F 1 8 6 1 1 0
e m b l_ A F 3 1 0 7 2 2 e m b l_ A F 1 8 6 1 0 9 e m b l_ B I8 1 7 7 7 8 e m b l_ B F 0 5 6 4 4 1 e m b l BE84 8 7 1 9
e m b l_ B F 0 2 2 8 1 3 e m b l_ B F 4 5 2 2 5 5 e m b l_ B G 0 8 9 8 0 8 e m b l_ B G 1 4 7 7 2 8 e m b l_ A F 0 8 7 6 7 9 e m b l_ A F 3 6 2 8 8 6 e m b l_ A F 3 6 2 8 8 7 e m b l_ A F 1 8 6 1 1 0 e m b l A F 3 1 0 7 2 2
CGCGCCATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGATCCAGGCCCTGCAG 6 0 ----- GCCATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGATCCAGGCCCTGCAG 57
------------------------------ CTCTCAGCCAGGCGGATTGAAGGATGGAATTCCAACGAGGCTCCC 4 5 CAGCAGGCGGACGAGGCGGAAGACCGCGCGCAGGGCCTGCAGCGGGAGCTGGACGGCGAG 120
o ¡ubi AKlfMiLO'í iMiibl ni 8J7778 uinbJ U K 05M 41 um hl HK8/18719
f'inhl B F 022813 om bl R F 452255 r m b 1 B G 089808 C’itibl R G 147728 t'inhl AK087679 l’inM AI'M62B8fï pm b l~ A F 3 6 ?8 8 7 nm bl A F 18611o o m b ]_ A F 3 1 0 7 2 2 om bl A F 186109 e m b l_ B I8 1 7 7 7 8 om bl _ R F 0 5 6 Í14 1 om bl_B Fi84871 9
e m b l_ B F 0 2 2 8 1 3 em blB L 'M 5 2 2 5 5 em b l B G 089808 em b l BG1 4 7 7 2 8 um bl A r'0 8 7 6 7 9 um bl A1'’J6 Z 8 8 6 «■mill A K 362887
CAGCAGGCGGACGAGGCGGAAGACCGCGCGCAGGGCCTGCAGCGGGAGCTGGACGGCGAG 117 'ACAGTTGCAAGAATCTAAAGTGTGGATTTTA 31
CCGCCTCGTCCCACCTTGGCTGAAGGTGATGTGGCCGCCCTCAACCGACGCATCCAGCTC 105 CGCGAGCGGCGCGAGAAAGCTGAAGGTGATGTGGCCGCCCTCAACCGACGCATCCAGCTC 18 0 CGCGAGCGGCGCGAG AAAGCTGAAGGTGATGTGGCCGCCCTC AACCGACGCATCCAGCTC 177
TTCCATTGCACAATTTGCTAGTGTATTTCCTGGGTAGTGTGGTGCTGAATAAATAGGAAT 91
e m b l_ A F l8 6 1 1 0 GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCTGCAGAAGCTGGAG 165 e m b l_ A F 3 1 0 7 2 2 GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCTGCAGAAGCTGGAG 24 0 e m b l_ A F l8 6 1 0 9 GTTGAGGAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACGGCCCTGCAGAAGCTGGAG 237 e m b l_ B I8 1 7 7 7 8 ---CCGGGGTACCCTAAGCC 17
e m b l_ B F 0 5 6 4 4 1 AAATGCTACTTAAGGAAAAAATAAGAGAGCTGAAAAAGCTGGTGCCATTTGAAAAAAAAA 151 e m b l_ B E 8 4 8 7 1 9 ----------------------------------------------------- ----------------------------------------------------------------------
e m b l_ B F 0 2 2 8 1 3 --CCGGATCCCAGCAGAACGATTe m b l_ B F 4 5 2 2 5 5 --GAGCCCAGCAGAACGATTGAGe m b l_ B G 0 8 9 8 0 8 --AGCTGTCGCCGGAGCCCÄGCAembl_BGl47728 --------------------------------------------------------------------
e m b l_ A F 0 8 7 67 9 --------------------------------------------------------------------------------------------------------------------------- embl_AF362886 -------------------------------------------------------------------- embl_AF362887 -------------------------------------------------------------------- e m b l_ A F 1 8 6 1 1 0 GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGATAGAAAACCGGGCC 22 5
e m b l_ A F 3 1 0 7 2 2 GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGATAGAAAACCGGGCC 30 0 e m b l_ A F l8 6 1 0 9 GAGGCAGAAAAAGCTGCAGATGAGAGTGAGAGAGGAATGAAGGTGATAGAAAACCGGGCC 297 e m b l_ B I 8 1 7 7 7 8 TTCTCGGATCCGAGACTCTTCTTCCCGTTGAGGCCCCCCCCCCGCCCCCCAGCAGGGAAG 7 7 e m b l_ B F 0 5 6 4 4 1 AGGGAAGGAATGAGATTTAACTGGTGCTCAAAGCTTCTCCGATACAAAATATTTGGTCAT 211 embl_BE84 8 7 1 9 --------------------------------------------------------------------
e m b l_ B F 0 2 2 813 ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGCCCTGCAGCAGCAG 86 e m b l_ B F 4 5 2 2 5 5 ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGCCCTGCAGCAGCAG 83 e m b l_ B G 0 8 9 8 0 8 ATGGCCGGCCTCAACTCACTGGAGGCAGTGAAGCGCAAGATCCAGGCCCTGCAGCAGCÄG 94 e m b l BG14 7 7 2 8 --CAACTCACTGGAGGCAGTGAA
.'lililí A K O H /t./q ATGGCCGGCCTCAACTCCCTGGAGGCGGTGAAACGCAAGATCCAGGCCCTGCAGCAGCAG 60 ,'in b 1 A H 8 b --------------------------------------------------------------------------------------------------------------------------------------------------- I'inhl AK.,U>:’88 7 ------------------- ---------------- CGi-’inbl A F 106 1 1 0 ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGAGGCCAAGCACATT 28 5 I'iuhl A F .n o 12?. ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGAGGCCAAGCACATT 360 I-mi' I A F I IU. I o ‘1 ATGAAGGATGAGGAGAAGATGGAGATTCAGGAGATGCAGCTCAAAGAGGCCAAGCACATT 357 I'inli I IU til 7 7 7 8 ATGTCGGCTGGCAGTTCCATCGATGCGGTGAAGAAGAAGATCCAGAGCCTTCAGCAGGTG 137 I'inb 1 » F 0 5 M 4 1 GTATTCATAATTTGCTTGACATTTCCAGCAAAGCGAAGATGGCAATAACAAAAGGAACTT 271 t'rabI B E M H /m -TGTTACCAATCTGCTTGGCATTTCCTGCAAGGTGGAAACC-TGGTAATAAGCGGAACTT 58
pmb l IIFOIVÍI1 i GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGATGGCGAGCGCGAG 146 emb l UM GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGATGGCGAGCGCGAG 143 c*mb 1 BG0B9B08 GCAGACGACGCAGAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGATGGCGAGCGCGAG 154 omb 1 B ÜÍ4V 728 CĨCAGACGACGCANAGGATCGCGCGCAAGGCCTGCAGCGCGAACTGGATGGCGAGCTCTAG 109 omb 1 AF0H7679 GCGGACGAGGCAGAGGATCGCGCGCAGGGCCTGCAGCGGGAGCTGGACGGCGAGCGCGAG 120 pmb1 A F3b28B 6
o mb L Al'M(i:>H87 CGGGAACAGGCTGAGGCTGAGGTGGCCTCCTTGAACCGTAGGATCCAGCTGGTTGftAGAA 07 omb] A F186110 GCGGAAGAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGTCATCCTGGAGGGT 345 ombl AF31Ü722 OCGGAAGAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGTCATCCTGGAGGGT 420 em bl ATI 801 0 9 GCGGAACAGGCTGACCGCAAATACGAGGAGGTAGCTCGTAAGCTGGTCATCCTGGAGGGT 417 omb 1 B I8 I7 7 7 8 GCGGACGAGGCCGAAGAGCGGGCCGAGATCCTGCAGAGGGAGGTGGACGCCGAGAGGCAG 197 omb 1 B F 0 b 6 4 4 1 CTTACAAGAGAAGAGAAAGACCCACGGAGCTC-------CA-GAGTTTCTGTTGGAACAAGAC 326 1 Mill > 1 IIKH4H7 11) CTTACAAAAGAGGAAGACAGGGCACACTCTCTGGAGTG-GAGTTGGTGTTRARACAGTAC 117
•mi' I H K 022813 CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCATCCAACTGCTGGAG 2 06
e m b l_ B F 4 5 2 2 5 5 CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCATC ¿AACTGCTGGAG .2 0 3 em bl_B G 0 8 98 08 CGGCGCGAGAAAGCTGAAGGAGATGCAGCCGCTCTCAACCGCCGCATCCAACTGCTGGAG 214 erabl_B G 1 4 7 7 2 8 CGGCGCGAGAAAGCTGAGGGAGAGGGGGGCGCTCTCAACCGCCGCATCCAACTGCTGGAG 169 em b l_ A F 0 87 67 9 CGGCGGGAGAAAGCCGAAGGGGATGTAGCAGCTCTCAATCGGCGCATCCAACTCGTTGAG 180
e m b l_ A F 3 6 2 8 8 6 ---CTGGCAGAGTCCCGTTGCCGAem b l_ A F 3 62 8 8 7 GAGCTGGACCGTGCTCAGGÄGCGTGCGGAGGTGTCTGAACTAAAATGTGGTGACCTGGAA 147 e m b l_ A F l8 6 1 1 0 GAGCTGGAGAGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATGTGGTGACCTGGAA 405 e m b l_ A F 3 1 0 7 2 2 GAGCTGGAGÄGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATGTGGTGACCTGGAA 480 e m b l_ A F l8 610 9 GAGCTGGAGAGGGCAGAGGAGCGTGCGGAGGTGTCTGAACTAAAATGTGGTGACCTGGAA 4 77 emb 1_B 1 8 1 7 7 7 8 TGC AGGGAGCGGGCCGAGGCAGACGTGGGATCGCTCAACCGCCGCATCCAGCTGGTAGAG 257 e m b l_ B F 0 5 6 4 4 1 TCTTCTGTTTT-GCTTATATACAGTTAAGTTCGTTTAGTGTCTG-ATCCAGTGTCTGATG 384 e ra b l B E 848719 TCTTCTGGTTTAGTTTATATACAGTTAAGTTCGTTTAGTGTCTG-GTCCAGTGTCTGATG 176
e m b l_ B F 0 2 2 8 1 3 GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCCACAGCCCTGCAGAATCTGGAAGAGGCA 2 6 6 e m b l_ B F 4 52 25 5 GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCCACAGCCCTGCAGAATCTGGAAGAGGCA 263 embl__BG 0 8 9 8 0 8 GAGGAACTGGACCGGGCTCAGGAGCAGCTGGCC AC AGCCCTGCAGAATCTGGAAGAGGCA 27 4 em b l_ B G 14 772 8 GAGGAACTGGACCGGGCTCATGAGCAGCTGGCCACAGCCCTGCAGAATCTGGAAGAGGCA 22 9 e m b l_ A F 0 87 679 GAGGAGTTGGACAGGGCTCAGGAACGACTGGCCACAGCCCTGCAGAAGCTTGAGGAGGCA 24 0 e m b l_ A F 3 6 2 8 86 GAGCAGATTAG-------------------------ACTGATGGACCAGAACC- TGAAGTGTCTGAGTGCTGCT 7 8 e m b l_ A F 3 6 2 8 8 7 ' GAAGAACTCAA----------------------- GAATGTTACTAACAATC-TGAAATCTCTGGAGGCTGCA 195 e m b l_ A F 1 8 6 1 10 GAAGAACTCAA------------------------ GAATGTTACTAACAATC-TGAAATCTCTGGAGGCTGCA 453 e ra b l_ A F 3 1 0 7 2 2 GAAGAACTCAA------------------------ GAATGTTACTAACAATC-TGAAATCTCTGGAGGCTGCA 528 e m b l_ A F 1 8 6 1 0 9 GAAGAACTCAA------------------------ GAATGTTACTAACAATC-TGAAATCTCTGGAGGCTGCA 525 e m b l_ B 1 8 1 7 7 7 8 GAGGAGCTGGACCGTGCCCAGGAGCGCCTTGCCACTGCCCTGCTGAAGTTGGAGGAGGCG 317 e m b l_ B F 0 5 6 4 41 TAAGCCCACGTTCTCTTCTTTGGCCTGGGCAAGTTTCTCTTCCAGGTCATCAATTGTCTT 444 e m b l B E 8 4 8 7 1 9 TAAGCCCACATTCTCTTCTTTGGCCTGGGCAAGTTTTTCTTCCAGGTCATCGATTGTCTT 2 3 6
S ' ov
e m b l_ B F 0 2 2 8 1 3 GA-GAAGGCTGCTGATGAGAGTGAGAGAGGCATGAAGGTAATAGAGAACCGAGCCATGAA 325 e m b l_ B F 4 5 2 2 5 5 GA-GAAGGCTGCTGATGAGAGTGAGAGAGGCATGAAGGTAATAGAGAACCGAGCCATGAA 322 e m b l_B G 089808 GA-G AAGGCTGCTGATG AGAGTGAGAGACGCATGAAGGTAATAG AGAACCGAGCCATGAA 333 emb 1 _ BG14 7 7 2 8 G A-GAAGGCTGCTG ATGAGAGTGAGAG AGGCATGAAGGT AATAGAGAACCGAGCC ATGAA 288 e m b l_ A F 0 8 7 67 9 GA-AAAGGCTGCAGATGAGAGCGAGAGAGGAATGAAGGTGATAGAAAACCGGGCCATGAA 299 e m b l_ A F 3 6 2 8 8 6 GAAGAAAAGTACTCTCAAAAAGAAGATAAATATGAGGAAGAAATCAAGATTCTTACTGAT 138 I n K 0 ; : ; 't H !
I 'ml 11 HM.hZablj (’mb I BG0H9808 em bl BG147728 (’mbI AF087(>7<Ỉ ombl AITJ62H86 ombL A FÎ62H 87 om bl_A F IB M 10 ombl A P I10722 cm bl A F186109 om bl B r817 7 7 8 ombL B ('0 Ỉ6 4 4 1 ombi. BE84B719
e m i t I H K O l ^ n n • •[III> I
I-mb I UC0B9H0B .•mill BG147728 om bl A F 087679
AG CTCAAGAATG TAACTAAC------------------------- ---------------------------------------------------------------------- 518 AGCTCATGAATGTAACTAACAATCTGAAATGACTGGAGGCTGTATTTGAGAAGTATTCTG 572 AGCTCAAGAATGTAACTAACAATCTGAAATCACTGGAGGCTGCTTCTGAAAAGTATTCTG 527 AACTCAAGAATGTCACCAACAACCTGAAGTCGCTAGAGGCTGCATCTGAAAAGTATTCTG 538
ATGACCGACTAC AACCCC AACTACTGCTTTGCTGGCAAGACCTCCTCC ATCAGTGACCTG 747 ATGACCGACTACAACCCCAACTACTGCTTTGCTGGCAAGACCTCCTCCATCAGTGACCTG 822
TGACCAACTTACGAGCAACCTCCTCATACTTGCGGTCGGCTACGTCAGTGATGTGCTTGG 535
AATAGÜAGGATTAGTATGAAGAAGAAGATAAGCTTATGCCTGATAAGCTGAAGGTAGGTG 632 AAAAGGAG--------------- ----------------------------------------------------------------------------------------- 535 AAAAGGAGGATAAATATGAAGAAGAGATTAAACTTCTGTCTGACAAACTGAAAGAGGCTG 596
e m bl_A F 3 62 886 em b l_ A F 3 6 2 887 e n jb l_ A F 1 8 6 1 1 0 e m b l_ A F 3 1 0 7 2 2
e ra b l_ A F 1 8 6 1 0 9 e m b l_ B I8 1 7 7 7 8 e m b l_ B F 0 5 6 4 4 1 e m b l_ B E 8 4 8 7 1 9
e 'm b l_ B F 0 2 2 8 1 3 em b l_ B F 4 5 2 2 5 5 e m b l_ B G 0 8 9 8 0 8 em b l_ B G 1 4 7 7 2 8 e m b l_ A F 0 8 7 67 9 e ra b l_ A F 3 6 2 8 8 6 e m b l_ A F 3 6 2 8 8 7 e m b l_ A F 1 8 6 1 1 0 e m b l_ A F 3 1 0 7 2 2 e m b l_ A F 1 8 6 1 0 9 e m b l_ B I8 1 7 7 7 8 e m b l_ B F 0 5 6 4 4 1 e m b l B E 8 4 8 7 1 9
e m b l_ B F 0 2 2 8 1 3 e m b l B F 4 5 2 2 5 5
AAGGAGGTGCCGCGGAAAAACATCACCCTCATTCGGGGTCTGGGCCATGGCGCCTTTGGG 807 AAGGAGGTGCCGCGGAAAAACATCACCCTCATTCGGGGTCTGGGCCATGGCGCCTTTGGG 882
CTGCTTTGAGCTGCATCTCCAGGATCTACATCTTTTGCTCATCTTTCATGGCTTCGTTCT 595
GAAACCAGTCTGGATTTGCAGACAGA--------- :----------------------------------------------------------- 658 AGACCCGTGCTGAATTTGCAGAGAGAACAGTTGCAAAACTGGAAAAGACCATCGATGÀCC 658
GAGGTGTATGAAGGCCAGGTGTCCGGAATGCCCAACGACCCAAGCCCCCTGCAAGTGGCT 867 GAGGTGTATGAAGGCCAGGTGTCCGGAATGCCCAACGACCCAAGCCCCCTGCAAGTGGCT 942
CTATTACCTTCATGCCTCTCTCACTCTCATCAGCAGCCCTCTCTGCCTCTTTCAGATTCT 655
l'inbl
I'inb 1 BG14 7 7 2 8
onib 1 erab 1
A F 087679 A F 362886
TGGAAGAAAAACTTGCCC AGGCCAAAGAAGAGAACGTGGGCTTAC ATC AGAC ACTGGATC 71 8
ein b l A F 362887 om bl^A F186110 em b l A F 31072 2 e m b l_ A F 1 8 6 1 0 9 embl 131817778 cmbl BF056441
cmb] BE84fi719
GTGAAGACGCTGCCTG------------------------------------------------------------------------------------------ 883 GTGAAGACGCTGCCTGAAGTGTGC------------------------------------------------------------------------- 966
GCAAGGCTGTGGCCAGCTGCTTCTGACCCTGTCCAATTCCTTC---------------------------------- 698
embl_BF022813 -------------------------------------------------------------------- embl_BF4 522 55 -------------------------------------------------------------------- em b l_ B G 0 8 9 8 0 8 --------------------------------------------------------------------------------------------------------------------------- em b l_ B G 1 4 7 7 2 8 ----------------------------------------------------------- ------------------------------ -------------------------------- erab l AFO 87 67 9 AGACACTAAACGAACTAAACTGTATATAACCAAAACAGAAGAGTCTCGTTCCATCAGAAA 778
e m b l_ A F 3 6 2 8 8 6 --------------------------------------------------------------------------------------------------------------------------- em b l A F 362887 --------------------------------------------------------------------------------------------------------------------------- em b l~ A F 1 8 6 1 10 --------------------------------------------------------------------------------------------------------------------------- em bl_'A F 310722 --------------------------------------------------------------------------------------------------------------------------- embl AF186109 -------------------------------------------------------------------- om bl BT81777B --------------------------------------------------------------------------------------------------------------------------- (’mill UFOS 6 4 4 1 --------------------------------------------------------------------------------------------------------------------------------------------------- «Mnbl B E 848719 ---------------------------------------------------------------------------------------------------------------------------
e m b l_ B F 0 2 2 8 1 3 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ B F 4 5 2 2 5 5 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ B G 0 8 9 8 0 8 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ B G 1 4 7 7 2 8 ----------------------------------------------------------------------------------------------------------------------------- em bl_A FO 8 7 6 7 9 CTCCAGAGCTACGTGTTTTTCTCTTCTCTTGTAAGAAGTTTCTTTTGTTATTGCCTCTTT 838
e m b l_ A F 3 6 2 8 8 6 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ A F 3 6 2 8 8 7 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ A F 1 8 6 1 1 0 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ A F 3 1 0 7 2 2 ------------------------------------------------------------------------------------- --------------------------------------- e m b l_ A F 1 8 6 1 0 9 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ B I8 1 7 7 7 8 ----------------------------------------------------------------------------------------------------------------------------- e m b l_ B F 0 5 6 4 4 1 ----------------------------------------------------------------------------------------------------------------------------- e m b l BE84 8 7 1 9 -----------------------------------------------------------------------------------------------------------------------------
e m b l_ B F 0 2 2 8 1 3 -------------------------------
e m b l_ B F 4 5 2 2 5 5 -------------------------------
em bl_B G 08 9 8 0 8 -------------------------------
e m b l_ B G 1 4 7 7 2 8 -------------------------------
e m b l_ A F 0 8 7 6 7 9 GCTTTGCTGGAAATG 85 3
e m b l_ A F 3 6 2 8 8 6 -------------------------------
e m b l_ A F 3 6 2 8 8 7 -------------------------------
e m b l_ A F 1 8 6 1 1 0 -------------------------------
e m b l_ A F 3 1 0 7 2 2 -------------------------------
e m b l_ A F 1 8 6 1 0 9 -------------------------------
e m b l_ B I8 1 7 7 7 8 -------------------------------
embl_BF056441 -----------------
e m b l_ B E 8 4 8 7 1 9 -------------------------------
Trong tệp kết quả so sánh dạng ký tự trẽn sẽ xuất hiện thêm dòng kết quả dưới cùng, với các ký tự: biểu diễn vị trí đồng nhất hoàn loàn giũa tất cả các chuỗi, ký hiệu biểu diễn vị trí có sự sai lệch nhất định và ký hiệu biểu diễn vị trí có sự sai lệch tương đối lớn hơn giữa các chuỗi với nhau. Khi số lượng chuỗi so sánh tăng cao thì xác suất xuất hiện các vị trí tương đồng hay sẽ giảm đi, gây khó khăn cho việc quan sát và
đánh giá trực quan độ tương đồng (hay phân ly) giữa chúng. Để dẻ dàng nhận diện hơn, chương trình còn sừ dụng phương pháp đánh dấu bàng màu sắc khác nhau hay thay đổi cường độ màu dể biểu diễn quan hệ tương đổng giữa các chuỗi (xem hình 5.3).
so 100 lio 12D 150 1 « lio l a 17) I8C
Hình 5.3. Giao diện két quả xử lý cấu trúc chuỗi trén Clustal w
Kết quả so sánh hiển thị dưới dạng cây tiến hoá (dạng *.dnd - Guide tree file) có thể dẻ dàng hiển thị các kiểu giao diện khác nhau: dạng ký tự vãn bản, dạng sơ đồ phân ly (Cladogram), dạng cây tiến hoá (Plivlogram) đơn giản hay kèm theo hệ sỏ' phân ly (xem hình 5.4). Kết quà biểu diễn sơ đó phán ly dạng ký tự có giao diện như sau:
72
(
<
(
(
(
13c 101171
"L emM_BF4SZ2SS: (L00977
//in A 5.4. Cóc dạng giao dỉện Mm thị kiểu tệp kết quả dạng *.dnd
Trước khi gửi tệp tin đi xử lý, phục vụ cho việc trả lời kết quả, người sử dụng cần xác định thêm các yêu cầu cho chế độ xử lý sau:
• Đặt chế độ cho kiểu tệp dữ liệu lấy ra, với phương án lựa chọn dưới một trong các định dạng sau: ALN, GCG, PIR, PHYLIP và GDE. Chế độ này do người yêu cẩu tự lựa chọn trên cửa sổ “Output format” trước khi gùi thông tin đi xử lý.
• Yêu cầu vể trật tự sắp xếp các chuỗi trong tệp kết quả, với phương án theo trình tự gùi dữ liệu đi hay theo quan hệ tương quan VỂ khoảng cách phân ly giữa các chuỗi khi xử lý (output order).
• Đặt thêm các thông số phụ, khi lựa chọn chế độ so sánh nhanh từng cặp (Alignment fast pairwise) nhu:
- KTUP để lựa chọn số ký tợ khi xử lý so sánh.
- WINDOWS để lựa chọn kích thước mảng xử lý.
- SCORE để đặt chế độ tỉ lệ khi tính kết quả.
- TOPDIAG đặt chế độ so sánh chéo.
- PAIRGAP đặt chế độ khoảng đứt (hay chèn) giới hạn...
• Lựa chọn kiểu thuật toán xử lý:
- BLOSUM là kiểu ma trận thích hợp nhất để xác định độ tương đồng của chuỗi. Kích thước ma trận sử dụng trong chương trình là: Blosum80, 62, 40 và 30.
- PAM được sử dụng rộng rãi từ cuối thập kỷ bảy mươi của thế kỷ XX. Kích thước ma trận được sử dụng là: 120, 160, 250 và 350.
- GÖNNET tương tự như PAM, nhưng cập nhật nâng cấp thường xuyên hơn nên độ nhạy cao hơn. Kích thước mảng được sử dụng là: 40, 80, 120, 160, 250 và 350.
• Lựa chọn khoảng trống ký tự giới hạn GAP cho thuật toán, với các tham số: Gapopen, Endgap, Gapext, Gapdist...
*** Trong trường hợp không sử dụng dịch vụ xử lý trực tuyến, người ta có thể tải chương trình ClustalW miễn phí về máy cá nhân từ nhiều ngân hàng dữ liệu khác nhau, thí dụ EBI hay DDBJ.
75
CHƯƠNG TRÌNH THIẾT KẼ' VÀ
LỰA CHỌN ĐOẠN Mồl PRIMER3
6.1. Đại cương
Chương trình thiết kế và lựa chọn đoạn mồi (Primer Design) là chương trình tìm kiếm và lựa chọn xác định đoạn nucleotide tương đổng với cấu trúc chuỗi phân tích, phục vụ cho kỹ thuật nhân gen PCR hay sử dụng cho nhiều kỹ thuật lai úng dụng khác nhau. Để giải quyết nhiệm vụ trên, nhiều phẩn mềm đã được xây dụng và cung cấp cho người sử dụng (bao gồm cả phẩn mềm miễn phí và loại phải trả tiền), thí dụ: OLIGO Primer Analysis Software (http://www.oligo.neƯ - Molecular Biology Insights, Inc.), OLIGO® (http://www.medDrobe.com/no/oligo.html - Molecular Biology
Insights, Inc.), Oligo Perfect™ Designer (http://www.invitrogen.com - Invitrogen Corp.), Primer3 (http://frodo.wi.mil.edu/cgi-bin/prirrier3/ primer3 www-Cgi - Whitehead Institute for Biomedical Research)...
Primer3 là một trong số các chương trình úng dụng để thiết kế đoạn mồi (định hướng vào việc thiết kế mồi phục vụ cho kỹ thuật nhân gen PCR và LA-PCR) của Rozen và Skeletsky, viết cho mói trường Sun, OS, Unix và Linux (chương trình này không chạy trên mỏi trường Windows). Whitehead Institute for Biomedical Research đã cung cấp miễn phí chương trình xữ lý trực tuyến trên cho người sừ dụng, qua địa chi truy cập: http://fokker.wi.mit.e e g. ATCT hình 6.1
78
6.2. Thao tác sử dụng chương trình
Việc thao tác sử dụng chương trình trên có thể tóm tắt qua các bước chính sau: nhập dữ liệu, dặt chế độ xử lý (được xác định qua việc lựa chọn giá trị khi đặt các chế độ xử lý tương ứng), sau đó nhấn cửa sổ “Pick primers” để gửi dữ liệu đi xử lý trực tuyến. Sau khoảng thời gian chờ, phụ thuộc vào tốc độ đường truyền của mạng kết nối, người xử lý sẽ nhận lại được kết quả xử lý của chương trình Primer3 (xem phần thí dụ phía dưới).
• Trong tệp dữ liệu kết quả, có thổ xảy ra hai khả năng: chương trình không lựa chọn được đoạn mồi thoả mãn với các các thông sô' đã chọn. Trong trường hợp này, người xử lý quay ngược trở lại giao diện nhập dữ liệu để thay dổi các thông số đầu vào rồi gửi đi xử lý tiếp, các bước lặp lại như quy trình ban đầu, cho đến khi xác định được các đoạn mồi mong muốn.
• Chương trình Primer3 lựa chọn được đoạn mồi phù hợp nhất cho yêu cầu người gửi tin (thường là sau một số lần gửi và chỉnh sửa lại thông tin đầu vào. Đương nhiên, người ta vẫn có thể nhận được kết quả mong muốn ngay sau lần yêu cầu đầu tiên).
Các thao tác chính và thông số lựa chọn ban đầu bao gồm:
A/ Nhập dữ liệu: Chuỗi dữ liệu phân tích được chèn vào trong ô nhập dữ liệu ở đầu giao diện. Chương trình xử lý chỉ chấp nhận chuỗi ký tự viết theo định dạng FASTA hay chuỗi ký tự tên các cặp bazơ nitơ và ký tự “N”, thế chỗ cho các ký tự khác; chữ số hay ký tự trống sẽ bị bỏ qua, dưới dạng như sau “...ACTGNacgtn...”. Vì vậy, trước khi chèn vào cửa sổ nhập, chuỗi dữ liệu thường được kiểm tra nhằm xoá ký tự N hay đánh dấu loại bỏ các đoạn “kém chất lượng”, hoặc dùng chuột đánh dấu
79