- Atlas ini akan meningkatkan kepelbagaian genetik evolusi yang diketahui sehingga 100 kali ganda, dengan mengumpul data genomik baharu daripada lebih 100 juta spesies baharu merentasi ribuan lokasi di seluruh dunia.
- Dengan kerjasama Anthropic, Ultima Genomics dan PacBio, serta dikuasakan oleh infrastruktur AI NVIDIA, Basecamp Research mensasarkan untuk memampatkan lebih dua dekad pengumpulan dan analisis data biologi menjadi kurang daripada dua tahun.
- Latihan model EDEN mendedahkan undang-undang penskalaan baharu: apabila set data biologi menjadi lebih besar dan lebih kaya, keupayaan AI meningkat membuka peluang untuk sistem yang mampu mereka ubat baharu merentasi pelbagai penyakit dan jenis rawatan.
AUSTIN, Texas dan SAN JOSE, California, 19 Mac 2026 /PRNewswire/ — Basecamp Research, makmal AI terkemuka dalam reka bentuk biologi, hari ini mengumumkan pelancaran Trillion Gene Atlas, satu inisiatif saintifik penting untuk menjana dan memodel data biologi pada skala trilion gen. Dilancarkan dengan kerjasama Anthropic, Ultima Genomics dan PacBio, serta dikuasakan oleh infrastruktur AI NVIDIA, Trillion Gene Atlas bertujuan untuk memperluas kepelbagaian genetik evolusi yang diketahui sebanyak 100 kali ganda dengan mengumpul data genomik daripada lebih 100 juta spesies merentasi ribuan lokasi di seluruh dunia.
Kejayaan ini dimungkinkan berkat rangkaian rakan kongsi biodiversiti global Basecamp Research yang berkembang pesat. Matlamat utama inisiatif ini adalah menyediakan data latihan yang luas dan pelbagai bagi sistem AI untuk belajar daripada evolusi dan merekabentuk ubat baharu mengikut permintaan.
"Model AI biologi hari ini dilatih hanya pada sebahagian kecil kehidupan di Bumi," kata Glen Gowers semasa berucap di SXSW, Austin. "Trillion Gene Atlas memperluas alam genetik yang diketahui beribu kali ganda melebihi apa yang terdapat dalam pangkalan data awam. Melatih model pada skala ini menetapkan paradigma baharu untuk reka bentuk terapeutik boleh aturcara."
Inisiatif ini, setara dengan Skala Projek Genom Manusia, telah didedahkan semasa Health Track di SXSW dan persidangan NVIDIA GTC di San Jose, California.
Mengatasi Halangan Data Biologi
Dengan peningkatan besar dalam saiz model dan kuasa pengkomputeran, data yang pelbagai menjadi pemangkin kritikal bagi kemajuan pembangunan ubat AI dan penanda aras dunia sebenar. Semua model asas berasaskan urutan kini bergantung kepada variasi repositori awam yang sama, dengan 80% dilatih menggunakan pangkalan data awam yang mengandungi kurang daripada 250 juta urutan.
Model asas EDEN, yang dilancarkan pada Januari, mengatasi "tembok data" evolusi industri dengan melatih sepenuhnya pada BaseData™, pangkalan data genom proprietari yang kini lebih 10 kali ganda lebih besar daripada semua sumber awam digabungkan. Dengan belajar daripada 10 bilion gen baharu yang belum pernah diterokai sains merentasi 1 juta spesies baru, EDEN menemui undang-undang penskalaan baharu yang kritikal untuk AI dalam biologi.
Perluasan besar dalam kepelbagaian dataset ini membolehkan EDEN melangkaui ramalan mudah, menjadikannya model pertama yang mampu merekabentuk terapeutik pelbagai terus daripada arahan penyakit. Dalam pengesahan makmal basah, EDEN menunjukkan aktiviti zero-shot pada sel T manusia primer tanpa sebarang data manusia atau klinikal. Model ini telah berjaya menghasilkan "hits" merentasi pelbagai modaliti frontier, termasuk memperkenalkan AI-Programmable Gene Insertion (aiPGI) untuk memasukkan gen sihat dan mereka peptida antimikrob khusus dengan kadar kejayaan 97% terhadap patogen keutamaan.
Trillion Gene Atlas membina daripada pendekatan ini dengan memperluas skop dan konteks data genomik dalam "internet biologi" yang sedia ada untuk latihan AI.
"Model yang lebih besar sahaja tidak mencukupi," tambah Phil Lorenz. "EDEN menunjukkan prestasi AI biologi mengikuti trajektori penskalaan lebih curam dengan data berkualiti tinggi dan berkonsep penuh. Trillion Gene Atlas meluaskan prinsip itu sebanyak 100 kali ganda."
Rangkaian Kerjasama Biodiversiti Global
Sepanjang enam tahun lepas, Basecamp Research telah membina rangkaian kolaborator saintifik merentasi 31 negara, mewujudkan saluran genomik evolusi berskala yang dibina khas untuk latihan AI. Dengan meneroka gabungan rangka kerja peraturan dan ekonomi baharu serta teknologi penjujukan DNA bebas grid, syarikat ini mengumpul data genomik berkualiti tinggi daripada ekosistem yang berada di luar jangkauan makmal tradisional.
Kerjasama ini berasaskan pertukaran pengetahuan, pembangunan kapasiti tempatan dan Perjanjian Akses dan Perkongsian Manfaat yang seimbang selaras dengan peraturan Maklumat Urutan Digital yang sedang muncul. Rangka kerja ini membolehkan pengumpulan data genomik berskala besar, berkualiti tinggi secara bertanggungjawab sambil melabur dalam infrastruktur saintifik dan latihan di kawasan rakan kongsi.
Sebagai sebahagian daripada pelancaran Atlas, Basecamp mengumumkan kerjasama baharu di Chile, Argentina serta pengembangan kolaborasi di Antartika, sekali gus meluaskan lagi rangkaian biodiversiti globalnya.
Menskalakan Penghasilan Data dan Pengkomputeran dengan Ultima Genomics, PacBio dan NVIDIA
Trillion Gene Atlas dimungkinkan oleh kemajuan dalam penjujukan bacaan pendek dan panjang berkapasiti tinggi serta pengkomputeran dipercepat. Basecamp bekerjasama dengan Ultima Genomics dan PacBio untuk menyediakan penjujukan berskala industri termasuk bacaan panjang berketepatan tinggi dan kaya data.
Ultima Genomics merupakan pembangun sistem penjujukan generasi baharu (NGS) berkapasiti ultra-tinggi. Sistem penjujukan terkini Ultima, UG200 Series, memajukan seni bina penjujukan berasaskan wafer unik syarikat itu untuk membolehkan penjujukan genom penuh dan multi-omik berskala tinggi pada tahap industri dengan kos rendah, menyokong inisiatif seperti Trillion Gene Atlas.
"Dalam biologi, kekurangan data adalah masalah asas berbanding bidang lain seperti bahasa atau visi komputer kerana penyelidik kekurangan alat untuk menjana data berskala besar," kata Gilad Almogy, Pengasas dan CEO Ultima Genomics. "Kami yakin AI akan memberi impak besar terhadap pemahaman kita tentang biologi dan kesihatan manusia, dan UG200 Series direka dari asas untuk menyokong set data besar yang diperlukan oleh BioAI bagi menunaikan janji ini. Kami teruja teknologi kami dapat menyokong visi Basecamp dan memajukan inisiatif inovatif seperti Trillion Gene Atlas."
Christian Henry, Presiden dan CEO PacBio, berkata, "Penjujukan HiFi PacBio memberikan bacaan panjang yang sangat tepat, mengekalkan konteks genom penuh dan membolehkan resolusi tahap subspesies atau strain dalam sampel kompleks. Data HiFi menyediakan asas maklumat yang boleh dipercayai dan kaya untuk model AI biologi belajar daripada alam secara berskala, sekaligus menyokong inisiatif seperti Trillion Gene Atlas."
Trillion Gene Atlas dikuasakan oleh infrastruktur pengkomputeran dipercepat NVIDIA untuk memproses jumlah data genetik yang sangat besar pada skala petabase. Sebagai sebahagian daripada usaha ini, Basecamp merancang menggunakan NVIDIA Parabricks untuk mempercepatkan secara signifikan penyusunan metagenomik. Kerjasama ini menumpukan kepada kejuruteraan lanjutan dan pembangunan kaedah algoritma baharu bagi mengoptimumkan cara sampel persekitaran kompleks disusun semula. Berkat percepatan ini, pemprosesan kuadrilion pasangan asas DNA–tugas yang sebelum ini memerlukan lebih 20 tahun–dijangka dapat diselesaikan dalam masa kurang dua tahun.
Melalui pemprosesan data selari, anotasi automatik, dan latihan model berskala besar, rakan kongsi mensasarkan untuk memampatkan tugas yang sebelum ini memerlukan lebih 20 tahun kepada kurang dua tahun. Pemampatan proses penjujukan, penyusunan, anotasi dan latihan model ini bertujuan memperluas prestasi dan skop model asas biologi dalam pembangunan terapeutik.
Mewujudkan Aliran Kerja Reka Bentuk Terapeutik Hujung ke Hujung Berasaskan Agen
Anthropic menyertai inisiatif ini sebagai sebahagian daripada usaha lebih luas untuk menambah keupayaan baru dalam sains hayat, termasuk: menghubungkan Claude dengan lebih banyak platform saintifik. Bekerjasama dengan pasukan Claude for Life Sciences, matlamatnya adalah memanfaatkan Trillion Gene Atlas dan EDEN untuk menjadikan Claude rakan penyelidikan yang lebih produktif bagi saintis dan pakar klinikal, serta menyokong organisasi yang membawa kemajuan saintifik baharu kepada orang awam.
Dengan menggabungkan keupayaan penalaran lanjutan Claude, keupayaan reka bentuk terapeutik EDEN, dan Pustaka NVIDIA CUDA-X untuk memproses data tidak berstruktur, inisiatif ini bertujuan mewujudkan aliran kerja bersepadu bagi mentafsir data klinikal kompleks dan menterjemahkannya terus kepada reka bentuk terapeutik.
Trillion Gene Atlas dibina di atas tiga tonggak utama: penjujukan DNA berskala besar, kerjasama bekalan data global dan pengkomputeran lanjutan. Bersama sistem AI yang mampu menalar merentasi data kompleks, asas-asas ini dapat membantu menukar set data berskala besar kepada penemuan terapeutik. Dengan meningkatkan data evolusi yang tersedia untuk AI sebanyak 100 kali ganda lagi, Basecamp Research mensasarkan untuk mempercepat dan memperkemas reka bentuk ubat, melanjutkan kemajuan EDEN terdahulu dalam bidang seperti terapi gen dan usaha memerangi bakteria tahan antibiotik.
Sumber artikel: http://www.prnasia.com/asia-story/archive/4912650_MS12650_6










