Добавить новость

ГД одобрила в первом чтении законопроект об ответственности за опасное вождение

Жилому дому в ЖК «Лобня Сити» присвоили кадастровый номер

Конфликт на Ближнем Востоке не влияет прямо на курс рубля

Компании мединдустрии увеличивают объемы производства в ОЭЗ «Технополис Москва»



News in English


Новости сегодня

Новости от TheMoneytizer

NASA-IBM Collaboration Develops INDUS Large Language Models for Advanced Science Research

Washington DC (SPX) Jun 27, 2024 - Collaborations with private, non-federal partners through Space Act Agreements are a key component in the work done by NASA's Interagency Implementation and Advanced Concepts Team (IMPACT). A collaboration with International Business Machines (IBM) has produced INDUS, a comprehensive suite of large language models (LLMs) tailored for the domains of Earth science, biological and physical sciences, heliophysics, planetary sciences, and astrophysics and trained using curated scientific corpora drawn from diverse data sources.

INDUS contains two types of models; encoders and sentence transformers. Encoders convert natural language text into numeric coding that can be processed by the LLM. The INDUS encoders were trained on a corpus of 60 billion tokens encompassing astrophysics, planetary science, Earth science, heliophysics, biological, and physical sciences data. Its custom tokenizer developed by the IMPACT-IBM collaborative team improves on generic tokenizers by recognizing scientific terms like biomarkers and phosphorylated. Over half of the 50,000-word vocabulary contained in INDUS is unique to the specific scientific domains used for its training. The INDUS encoder models were used to fine tune the sentence transformer models on approximately 268 million text pairs, including titles/abstracts and questions/answers.

By providing INDUS with domain-specific vocabulary, the IMPACT-IBM team achieved superior performance over open, non-domain specific LLMs on a benchmark for biomedical tasks, a scientific question-answering benchmark, and Earth science entity recognition tests. By designing for diverse linguistic tasks and retrieval augmented generation, INDUS is able to process researcher questions, retrieve relevant documents, and generate answers to the questions. For latency sensitive applications, the team developed smaller, faster versions of both the encoder and sentence transformer models.

Validation tests demonstrate that INDUS excels in retrieving relevant passages from the science corpora in response to a NASA-curated test set of about 400 questions. IBM researcher Bishwaranjan Bhattacharjee commented on the overall approach: "We achieved superior performance by not only having a custom vocabulary but also a large specialized corpus for training the encoder model and a good training strategy. For the smaller, faster versions, we used neural architecture search to obtain a model architecture and knowledge distillation to train it with supervision of the larger model."

INDUS was also evaluated using data from NASA's Biological and Physical Sciences (BPS) Division. Dr. Sylvain Costes, the NASA BPS project manager for Open Science, discussed the benefits of incorporating INDUS: "Integrating INDUS with the Open Science Data Repository (OSDR) Application Programming Interface (API) enabled us to develop and trial a chatbot that offers more intuitive search capabilities for navigating individual datasets. We are currently exploring ways to improve OSDR's internal curation data system by leveraging INDUS to enhance our curation team's productivity and reduce the manual effort required daily."

At the NASA Goddard Earth Sciences Data and Information Services Center (GES-DISC), the INDUS model was fine-tuned using labeled data from domain experts to categorize publications specifically citing GES-DISC data into applied research areas. According to NASA principal data scientist Dr. Armin Mehrabian, this fine-tuning "significantly improves the identification and retrieval of publications that reference GES-DISC datasets, which aims to improve the user journey in finding their required datasets." Furthermore, the INDUS encoder models are integrated into the GES-DISC knowledge graph, supporting a variety of other projects, including the dataset recommendation system and GES-DISC GraphRAG.

Kaylin Bugbee, team lead of NASA's Science Discovery Engine (SDE), spoke to the benefit INDUS offers to existing applications: "Large language models are rapidly changing the search experience. The Science Discovery Engine, a unified, insightful search interface for all of NASA's open science data and information, has prototyped integrating INDUS into its search engine. Initial results have shown that INDUS improved the accuracy and relevancy of the returned results."

INDUS enhances scientific research by providing researchers with improved access to vast amounts of specialized knowledge. INDUS can understand complex scientific concepts and reveal new research directions based on existing data. It also enables researchers to extract relevant information from a wide array of sources, improving efficiency. Aligned with NASA and IBM's commitment to open and transparent artificial intelligence, the INDUS models are openly available on Hugging Face. For the benefit of the scientific community, the team has released the developed models and will release the benchmark datasets that span named entity recognition for climate change, extractive QA for Earth science, and information retrieval for multiple domains. The INDUS encoder models are adaptable for science domain applications, and the INDUS retriever models support information retrieval in RAG applications.

Research Report:INDUS: Effective and Efficient Language Models for Scientific Applications

Learn more about the Science Discovery Engine here.

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Ставка на осознанность: букмекеров заставят сбавить обороты

В Москве и Московской области жилищные условия за счет материнского капитала улучшили свыше 537,8 тысячи семей

Наро-Фоминск: бизнес и экология идут рука об руку

Музыкальные новости

«Ростов» вышел в плей-офф «пути РПЛ» Кубка России по футболу

LG ПРЕДСТАВЛЯЕТ ВСЕМИРНЫЙ МУЗЫКАЛЬНЫЙ ФЕСТИВАЛЬ «BOOM BOOM POW FESTA» ПРИ ПОДДЕРЖКЕ LG XBOOM

Концерт к 150-летию Чарльза Айвза: Американская классика в «Зарядье»

Сотрудники Росгвардии, дислоцированные на территории комплекса «Байконур», приняли участие в товарищеском матче по мини-футболу

Новости России

Синоптик Макарова: закаты на юге РФ в ближайшие дни станут более красочными

Самый популярный автобусный маршрут сентября назвали в «Мострансавто»

Всех пенсионеров призвали воспользоваться новой льготой: доступна уже в октябре

Один человек погиб в результате пожара в Новой Москве

Экология в России и мире

Спектакль «Раневская. Одинокая насмешница» в Москве: дань великой актрисе

Banyan Tree Vabbinfaru: экологичная роскошь

Журналистка Ксения Собчак появилась на публике в шляпе гусара

Творческая лаборатория «Наставничество в музыкальном образовании 2.0» собрала ведущих музыкантов в Волгограде

Спорт в России и мире

Сизикова не смогла выйти в 1/4 финала турнира WTA в Пекине в парном разряде

Хачанов обыграл Черундоло и вышел в четвертьфинал турнира ATP в Пекине

Шнайдер проиграла Френх в третьем круге турнира WTA в Пекине, взяв сет под ноль

Медведев проиграл Алькарасу в полуфинале турнира ATP в Пекине

Moscow.media

Bluetooth-сканер штрих-кодов SAOTRON P04 на базе CMOS-матрицы

В Новосибирской области по БКД отремонтировали и ввели в эксплуатацию 31 дорожный объект

Ландшафты Командор.

С момента открытия по трассе М-12 Восток проехали более 20 млн раз











Топ новостей на этот час

Rss.plus






Потерпевшие по делу о «Крокусе» дали показания на боевиков «Вилаят Хорасан»

Участник программы «Время героев» станет замгубернатора Калужской области

Телеграмма добра. На городских медиафасадах стартовал новый проект