Добавить новость

ДИТ Москвы рассказал, с какими вопросами чаще всего обращаются горожане в сервис онлайн-консультаций на mos.ru

«Шокирует»: Маск прокомментировал ситуацию в Южной Корее

Флагманский концерт проекта «Зал Зарядье – детям» пройдет 7 и 8 декабря

Суд поддержал решение УФАС по Подмосковью в отношении ООО «Талант Групп»



News in English


Новости сегодня

Новости от TheMoneytizer

The startup trying to turn the web into a database

A startup called Exa is pitching a new spin on generative search. It uses the tech behind large language models to return lists of results that it claims are more on point than those from its rivals, including Google and OpenAI. The aim is to turn the internet’s chaotic tangle of web pages into a kind of directory, with results that are specific and precise.

Exa already provides its search engine as a back-end service to companies that want to build their own applications on top of it. Today it is launching the first consumer version of that search engine, called Websets.  

“The web is a collection of data, but it’s a mess,” says Exa cofounder and CEO Will Bryk. “There’s a Joe Rogan video over here, an Atlantic article over there. There’s no organization. But the dream is for the web to feel like a database.”

Websets is aimed at power users who need to look for things that other search engines aren’t great at finding, such as types of people or companies. Ask it for “startups making futuristic hardware” and you get a list of specific companies hundreds long rather than hit-or-miss links to web pages that mention those terms. Google can’t do that, says Bryk: “There’s a lot of valuable use cases for investors or recruiters or really anyone who wants any sort of data set from the web.”

Things have moved fast since MIT Technology Review broke the news in 2021 that Google researchers were exploring the use of large language models in a new kind of search engine. The idea soon attracted fierce critics. But tech companies took little notice. Three years on, giants like Google and Microsoft jostle with a raft of buzzy newcomers like Perplexity and OpenAI, which launched ChatGPT Search in October, for a piece of this hot new trend.

Exa isn’t (yet) trying to out-do any of those companies. Instead, it’s proposing something new. Most other search firms wrap large language models around existing search engines, using the models to analyze a user’s query and then summarize the results. But the search engines themselves haven’t changed much. Perplexity still directs its queries to Google Search or Bing, for example. Think of today’s AI search engines as a sandwich with fresh bread but stale filling.

More than keywords

Exa provides users with familiar lists of links but uses the tech behind large language models to reinvent how search itself is done. Here’s the basic idea: Google works by crawling the web and building a vast index of keywords that then get matched to users’ queries. Exa crawls the web and encodes the contents of web pages into a format known as embeddings, which can be processed by large language models.

Embeddings turn words into numbers in such a way that words with similar meanings become numbers with similar values. In effect, this lets Exa capture the meaning of text on web pages, not just the keywords.

A screenshot of Websets showing results for the search: “companies; startups; US-based; healthcare focus; technical co-founder”

Large language models use embeddings to predict the next words in a sentence. Exa’s search engine predicts the next link. Type “startups making futuristic hardware” and the model will come up with (real) links that might follow that phrase.

Exa’s approach comes at cost, however. Encoding pages rather than indexing keywords is slow and expensive. Exa has encoded some billion web pages, says Bryk. That’s tiny next to Google, which has indexed around a trillion. But Bryk doesn’t see this as a problem: “You don’t have to embed the whole web to be useful,” he says. (Fun fact: “exa” means a 1 followed by 18 0s and “googol” means a 1 followed by 100 0s.)

Websets is very slow at returning results. A search can sometimes take several minutes. But Bryk claims it’s worth it. “A lot of our customers started to ask for, like, thousands of results, or tens of thousands,” he says. “And they were okay with going to get a cup of coffee and coming back to a huge list.”

“I find Exa most useful when I don’t know exactly what I’m looking for,” says Andrew Gao, a computer science student at Stanford Univesrsity who has used the search engine. “For instance, the query ‘an interesting blog post on LLMs in finance’ works better on Exa than Perplexity.” But they’re good at different things, he says: “I use both for different purposes.”

“I think embeddings are a great way to represent entities like real-world people, places, and things,” says Mike Tung, CEO of Diffbot, a company using knowledge graphs to build yet another kind of search engine. But he notes that you lose a lot of information if you try to embed whole sentences or pages of text: “Representing War and Peace as a single embedding would lose nearly all of the specific events that happened in that story, leaving just a general sense of its genre and period.”

Bryk acknowledges that Exa is a work in progress. He points to other limitations, too. Exa is not as good as rival search engines if you just want to look up a single piece of information, such as the name of Taylor Swift’s boyfriend or who Will Bryk is: “It’ll give a lot of Polish-sounding people, because my last name is Polish and embeddings are bad at matching exact keywords,” he says.

For now Exa gets around this by throwing keywords back into the mix when they’re needed. But Bryk is bullish: “We’re covering up the gaps in the embedding method until the embedding method gets so good that we don’t need to cover up the gaps.”

Читайте на 123ru.net


Новости 24/7 DirectAdvert - доход для вашего сайта



Частные объявления в Вашем городе, в Вашем регионе и в России



Smi24.net — ежеминутные новости с ежедневным архивом. Только у нас — все главные новости дня без политической цензуры. "123 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. Smi24.net — облегчённая версия старейшего обозревателя новостей 123ru.net. Мы не навязываем Вам своё видение, мы даём Вам срез событий дня без цензуры и без купюр. Новости, какие они есть —онлайн с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии. Smi24.net — живые новости в живом эфире! Быстрый поиск от Smi24.net — это не только возможность первым узнать, но и преимущество сообщить срочные новости мгновенно на любом языке мира и быть услышанным тут же. В любую минуту Вы можете добавить свою новость - здесь.




Новости от наших партнёров в Вашем городе

Ria.city

Россияне имеют возможность купить на «Авито» вещи Сергея Безрукова и Ксении Собчак

Региональные власти договариваются об организации водных перевозок с Удмуртией

В Подмосковье дошкольник лишился речи после перенесенного коронавируса

Путин отметил высокие темпы импортозамещения в России

Музыкальные новости

Алексей Тузов для РБК Autonews:В России возник дефицит оригинальных запчастей

«Ахмат» — «Динамо» Москва. Видеообзор матча РПЛ с голом Лещука

Сотрудники и военнослужащие Росгвардии Башкортостана приняли участие в шахматном турнире ФСО «Динамо»

Time to Cashmere

Новости России

Шесть простых бьюти-привычек, чтобы сохранить молодость и красоту

Депутат Андрей Гурулев извинился за своего помощника, устроившего дебош в самолете

В Подмосковье дошкольник лишился речи после перенесенного коронавируса

Путин призвал представителя ФРГ говорить по-немецки, а не по-английски

Экология в России и мире

Москва встречает туристов из Королевства Таиланд

Как светятся звезды и почему их не видно днем

Токсиколог Кутушов перечислил топ-5 наиболее токсичных веществ в бытовой химии

Дышите глубже: доктор Кутушов рассказал, как "безопасные" альтернативы сигарет отравляют ваш организм

Спорт в России и мире

Шнайдер: договорились с Андреевой играть весь сезон вместе на ТБШ и WTA 1000

Супругу теннисиста Герасимова Анну обокрали в отеле Санкт-Петербурга

«Поражён, как здорово меня поддерживают». Откровения австралийского теннисиста в России

«До 30 лет еще можно рваться к Большим шлемам» — Янчук о форме Медведева

Moscow.media

Thyseed — новый игрок на рынке товаров для мам и детей в «Детском мире»

На Воробьевых горах открылась фотовыставка «Без барьеров»

Неадеквата в больнице Мценска утихомирили росгвардейцы

В Азербайджане прошел третий, завершающий этап проекта «Русский язык: читаем, слушаем, смотрим в странах СНГ»











Топ новостей на этот час

Rss.plus






Путин призвал представителя ФРГ говорить по-немецки, а не по-английски

Региональные власти договариваются об организации водных перевозок с Удмуртией

Шесть простых бьюти-привычек, чтобы сохранить молодость и красоту

Причастного к подрыву «Невского экспресса» внесли в перечень террористов в РФ