На этой странице Поиск статей arXiv по ключевому слову, автору, категории или ID.
Метаданные навыка¶
|--- |---
|Источник| Встроенный (установлен по умолчанию)
|Путь| skills/research/arxiv
|Версия| 1.0.0
|Автор| Hermes Agent
|Лицензия| MIT
|Теги| Research, Arxiv, Papers, Academic, Science, API
|Связанные навыки| ocr-and-documents
Справочник: полный SKILL.md¶
info Ниже приведено полное определение навыка, которое Hermes загружает при его активации. Это то, что видит агент в качестве инструкций, когда навык активен.
arXiv Research¶
Поиск и получение академических статей из arXiv через их бесплатный REST API. Никакого API-ключа, никаких зависимостей — только curl.
Быстрая справка¶
| Действие | Команда |
|---|---|
| Поиск статей | curl "https://export.arxiv.org/api/query?search_query=all:QUERY&max_results=5" |
| Получение конкретной статьи | curl "https://export.arxiv.org/api/query?id_list=2402.03300" |
| Чтение аннотации (веб) | web_extract(urls=["https://arxiv.org/abs/2402.03300"]) |
| Чтение полного текста (PDF) | web_extract(urls=["https://arxiv.org/pdf/2402.03300"]) |
| ## Поиск статей | |
API возвращает Atom XML. Парсите с помощью grep/sed или передавайте через python3 для чистого вывода. |
|
| ### Базовый поиск | |
| [code] | |
| curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5" |
[/code]
Чистый вывод (парсинг XML в читаемый формат)¶
[code] curl -s "https://export.arxiv.org/api/query?search_query=all:GRPO+reinforcement+learning&max_results=5&sortBy=submittedDate&sortOrder=descending" | python3 -c " import sys, xml.etree.ElementTree as ET ns = {'a': 'http://www.w3.org/2005/Atom'} root = ET.parse(sys.stdin).getroot() for i, entry in enumerate(root.findall('a:entry', ns)): title = entry.find('a:title', ns).text.strip().replace('\n', ' ') arxiv_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1] published = entry.find('a:published', ns).text[:10] authors = ', '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns)) summary = entry.find('a:summary', ns).text.strip()[:200] cats = ', '.join(c.get('term') for c in entry.findall('a:category', ns)) print(f'{i+1}. [{arxiv_id}] {title}') print(f' Authors: {authors}') print(f' Published: {published} | Categories: {cats}') print(f' Abstract: {summary}...') print(f' PDF: https://arxiv.org/pdf/{arxiv_id}') print() "
[/code]
Синтаксис поискового запроса¶
| Префикс | Поиск по | Пример |
|---|---|---|
all: |
Всем полям | all:transformer+attention |
ti: |
Названию | ti:large+language+models |
au: |
Автору | au:vaswani |
abs: |
Аннотации | abs:reinforcement+learning |
cat: |
Категории | cat:cs.AI |
co: |
Комментарию | co:accepted+NeurIPS |
| ### Булевы операторы | ||
| [code] | ||
| # AND (по умолчанию при использовании +) | ||
| search_query=all:transformer+attention |
# OR
search_query=all:GPT+OR+all:BERT
# AND NOT
search_query=all:language+model+ANDNOT+all:vision
# Точная фраза
search_query=ti:"chain+of+thought"
# Комбинированный
search_query=au:hinton+AND+cat:cs.LG
[/code]
Сортировка и пагинация¶
| Параметр | Опции |
|---|---|
sortBy |
relevance, lastUpdatedDate, submittedDate |
sortOrder |
ascending, descending |
start |
Смещение результатов (начиная с 0) |
max_results |
Количество результатов (по умолчанию 10, макс. 30000) |
| [code] | |
| # Последние 10 статей в cs.AI | |
| curl -s "https://export.arxiv.org/api/query?search_query=cat:cs.AI&sortBy=submittedDate&sortOrder=descending&max_results=10" |
[/code]
Получение конкретных статей¶
[code] # По arXiv ID curl -s "https://export.arxiv.org/api/query?id_list=2402.03300"
# Несколько статей
curl -s "https://export.arxiv.org/api/query?id_list=2402.03300,2401.12345,2403.00001"
[/code]
Генерация BibTeX¶
После получения метаданных статьи можно сгенерировать BibTeX-запись: {% raw %} [code] curl -s "https://export.arxiv.org/api/query?id_list=1706.03762" | python3 -c " import sys, xml.etree.ElementTree as ET ns = {'a': 'http://www.w3.org/2005/Atom', 'arxiv': 'http://arxiv.org/schemas/atom'} root = ET.parse(sys.stdin).getroot() entry = root.find('a:entry', ns) if entry is None: sys.exit('Paper not found') title = entry.find('a:title', ns).text.strip().replace('\n', ' ') authors = ' and '.join(a.find('a:name', ns).text for a in entry.findall('a:author', ns)) year = entry.find('a:published', ns).text[:4] raw_id = entry.find('a:id', ns).text.strip().split('/abs/')[-1] cat = entry.find('arxiv:primary_category', ns) primary = cat.get('term') if cat is not None else 'cs.LG' last_name = entry.find('a:author', ns).find('a:name', ns).text.split()[-1] print(f'@article{{{last_name}{year}_{raw_id.replace(\".\", \"\")},') print(f' title = {{{title}}},') print(f' author = {{{authors}}},') print(f' year = {{{year}}},') print(f' eprint = {{{raw_id}}},') print(f' archivePrefix = {{arXiv}},') print(f' primaryClass = {{{primary}}},') print(f' url = {{https://arxiv.org/abs/{raw_id}}}') print('}') "
[/code]
Чтение содержимого статей¶
После нахождения статьи вы можете прочитать её: [code] # Страница с аннотацией (быстро, метаданные + аннотация) web_extract(urls=["https://arxiv.org/abs/2402.03300"])
# Полный текст статьи (PDF → markdown через Firecrawl)
web_extract(urls=["https://arxiv.org/pdf/2402.03300"])
[/code]
Для локальной обработки PDF см. навык ocr-and-documents.
Распространённые категории¶
| Категория | Область |
|---|---|
cs.AI |
Artificial Intelligence (Искусственный интеллект) |
cs.CL |
Computation and Language (NLP) (Вычисления и язык) |
cs.CV |
Computer Vision (Компьютерное зрение) |
cs.LG |
Machine Learning (Машинное обучение) |
cs.CR |
Cryptography and Security (Криптография и безопасность) |
stat.ML |
Machine Learning (Statistics) (Машинное обучение, статистика) |
math.OC |
Optimization and Control (Оптимизация и управление) |
physics.comp-ph |
Computational Physics (Вычислительная физика) |
| Полный список: https://arxiv.org/category_taxonomy | |
| ## Вспомогательный скрипт | |
Скрипт scripts/search_arxiv.py обрабатывает парсинг XML и предоставляет чистый вывод: |
|
| [code] | |
| python scripts/search_arxiv.py "GRPO reinforcement learning" | |
| python scripts/search_arxiv.py "transformer attention" --max 10 --sort date | |
| python scripts/search_arxiv.py --author "Yann LeCun" --max 5 | |
| python scripts/search_arxiv.py --category cs.AI --sort date | |
| python scripts/search_arxiv.py --id 2402.03300 | |
| python scripts/search_arxiv.py --id 2402.03300,2401.12345 |
[/code] Без зависимостей — используется только стандартная библиотека Python.
Semantic Scholar (Цитирования, Похожие статьи, Профили авторов)¶
arXiv не предоставляет данные о цитированиях или рекомендации. Используйте Semantic Scholar API для этого — бесплатно, без ключа для базового использования (1 запрос/сек), возвращает JSON.
Получение информации о статье + цитирования¶
[code] # По arXiv ID curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300?fields=title,authors,citationCount,referenceCount,influentialCitationCount,year,abstract" | python3 -m json.tool
# По Semantic Scholar paper ID или DOI
curl -s "https://api.semanticscholar.org/graph/v1/paper/DOI:10.1234/example?fields=title,citationCount"
[/code]
Получение цитирований статьи (кто на неё сослался)¶
[code] curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/citations?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool
[/code]
Получение ссылок из статьи (на что она ссылается)¶
[code] curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:2402.03300/references?fields=title,authors,year,citationCount&limit=10" | python3 -m json.tool
[/code]
Поиск статей (альтернатива поиску arXiv, возвращает JSON)¶
[code] curl -s "https://api.semanticscholar.org/graph/v1/paper/search?query=GRPO+reinforcement+learning&limit=5&fields=title,authors,year,citationCount,externalIds" | python3 -m json.tool
[/code]
Получение рекомендаций статей¶
[code] curl -s -X POST "https://api.semanticscholar.org/recommendations/v1/papers/" \ -H "Content-Type: application/json" \ -d '{"positivePaperIds": ["arXiv:2402.03300"], "negativePaperIds": []}' | python3 -m json.tool
[/code]
Профиль автора¶
[code] curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=Yann+LeCun&fields=name,hIndex,citationCount,paperCount" | python3 -m json.tool
[/code]
Полезные поля Semantic Scholar¶
title, authors, year, abstract, citationCount, referenceCount, influentialCitationCount, isOpenAccess, openAccessPdf, fieldsOfStudy, publicationVenue, externalIds (содержит arXiv ID, DOI и т.д.)
Полный рабочий процесс исследования¶
- Поиск:
python scripts/search_arxiv.py "ваша тема" --sort date --max 10 - Оценка влияния:
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID?fields=citationCount,influentialCitationCount" - Чтение аннотации:
web_extract(urls=["https://arxiv.org/abs/ID"]) - Чтение полного текста:
web_extract(urls=["https://arxiv.org/pdf/ID"]) - Поиск связанных работ:
curl -s "https://api.semanticscholar.org/graph/v1/paper/arXiv:ID/references?fields=title,citationCount&limit=20" - Получение рекомендаций: POST к endpoint рекомендаций Semantic Scholar
- Отслеживание авторов:
curl -s "https://api.semanticscholar.org/graph/v1/author/search?query=ИМЯ"
Ограничения частоты запросов¶
API| Ограничение| Авторизация ---|---|---| arXiv| ~1 запрос / 3 секунды| Не требуется Semantic Scholar| 1 запрос / секунду| Не требуется (100/сек с API-ключом)
Примечания¶
- arXiv возвращает Atom XML — используйте вспомогательный скрипт или сниппет для парсинга, чтобы получить чистый вывод
- Semantic Scholar возвращает JSON — передавайте через
python3 -m json.toolдля читаемости - arXiv ID: старый формат (
hep-th/0601001) и новый (2402.03300) - PDF:
https://arxiv.org/pdf/{id}— Аннотация:https://arxiv.org/abs/{id} - HTML (если доступно):
https://arxiv.org/html/{id} - Для локальной обработки PDF см. навык
ocr-and-documents
Версионирование ID¶
arxiv.org/abs/1706.03762всегда разрешается в последнюю версиюarxiv.org/abs/1706.03762v1указывает на конкретную неизменяемую версию- При создании цитирований сохраняйте суффикс версии, которую вы фактически читали, чтобы предотвратить дрейф цитирований (более поздняя версия может существенно изменить содержание)
- Поле
<id>API возвращает URL с версией (например,http://arxiv.org/abs/1706.03762v7)
Отозванные статьи¶
Статьи могут быть отозваны после отправки. В этом случае:
* Поле <summary> содержит уведомление об отзыве (ищите "withdrawn" или "retracted")
* Поля метаданных могут быть неполными
* Всегда проверяйте аннотацию, прежде чем считать результат валидной статьёй
- Метаданные навыка
- Справочник: полный SKILL.md
- Быстрая справка
- Поиск статей
- Синтаксис поискового запроса
- Сортировка и пагинация
- Получение конкретных статей
- Генерация BibTeX
- Чтение содержимого статей
- Распространённые категории
- Вспомогательный скрипт
- Semantic Scholar (Цитирования, Похожие статьи, Профили авторов)
- Полный рабочий процесс исследования
- Ограничения частоты запросов
- Примечания
- Версионирование ID
- Отозванные статьи