뉴스 스크랩시 content를 가져오는 대신 더 효율적인 방안은 무엇일까요?
안녕하세요.
네이버 뉴스 스크립 시 content를 그대로 사용하니 불필요한 정보가 너무 많아서 LLM이 이를 처리하는데 시간도 오래 걸리고, 토큰 비용도 불필요하게 소모되는 것 같은데 혹시 범용적으로 사용 가능한 대안이 있다면 무엇일까요?
웹 지식이 부족해서 반복 시청하며 공부 중인데 저 부분에 대해 조언 주시면 감사하겠습니다!
답변 1
0
안녕하세요! 좋은 질문 감사합니다.
네이버 뉴스 기사 페이지로 넘어가면 HTML 형식이 동일하니 파싱이 가능할 것 같은데 아무래도 각 사의 페이지로 이동해서 content를 긁어오다보니 쉽지않네요 ㅠㅠ 추가로 작업을 한다고 한다면, 텍스트가 아닌 태그들을 제거하는 방식을 취할 수 있을 것 같습니다.
예를 들면 가끔씩 <script> 가 <body> 에 포함되어있는 경우도 있고, <a> , <img><button> 과 같은 태그들을 모두 제거하고, 남아있는 태그들에서만 Content를 추출해서 LLM에 전달한다면 말씀하신 불필요한 토큰 소모가 줄어들 거라고 생각합니다.
만약 회사에서 사용하신다고 한다면, 어쩌면 BraveAPI를 사용하시는게 더 좋은 대안일수도 있을 것 같습니다.
n8n으로 context를 고려한 이메일 답장 드래프트 작성 봇 생성 강의
0
40
2
Streamlit 사용하기 위한 과정 진행 중 email_agent.py 작성 후 실행 부분 오류
0
47
2
구글 드라이브 연결 에러
0
53
2
웹훅 설정 시
0
33
2
배포과정 금액이 상관 없다면 N8N 월간 비용으로 결제하고 수업따라가도 괜찮을까요?
0
72
2
Basic LLM Chain 에서 모델 추가 시 API 키
0
52
2
이해가 안됩니다.
0
40
1
트리거의 Ignore SSL Issues 옵션
0
46
1
Gmail 트리거 생성 후 fetch 테스트 시 에러
0
54
2
야매버전 마지막에서 막힙니다 ㅠ
0
65
2
호스팅영역 질문
0
49
2
route 53 오류메시지
0
56
2
docker 설치 후
0
61
2
스크랩한 뉴스를 이메일로 보내는 n8n 봇
0
81
2
이메일 답장 드래프트 작성 봇 생성에서 에러
0
69
2
n8n Self-signed Certificate in certificate chain 이슈
0
128
2
Notion 강의 자료가 보이지 않습니다.
0
86
1
24강 코드리뷰 에이전트 질문
0
83
2
10강 google sheet 관련 질문
0
70
1
19강에 있는 postgres account 계정 로그인이 안돼요
0
88
2
이메일 답장 드래프트 작성 개선 관련
0
82
1
섹션 3 : 이메일 작성 도우미 질문
0
81
2
LangGraph로 구현한 봇을 n8n으로 전환 관련 질문
0
90
2
Agent 성능 관련 문의
0
94
2





