Теперь Кью работает в режиме чтения

Мы сохранили весь контент, но добавить что-то новое уже нельзя

Пытаюсь выгруженный из 1С файл в html сохранить как файл excel. выбивает ошибку. SyntaxError: Non-UTF-8 code starting with '\xcf'

Добрый день. Получаю выгрузку данных из 1С в html (весом 225 мб.) эту выгрузку необходимо сохранить как excel. Если делать руками открыть с помощью эселя и сохранить как книгу уходит уйма времени, пришла мысль использовать python. Я пробую двумя способами, и всегда ошибка. Разными способами пытался решить проблему с кодировкой, так же "раздавал" права на запись и редактирование файлов в Windows. определенно что-то делаю не так. Спасите, пожалуйста. :(

Способ 1.

import os

from bs4 import BeautifulSoup

from openpyxl import Workbook

# Путь до файла

filename = "D:\\cherry\\test.xlsb"

# Получаем директорию файла

dir_path = os.path.dirname(filename)

# Проверяем наличие директории для файла и создаем, если ее нет

if not os.path.isdir(dir_path):

os.makedirs(dir_path)

# Проверяем возможность записи в директорию

if not os.access(dir_path, os.W_OK):

print("Папка " + dir_path + " недоступна для записи")

exit()

# Проверка существования файла. Если файла нет, он будет создан.

if not os.path.isfile(filename):

open(filename, "w").close()

# Изменение разрешений на выходной файл

os.chmod(filename, 0o777)

with open("D:\\cherry\\Vygruzka.html", encoding="utf-8", errors="ignore") as fpx:

soup = BeautifulSoup(fpx, "html.parser")

wb = Workbook()

ws = wb.active

for i, link in enumerate(soup.find_all('a')):

ws.cell(row=i+1, column=1, value=link.get('href'))

ws.cell(row=i+1, column=2, value=link.text)

wb.save(filename)

Выбивает ошибку SyntaxError: (unicode error) 'utf-8' codec can't decode byte 0xcf in position 0: invalid continuation byte

19:09:34:894 Программа "python.exe" завершилась с кодом 1 (0x1).

Способ 2.

mport os

from bs4 import BeautifulSoup

from openpyxl import Workbook

html_file = 'D:\\cherry\\Vygruzka.html'

excel_file = 'D:\\cherry\\file.xlsx'

# Определяем правильную кодировку файла HTML

with open(html_file, 'rb') as f:

content = f.read()

charset = BeautifulSoup(content, "html.parser").original_encoding

# Если кодировка не определена, используем UTF-8

if not charset:

charset = "utf-8"

# Читаем HTML-файл

with open(html_file, encoding=charset) as f:

soup = BeautifulSoup(f, 'html.parser')

# Сохраняем данные в Excel-файл

wb = Workbook()

ws = wb.active

for i, link in enumerate(soup.find_all('a')):

ws.cell(row=i+1, column=1, value=link.get('href'))

ws.cell(row=i+1, column=2, value=link.text)

wb.save(excel_file)

print('Folder save')

SyntaxError: Non-UTF-8 code starting with '\xce' in file C:\Users\ZORD\source\repos\paser_html_to_excel_v2\paser_html_to_excel_v2\paser_html_to_excel_v2.py on line 8, but no encoding declared; see https://peps.python.org/pep-0263/

Excel#html+3

Анонимный вопрос · 6 июн 2023 · 14,7 K

Денис Сенатов

Был программистом и юристом. Стал плотником... · 6 июн 2023

Вам, конечно, виднее как решать вопрос. Но выглядит как решение не той задачи.

Что бы вы не пытались получить из 1с, там есть встроенная возможность получить это в ексель-совместимом формате. Либо сохраняя данные стандартного отчета, либо, найдя его в конфигураторе и модифицировав функцию вывода в отчет, выгрузить в csv файл. Это будет много быстрее, даже если вы 1с до этого в глаза не видели.

Выгруженный html открывается как html?

Там, вероятно, таблица. Эта таблица дивами, или как table, <td> <tr>

Если первое, чуть сложнее, если второе - элементарно удалить все лишнее форматирование хоть кодом, хоть руками, через поиск-замену. А когда останется голая таблица - скриптом заменить </td></tr> на перевод строки. <td> на пробел. </td> на ;

Получится тот же csv файл.

А если железо мощное - тупо в ворде открыть html и через 'выделить все', копировать, вставить в эксель.

Если это разовая задача - она решается по-обезьяньи. А если это такая автоматизация, то действительно не грамотная постановка.

Анонимный комментарий

7 июн 2023

Прекрасно знаю о возможности выгружать отчеты из 1с в формате excel но увы есть ряд технических особенностей... Читать дальше

Dmitry Maslov

Инженер путей сообщения – строитель · 6 июн 2023

Э.в. пюфон выдаёт же вам ошибку «Не-utf8 код начинается с \xcf при этом не указана кодировка»? Т.е. в самом начале потока данных находится недопустимый символ, становящийся допустимым, если при сохранении явно указать кодировку... Читать далее

А.

6 июн 2023

А насколько хорошо надо английский язык знать? Как родной, что ли?